Tag Archives: varianza

ANÁLISIS DE CORRESPONDENCIAS ¡COSA DE CONTAR LOS DULCES!

Mira a un niño pequeño que aún no ha aprendido a contar y te darás cuenta que su forma de analizar las cosas se basa en clasificarlas (categorizarlas). Por ejemplo, si le das una bolsa de dulces, juntará los bombones en un lugar, los chicles en otro, los tamarindos en otro, las paletas en otro más y así por el estilo. Por ejemplo, en México existe la tradición del día de muertos en la cual los niños grandes y chicos salen a la calle a pedir dulces a los transeúntes o casa por casa (es muy parecido a la tradición del Halloween en los Estados Unidos), cuando regresan a casa lo primero que hacen es clasificar los dulces y luego contarlos. Resulta que esta forma de analizar las cosas no se pierde, no importa qué tan grande o viejo seas o qué tan bueno te hayas vuelto para contar.

Siguiendo con el ejemplo, supón que cinco niños regresan de pedir para su calaberita (así se dice en México para pedir los dulces) y cada uno de ellos clasifica y cuenta sus dulces. En la tabla de abajo puedes ver como les fue. ¡Claro! según sus propias cuentas.

tabla dulces

Antes de continuar, es necesario que hagamos un par de observaciones de lo anteriormente dicho:

1. La forma más fácil de familiarizarnos con las marcas o conceptos es clasificándoles. Por eso es tan básico e importante para los mercadólogos medir el conocimiento ayudado y “share of mind” (véase el artículo sobre conocimiento de marca).

2. Aunque el nivel de medición nominal (clasificar las cosas por categorías) es el patito feo de la investigación debido a que es el más básico, tiene la misma fuerza estadística o incluso más que los otros 2 niveles de medición: el ordinal o de intervalo y el de razón; es decir, el que usa escalas convencionales para medir las actitudes o conceptos (Totalmente de acuerdo-Totalmente en desacuerdo, Nada importante-Muy importante, Nada satisfecho-Totalmente satisfecho, etc.) y el que usa universales (peso, edad, kilómetros, tiempo, dinero, etc.), respectivamente.

Debido a lo que acabamos de decir y a la necesidad de ver como les fue a Salvador, Sandra, Carlitos, Juan e Isabel es que surgió el análisis de correspondencias, el cual ya es un viejo conocido de los investigadores de mercados. En pocas palabras, el análisis de correspondencias es un mapa perceptual en el cual puedes ver que tipo de dulces le tocó a cada quien lo que a su ves te ayuda a saber que niños se parecen más por el tipo de dulces que tienen (advertencia: no se refiere a quién tiene más dulces). Por supuesto, que esta técnica además de analizar dulces y niños sirve pa’ otras cosas. ¿Analizar marcas, conceptos, atributos? Sí o cualquier otra cosa que tengas clasificada en una tabla de contingencia. Antes de continuar y para que nos vayamos entendiendo te presento el mapa perceptual de estos singulares niños, hecho con el paquete CA de R.

mapa correspondencias de dulcesY sí, nuevamente. Este post es para explicarte las cuestiones esenciales del análisis de correspondencias y como elaborarlo con el paquete anteriormente mencionado. En general, las estadísticas que hay detrás de él son muy sencillas pero demasiado elaboradas para poderlas hacer a mano, por lo cual no voy a entrar en detalles estadísticos; sin embargo, si quieres una lectura sencilla y que te lleve de la mano acerca de cómo se elabora este mapa puedes leer el libro de (Michael Greenacre: “La Práctica del Análisis de Correspondencias”).

Casi todos los investigadores cuantitativos tenemos nuestro primer contacto con los datos de una investigación a través de una tabla de contingencia o banner, como también se le llama en el mundo de la investigación, y es casi seguro que también todos experimentamos nuestro primer ataque de ansiedad con ella por las siguientes 4 razones:

1. La tabla parece una sopa de letras, de tanto numerito que trae no más no sabemos qué buscar o ver. Para el investigador es tan básico e importante saber leer estas tablas que hay un libro, (“Dígalo con números” de Hans Zeisel) que data de mediados del siglo pasado, cuyo único propósito es explicar como interpretar estas tablas de contingencia.

2. Nos damos cuenta que hay todo un conjunto de conceptos estadísticos que medio conocemos o de plano no sabemos ni jota de ellos, como neto, diferencia significativa, multiplicidad, desviación estándar, entre una veintena de otros más. Y eso sin contar los conceptos mercadólogicos como “top of mind”, “share of mind”, “banner”, “NPS (Net Promoter Score”), etc.

3. Con tantos números que hay en la tabla o banner y nuestro desconocimiento de algunos conceptos estadísticos nos resulta muy difícil ver las relaciones que hay entre las marcas y sus atributos.

4. No está el Chapulín Colorado para que venga a ayudarnos.

Gracias a Dios y a los matemáticos existe el análisis de correspondencias para resolver esos pequeños inconvenientes, sobre todo si queremos mostrarle los datos a los gerentes o personas que no están muy familiarizadas con las tablas de contingencia.

Ahora que ya conocemos el “input” (la tabla que se usa para hacer el mapa) y el “output” (el mapa que resulta de esos datos), así como las razones para usarlo, vamos contestando algunas preguntas:

Pregunta 1. ¿Puedo usar una tabla de frecuencias o porcentajes para hacer el mapa de correspondencias? Sí, es indistinto si usas frecuencias o porcentajes y también si éstos son por renglón o por columna debido a una característica del análisis de correspondencias que analiza de forma simétrica las columnas y renglones de la tabla. Es decir, no importa si caminas parado de manos o de forma normal de todas formas caminas la misma distancia en el mismo tiempo, está chido ¿verdad? Pero eso sí, todos los datos deben estar en porcentajes o en frecuencias, nada de que unos coludos y otros rabones.

Pregunta 2. ¿Cuando debo usar este tipo de mapas? ¡Ah! esa es una excelente pregunta. La mayoría los emplea cuando tiene datos categóricos (frecuencias o porcentajes) porque piensa que es el mapa adecuado para el tipo de datos pero se olvidan que el resultado del mapa no es cuantitativo sino cualitativo; es decir, el mapa no dice qué marca es la más chipocluda sino que solamente señala que marca se distingue por qué atributo. En otras palabras, señala un posicionamiento y no un apalancamiento; debido a esto nosotros sólo lo usamos cuando las marcas ya han estado en el mercado y no para evaluar conceptos nuevos, en ese caso es mejor usar un biplot.

Pregunta 3. ¿Na’ más se puede hacer con el programa R, parece muy difícil? ¡Nelson! También se puede hacer con casi todos los programas estadísticos que conoces: SPSS, SAS, MINITAB, etc. ya que como lo comenté es un viejo conocido de los mercadólogos y es casi obligado para los desarrolladores de software tenerlo entre sus algoritmos básicos; y tampoco es difícil hacerlo en R.

Pregunta 4. ¿Y cómo se hace? Pos fácil. El siguiente video te dice cómo.

Pregunta 5. ¿Cómo se interpreta el mapa? Muy bien, si observas el mapa de arriba te darás cuenta que Sandra se asocia mucho con Bombones, esto no significa que haya recibido más bombones que otro niño, aunque podría ser, sino más bien que es el dulce que más recibió ella en su propio promedio. Por ejemplo, la misma Sandra e Isabel son las que más paletas recibieron y coincidentemente obtuvieron el mismo número de paletas (17) pero Carlitos está más cerca de las paletas que la propia Sandra, esto se debe a que en promedio a Charly le fue mejor en las paletas. En pocas palabras, donde mejor se desempeñe alguien allí es donde va a aparecer.

Pregunta 6. ¿Por qué el mapa se extiende más de manera horizontal que vertical? Debido a que entre los tamarindos y las paletas fue donde se encontraron las mayores diferencias entre los niños. Ojo no son los dulces que más se repartieron pero si los que lo hicieron de manera más inequitativa; de hecho se repartieron más bombones (66) que tamarindos (65) y paletas (60).

Pregunta 7. ¿Esa “inequitatividad” es lo que se llama varianza? !Exacto¡ Si un mapa explica el 100% de varianza quiere decir que las diferencias observadas son idénticas a las que hay en la tabla. En otras palabras, es una foto con una definición HD de los datos que se pueden ver en la tabla; lo que significa que si en el mapa te reportan que la varianza explicada es menor a 70% tal vez el mapa no se relaciona mucho con tu tabla de datos. En el caso del mapa de los dulces la varianza total explicada entre en eje “X” (86.34%) y el “Y” (13.53%) fue de 99.87% o sea que el mapa es todo un “hit”. Por cierto, la varianza va de 0 a 100% siempre, no puede salirse de esos valores.

Pregunta 8. ¿Por qué unos mapas explican mucha diferencia entre marcas y otras poca? Bueno, algunos datos se ajustan a un patrón muy identificable mientras que otros no por lo que se deben usar más dimensiones para explicarlos. Sin embargo, los mapas de correspondencias se presentan, usualmente, en las dimensiones “X” (horizontal) y “Y” (vertical) y se reporta la varianza que explica cada eje o dimensión que sumadas nos da la varianza total explicada. Por eso el mapa se abre más horizontalmente cuando la varianza que explica el eje “X” es mayor que la del eje “Y” y a la inversa, se abre más de forma vertical que horizontal cuando el eje “Y” explica más que “X”. Sé que este tema de varianza es complicado pero es necesario para cualquier investigador por lo que te recomiendo que leas el artículo “Varianza y Covarianza” del libro de Fred N. Kerlinger titulado “Investigación del Comportamiento” o si te da hueva por lo menos échate nuestro artículo de Varianza y el Perico Jefe.

Eso…eso…eso es, toto, toto, toto, todo amigos.

APRENDIENDO A MUESTREAR

En el año 2000 trabajaba como director de proyectos especiales en Pearson S.A. de C.V. una de las principales agencias de investigación en México y estaba encargado de los estudios de opinión que se hacían para el PRI (Partido Revolucionario Institucional); el último proyecto que hicimos ese año para este partido fue un conteo rápido o quick count que se utiliza para conocer los resultados de una elección, muchas horas antes de que se den las cifras oficiales, y el PRI deseaba conocer con anticipación al ganador de la elección para Presidente de la República Mexicana.

Este proyecto era sin duda el más grande y complejo y representaba la culminación de bastantes meses de trabajo y desvelo. El concepto de un conteo rápido es simple pero la metodología y la logística que implican son otra cosa; así que mi jefe por aquel entonces Manolo Barberena siguió el consejo de los Beatles “with a little help from my friends” y decidió que viéramos a Roy Campos. Las técnicas “quick count” y “exit poll” fueron desarrolladas por Warren Mitofsky de los Estados Unidos de Norteamérica y en México se dieron a conocer por el Dr. Roy Campos de la empresa Consulta Mitofsky, así que quién mejor que él para explicarnos.

Roy nos habló con bastante apertura sobre los puntos más importantes de un conteo rápido, nos comentó de la necesidad de ponderar (en algún otro post te hablaré de ponderación), del call center, sobre las secciones electorales, el conteo de votos, la forma en que recibiríamos los resultados, entre otros muchos aspectos pero lo que nos explicó sobre muestreo y el programa que usaba para obtener sus muestras fue lo que sin duda captó más nuestra atención. El programa podía seleccionar muestras aleatorias mediante un muestreo sistemático estratificado por conglomerados (sé que suena fuerte esto pero aguántate tantito y ahorita vas a ver que no es tan pantera como parece). Salimos de las oficinas de Roy mucho más confiados y por supuesto agradecidos por el “quick count for dummies” que nos acaba de dar y no recuerdo si Manolo le preguntó a Roy si vendía su programa de muestreo pero a mi sí me lo comentó y le respondí que era un magnifico programa pero que no era algo muy difícil de hacer y me acuerdo que me preguntó ¿Tú sabes hacer eso? Le dije que sí y después de eso me envío a un curso sobre muestreo a los Estados Unidos, cosa por la que yo también le estoy muy agradecido. ¡No te preocupes! no pienso contarte como me fue allá, voy ir directo al grano sobre cómo hacer un muestra para un estudio político. Sin embargo, sí te voy a pedir que leas a pierna suelta para que no se te haga densa la explicación.

Para fines electorales, México se divide en poco más 64,000 secciones y 300 distritos electorales dentro de los 32 Estados, incluyendo al Distrito Federal; las secciones electorales son de tres tipos: rurales, mixtas y urbanas y están compuestas por un número de electores que puede ir de 50 a 1500. La información sobre las secciones electorales es básica porque es la que se usa para sacar la muestra de tu estudio político ya sea éste un quick count, exit poll, preferencia electoral o cualquier otro.

Supón que sólo tienes 10 secciones electorales y hay únicamente 3 partidos políticos PAN, PRD y PRI; asimismo, tienes los resultados de la última votación por partido político en cada una de esas secciones. Si yo te pidiera que extrajeras una muestra al azar del 30%, o sea 3 secciones de las 10 que tienes para estimar como votaron los electores ¿cómo le harías para darme la mejor muestra o la más exacta? La forma más sencilla de hacerlo es, como en la escuela, elaborar 10 papelitos, cada uno de ellos con el número de una sección electoral distinta, doblarlos, meterlos en un recipiente, revolverlos y luego extraer 3 de ellos; a eso se le llama muestreo aleatorio simple y la única condición es que obtengas al azar tus secciones donde vas a ir a levantar tus entrevistas o a hacer el quick count. Ahora ¿qué tan exacta crees que puede ser tu muestra? para responderte necesito que veas el cuadro de abajo en él vienen nuestras 10 secciones electorales imaginarias y los resultados por partido.

Muestreo de estudios políticos

Como puedes observar en la tabla anterior el PAN tiene un 37% de los votos totales, el PRI el 43% y el PRD el 13%; imagina que las secciones que obtuviste al azar en tu muestreo aleatorio simple fueron la 3, 5 y 6, si sumas los resultados de esas secciones y obtienes el porcentaje total de votos de cada partido te darás cuenta que es totalmente inexacta tu muestra: el ganador es el PAN con 41% de la votación y no el PRI con el 39% aunque el PRD obtiene el mismo resultado (ve la tabla de abajo).

Muestreo aleatorio simple de estudios políticos

El truco para obtener una muestra más exacta es utilizar otro tipo de muestreo que se llama sistemático o de salto sistemático con un arranque aleatorio y hacerlo con base a la diferencia de votos que hay entre los principales partidos políticos; es decir, aquellos que captan el mayor número de votos, en este caso el PAN y el PRI. El procedimiento es simple, réstale los votos del PAN al PRI en cada sección y ordena las secciones electorales de menor a mayor o a la inversa, después obtén el salto sistemático mediante la fórmula “N/n” donde “N” es igual al número de secciones electorales y “n” es igual al tamaño de tu muestra; si tienes 10 secciones y el tamaño de tu muestra es de 3, entonces el salto sería de cada 3.33 secciones (no te fijes en los decimales y piensa que el salto sería de cada 3 secciones); posteriormente, saca un número al azar entre el 1 y el 10 o sea de entre el total de secciones, supón que obtuviste el 2, allí es donde debe empezar tu muestra y seleccionar la siguiente sección electoral cada 3 secciones como dice tu salto. Las secciones “afortunadas” son la 8, 5 y 2, como en la tabla de abajo.

Muestreo de estudios políticos por diferencias

Confío que hasta aquí no te hayas perdido. Lo único que hicimos fue ordenar por diferencia y seleccionar las secciones de acuerdo a ese orden, aunque debes ser observador y darte cuenta que con este método se seleccionan de forma automática las secciones electorales que tienen mayor y menor diferencia de votos así como las intermedias. En estadística a eso se le llama reducir varianza, y ese es el truco, una muestra será más exacta en la medida en que reduzcas la varianza. Mira la tabla siguiente y dime si los resultados no son más exactos: PAN (38%), PRD (12%) y PRI (44%).

Muestreo sistemático de estudios políticos

!Un momento¡ ¿Puedes hacer el muestreo más exacto? Claro, si conoces que variables influyen en la forma de votar de los electores. Por ejemplo, dijimos que hay secciones urbanas, mixtas y rurales y sabes que la gente del campo no vota igual que la de las ciudades o de las zonas semirurales (mixtas), entonces lo que tienes que hacer es dividir tus secciones en rurales, mixtas y urbanas y obtener una muestra de cada una de ellas de acuerdo al tamaño que representan; en otras palabras, si necesitas una muestra de 100 secciones electorales y sabes que el 60% son urbanas, el 10% mixtas y el 30% restante rurales tu muestra tendría que ser de 60 secciones urbanas, 10 mixtas y 30 rurales a ese procedimiento se le llama estratificar; así que tu muestra sería sistemática y estratificada, pero ¿y de dónde viene la fama de conglomerados? bueno, desde el momento en que seleccionas secciones electorales y no personas estás hablando de conglomerados aunque esos conglomerados pueden irse haciendo más y más pequeños. Cómo cuando seleccionas estados, luego dentro de los estados secciones y dentro de las secciones manzanas decimos que fue muestreo polietápico de 3 etapas y como dice el buen Aleks Syntek Sha-la-la, Sha-la-la, Sha-la-la.

Ya sólo para resumir y no quedarme con las ganas de contarte otra asúntacho. Efectivamente, se usan los datos de las elecciones pasadas para obtener la muestra para el siguiente estudio, si es para presidente pues usa esos resultados, si es para cámara de representantes usa los correspondientes a las elecciones de diputados y senadores; obtén varias muestras con el procedimiento que te describí compáralas entre si y la muestra que mejor pronostique o sea más exacta esa es la que debes utilizar.

¡Perdón! un último asunto y ya con ese cierro, lo prometo ¿Qué tan exactos son los resultados de un conteo rápido (quick count)? Déjame decírtelo de esta forma, cuando tuve que entregar la base de datos a nuestro cliente el PRI, me dí cuenta que había cualquier cantidad de errores de captura; muchos errores quiero decir, lo cual es comprensible por la rapidez con la que se deben entregar los resultados; y sin embargo, el resultado que dimos fue extremadamente preciso, muy parecido al de otras agencias. Ese mismo día alguien me comentó y que me perdone pero no recuerdo su nombre, que con semejante tamaño de muestra nadie, ninguna agencia podía equivocarse; por eso, hasta el día de hoy me preguntó ¿por qué en el 2006 una agencia, que fue la única que dio resultados a la opinión pública del exit poll que hizo con una mega muestra de votantes, se “equivocó” y dijo que el ganador de las elecciones presidenciales era el candidato del PRD? La verdad, esa agencia necesitaría haber hecho las cosas con las patas para haberse equivocado con semejante tamaño de muestra; no lo sé, igual y sí, o ¿tienes alguna hipótesis alternativa?

Cualquier comentario es bienvenido, hasta la próxima.

VARIANZA Y EL PERICO JEFE

Primero un chiste. Una persona deseaba comprar un perico por lo que se dirige a la tienda de mascotas y pregunta el precio del perico más distinguido de la tienda, el precio que le da el vendedor supera su presupuesto por lo que se fija en otro perico, no tan bonito como el primero; sin embargo, cuando pregunta cuánto cuesta, el vendedor sube el precio al doble; el comprador ya molesto discute con el vendedor diciéndole que cómo es posible que valga el doble si es más chico y menos bonito que el primer perico, a lo que el vendedor le contesta que se debe a que este perico habla. Un poco más tranquilo pero no muy convencido, decide preguntar por otro perico que se ve descuidado; no obstante, el vendedor sube aun más el precio de esta mascota; el comprador, francamente molesto, exige una explicación de porqué es tan caro y el vendedor con mucha calma responde “vale eso porque es bilingüe, además del español también habla inglés”; el comprador con el enojo reflejado en su rostro, le grita al vendedor “dónde están los pericos que no hablan” y éste sin exaltarse y con mucha tranquilidad le señala un rincón donde se encuentra un perico descansando y de peor aspecto que los anteriores; el comprador lo ve y se da cuenta que no es la mascota que desea aunque siente cierta compasión por la pobre ave y decide comprarlo pero cuando pregunta el precio; el vendedor simplemente se limita a responder que vale 5 veces más que el perico bilingüe. “Ahora sí, despertaste al dragón” dice el comprador hecho una furia y sujetando al vendedor por el cuello tratando de estrangularlo le dice “¿por qué es tan caro, si está horrible y además no habla ningún idioma?”, el vendedor con una voz ronca y que apenas se alcanza a escuchar dice “ya sé que no habla ningún idioma, ni sabe hacer nada pero todos los demás pericos le dicen jefe”.

Para muchos mercadólogos y también para algunos investigadores de mercado varianza es un concepto difícil de entender; no obstante, que es el más importante en investigación. Si no existiera la varianza no habría nada que comparar, nada que aprender, todo sería igual, no existiría la noche ni el día, la luz ni la obscuridad, lo bello ni lo feo, lo amargo ni lo dulce, ni siquiera existiría la vida, ni la tierra ni nada. Quizá, nunca te hayas detenido a pensar en esto pero gracias a esas variaciones tú aprendes; el proceso es así: observas, comparas y aprendes y lo haces una y otra vez en un ciclo interminable; si fueras una computadora diríamos que iteras; estás iterando cada vez que observas alguna diferencia; alguna veces logras entender porqué se da esa diferencia, es decir, de donde viene la varianza pero otras veces simplemente no sabes porqué suceden las cosas así, como en el caso del perico jefe.

Tres entrañables amigos tienen en total $18.00 pesos:

El niño Calderón tiene: $12.00 pesos
El niño Beltrones tiene: $ 5.00 pesos
El niño Peje tiene: $ 1.00 peso

Si no existieran variaciones diferencias entre estos amigos ¿cuánto dinero, de esos $18.00 pesos, crees que traería cada uno de ellos? es muy fácil, ¿verdad? cada uno de ellos traería $ 6.00 pesos. Si eres observador te darás cuenta que ese número es ni más ni menos que el promedio. Ahora si, pon mucha atención, el promedio es el número a partir del cual comparamos y observamos las diferencias; la varianza es otro promedio de esas diferencias. Calderón tiene $ 6.00 pesos más que el promedio; Beltrones $ 1.00 peso menos que el promedio y el Peje $ 5.00 pesos menos que el promedio. Para sacar el promedio de esas diferencias tenemos que sumarlas pero si lo haces así, como va, sin miramientos, el resultado sería cero: + 6 – 1 – 5 = 0; debido a esa circunstancia es que se elevan al cuadrado las diferencias para eliminar los números negativas y poder promediarlos; a la suma de esos números elevados al cuadro se le llama suma de cuadrados y al promedio se le llama varianza; a propósito si le sacas raíz cuadrada a la varianza obtienes la desviación estándar. ¡Precaución! la forma de calcular la varianza difiere un poco de la manera en que se ilustra aquí.

tabla de varianza

Ahora imagínate una cascara de basquetbol entre cuatro amigos:

El equipo 1 compuesto por los jugadores A y B contra el equipo 2 formado por los jugadores C y D en este juego gana el equipo 1.
Se echan otro partidito pero intercambian pareja:
El equipo 1 ahora se compone por los jugadores A y C y el equipo 2 por los jugadores B y D, en este otro juego gana nuevamente el equipo 1.
Juegan un tercer partido y de nueva cuenta intercambian jugadores:
El equipo 1 se compone de los jugadores A y D contra el equipo 2 formado por los jugadores B y C el resultado es idéntico vuelve a ganar el equipo 1.
Ya te diste cuenta que el jugador A es la principal fuente de variación de los resultados, siempre gana el equipo en el que juega. Tu trabajo como investigador es descubrir de donde viene esa varianza ¿Será que el jugador A es más alto, más fuerte, es profesional, tiene mejor técnica, etc. etc.? Cuando investigamos sobre algún producto, por ejemplo, un desodorante, debemos usarlo, olerlo, observarlo en el punto de venta, etc., etc. porque sólo así sabremos de donde provienen los resultados que nos arroja la investigación. La experiencia de un investigador es importante porque conoce mucho, sabe de dónde pueden venir las fuentes de variación, las diferencias, con ese conocimiento el mercadólogo puede hacer un mejor juego.

BKC,  Haukur Palsson ,  J.T. Terrell

Observa la imagen de arriba y dime algunas cosas tácticas que está haciendo el jugador que lleva el balón, te ayudo con unas cuantas:

1. Bota el balón muy cerca del suelo porque así es más difícil que el rival se lo quite.

2. Bota el balón con la mano derecha porque así lo pone lo más lejos que se puede del rival.

3. Asimismo, trata de alejar la mano derecha lo más que puede para maximizar esa distancia.

4. Inclina el cuerpo para empujar psicológicamente a su rival lejos del balón.

5. Esa misma inclinación le ayuda a adelantar el hombro y tratar de escabullirse por debajo del contrario.

¿Puedes ver algunas más? deja un comentario sobre ellas o lo que quieras. No te pierdas el próximo post, te voy a dar un programa en Excel para que evalúes el poder de tu marca. Hasta la próxima.