Tag Archives: R

ANÁLISIS DE CORRESPONDENCIAS ¡COSA DE CONTAR LOS DULCES!

Mira a un niño pequeño que aún no ha aprendido a contar y te darás cuenta que su forma de analizar las cosas se basa en clasificarlas (categorizarlas). Por ejemplo, si le das una bolsa de dulces, juntará los bombones en un lugar, los chicles en otro, los tamarindos en otro, las paletas en otro más y así por el estilo. Por ejemplo, en México existe la tradición del día de muertos en la cual los niños grandes y chicos salen a la calle a pedir dulces a los transeúntes o casa por casa (es muy parecido a la tradición del Halloween en los Estados Unidos), cuando regresan a casa lo primero que hacen es clasificar los dulces y luego contarlos. Resulta que esta forma de analizar las cosas no se pierde, no importa qué tan grande o viejo seas o qué tan bueno te hayas vuelto para contar.

Siguiendo con el ejemplo, supón que cinco niños regresan de pedir para su calaberita (así se dice en México para pedir los dulces) y cada uno de ellos clasifica y cuenta sus dulces. En la tabla de abajo puedes ver como les fue. ¡Claro! según sus propias cuentas.

tabla dulces

Antes de continuar, es necesario que hagamos un par de observaciones de lo anteriormente dicho:

1. La forma más fácil de familiarizarnos con las marcas o conceptos es clasificándoles. Por eso es tan básico e importante para los mercadólogos medir el conocimiento ayudado y “share of mind” (véase el artículo sobre conocimiento de marca).

2. Aunque el nivel de medición nominal (clasificar las cosas por categorías) es el patito feo de la investigación debido a que es el más básico, tiene la misma fuerza estadística o incluso más que los otros 2 niveles de medición: el ordinal o de intervalo y el de razón; es decir, el que usa escalas convencionales para medir las actitudes o conceptos (Totalmente de acuerdo-Totalmente en desacuerdo, Nada importante-Muy importante, Nada satisfecho-Totalmente satisfecho, etc.) y el que usa universales (peso, edad, kilómetros, tiempo, dinero, etc.), respectivamente.

Debido a lo que acabamos de decir y a la necesidad de ver como les fue a Salvador, Sandra, Carlitos, Juan e Isabel es que surgió el análisis de correspondencias, el cual ya es un viejo conocido de los investigadores de mercados. En pocas palabras, el análisis de correspondencias es un mapa perceptual en el cual puedes ver que tipo de dulces le tocó a cada quien lo que a su ves te ayuda a saber que niños se parecen más por el tipo de dulces que tienen (advertencia: no se refiere a quién tiene más dulces). Por supuesto, que esta técnica además de analizar dulces y niños sirve pa’ otras cosas. ¿Analizar marcas, conceptos, atributos? Sí o cualquier otra cosa que tengas clasificada en una tabla de contingencia. Antes de continuar y para que nos vayamos entendiendo te presento el mapa perceptual de estos singulares niños, hecho con el paquete CA de R.

mapa correspondencias de dulcesY sí, nuevamente. Este post es para explicarte las cuestiones esenciales del análisis de correspondencias y como elaborarlo con el paquete anteriormente mencionado. En general, las estadísticas que hay detrás de él son muy sencillas pero demasiado elaboradas para poderlas hacer a mano, por lo cual no voy a entrar en detalles estadísticos; sin embargo, si quieres una lectura sencilla y que te lleve de la mano acerca de cómo se elabora este mapa puedes leer el libro de (Michael Greenacre: “La Práctica del Análisis de Correspondencias”).

Casi todos los investigadores cuantitativos tenemos nuestro primer contacto con los datos de una investigación a través de una tabla de contingencia o banner, como también se le llama en el mundo de la investigación, y es casi seguro que también todos experimentamos nuestro primer ataque de ansiedad con ella por las siguientes 4 razones:

1. La tabla parece una sopa de letras, de tanto numerito que trae no más no sabemos qué buscar o ver. Para el investigador es tan básico e importante saber leer estas tablas que hay un libro, (“Dígalo con números” de Hans Zeisel) que data de mediados del siglo pasado, cuyo único propósito es explicar como interpretar estas tablas de contingencia.

2. Nos damos cuenta que hay todo un conjunto de conceptos estadísticos que medio conocemos o de plano no sabemos ni jota de ellos, como neto, diferencia significativa, multiplicidad, desviación estándar, entre una veintena de otros más. Y eso sin contar los conceptos mercadólogicos como “top of mind”, “share of mind”, “banner”, “NPS (Net Promoter Score”), etc.

3. Con tantos números que hay en la tabla o banner y nuestro desconocimiento de algunos conceptos estadísticos nos resulta muy difícil ver las relaciones que hay entre las marcas y sus atributos.

4. No está el Chapulín Colorado para que venga a ayudarnos.

Gracias a Dios y a los matemáticos existe el análisis de correspondencias para resolver esos pequeños inconvenientes, sobre todo si queremos mostrarle los datos a los gerentes o personas que no están muy familiarizadas con las tablas de contingencia.

Ahora que ya conocemos el “input” (la tabla que se usa para hacer el mapa) y el “output” (el mapa que resulta de esos datos), así como las razones para usarlo, vamos contestando algunas preguntas:

Pregunta 1. ¿Puedo usar una tabla de frecuencias o porcentajes para hacer el mapa de correspondencias? Sí, es indistinto si usas frecuencias o porcentajes y también si éstos son por renglón o por columna debido a una característica del análisis de correspondencias que analiza de forma simétrica las columnas y renglones de la tabla. Es decir, no importa si caminas parado de manos o de forma normal de todas formas caminas la misma distancia en el mismo tiempo, está chido ¿verdad? Pero eso sí, todos los datos deben estar en porcentajes o en frecuencias, nada de que unos coludos y otros rabones.

Pregunta 2. ¿Cuando debo usar este tipo de mapas? ¡Ah! esa es una excelente pregunta. La mayoría los emplea cuando tiene datos categóricos (frecuencias o porcentajes) porque piensa que es el mapa adecuado para el tipo de datos pero se olvidan que el resultado del mapa no es cuantitativo sino cualitativo; es decir, el mapa no dice qué marca es la más chipocluda sino que solamente señala que marca se distingue por qué atributo. En otras palabras, señala un posicionamiento y no un apalancamiento; debido a esto nosotros sólo lo usamos cuando las marcas ya han estado en el mercado y no para evaluar conceptos nuevos, en ese caso es mejor usar un biplot.

Pregunta 3. ¿Na’ más se puede hacer con el programa R, parece muy difícil? ¡Nelson! También se puede hacer con casi todos los programas estadísticos que conoces: SPSS, SAS, MINITAB, etc. ya que como lo comenté es un viejo conocido de los mercadólogos y es casi obligado para los desarrolladores de software tenerlo entre sus algoritmos básicos; y tampoco es difícil hacerlo en R.

Pregunta 4. ¿Y cómo se hace? Pos fácil. El siguiente video te dice cómo.

Pregunta 5. ¿Cómo se interpreta el mapa? Muy bien, si observas el mapa de arriba te darás cuenta que Sandra se asocia mucho con Bombones, esto no significa que haya recibido más bombones que otro niño, aunque podría ser, sino más bien que es el dulce que más recibió ella en su propio promedio. Por ejemplo, la misma Sandra e Isabel son las que más paletas recibieron y coincidentemente obtuvieron el mismo número de paletas (17) pero Carlitos está más cerca de las paletas que la propia Sandra, esto se debe a que en promedio a Charly le fue mejor en las paletas. En pocas palabras, donde mejor se desempeñe alguien allí es donde va a aparecer.

Pregunta 6. ¿Por qué el mapa se extiende más de manera horizontal que vertical? Debido a que entre los tamarindos y las paletas fue donde se encontraron las mayores diferencias entre los niños. Ojo no son los dulces que más se repartieron pero si los que lo hicieron de manera más inequitativa; de hecho se repartieron más bombones (66) que tamarindos (65) y paletas (60).

Pregunta 7. ¿Esa “inequitatividad” es lo que se llama varianza? !Exacto¡ Si un mapa explica el 100% de varianza quiere decir que las diferencias observadas son idénticas a las que hay en la tabla. En otras palabras, es una foto con una definición HD de los datos que se pueden ver en la tabla; lo que significa que si en el mapa te reportan que la varianza explicada es menor a 70% tal vez el mapa no se relaciona mucho con tu tabla de datos. En el caso del mapa de los dulces la varianza total explicada entre en eje “X” (86.34%) y el “Y” (13.53%) fue de 99.87% o sea que el mapa es todo un “hit”. Por cierto, la varianza va de 0 a 100% siempre, no puede salirse de esos valores.

Pregunta 8. ¿Por qué unos mapas explican mucha diferencia entre marcas y otras poca? Bueno, algunos datos se ajustan a un patrón muy identificable mientras que otros no por lo que se deben usar más dimensiones para explicarlos. Sin embargo, los mapas de correspondencias se presentan, usualmente, en las dimensiones “X” (horizontal) y “Y” (vertical) y se reporta la varianza que explica cada eje o dimensión que sumadas nos da la varianza total explicada. Por eso el mapa se abre más horizontalmente cuando la varianza que explica el eje “X” es mayor que la del eje “Y” y a la inversa, se abre más de forma vertical que horizontal cuando el eje “Y” explica más que “X”. Sé que este tema de varianza es complicado pero es necesario para cualquier investigador por lo que te recomiendo que leas el artículo “Varianza y Covarianza” del libro de Fred N. Kerlinger titulado “Investigación del Comportamiento” o si te da hueva por lo menos échate nuestro artículo de Varianza y el Perico Jefe.

Eso…eso…eso es, toto, toto, toto, todo amigos.

MaxDiff (ESCALAMIENTO DE DIFERENCIAS MAXIMAS) II de II

Me contó un amigo que un día estaba en la iglesia y que a unos cuántos metros de él había un hombre que pedía fervientemente a Dios 100 mil pesos; cuando vio llegar a otro hombre, el cual se hincó justo al lado del primero e inmediatamente comenzó a rezarle a Dios para pedirle mil pesos, no había hecho su plegaria ni dos veces cuando el que pedía 100 mil pesos sacó de su cartera los mil pesos, se los dio al otro devoto creyente y le dijo: ¡Toma y lárgate de aquí que me lo distraes! Dicen que Dios no hace diferencias entre sus hijos pero los humanos sí y eso es lo que intentamos medir con la técnica MaxDiff.

Intentamos medir las diferencias en la percepción de los consumidores sobre marcas y/o atributos; esto usualmente se hace mediante escalas y MaxDiff es una escala; más elaborada estadísticamente que la gran mayoría pero con ventajas psicométricas que la hacen la preferida de muchos investigadores y la inútil para otros tantos. Es algo parecido a la “Gran Ola de la Corriente Tortuga” o sea el Kame Hame Ha de Gokú que es bueno pero no infalible ¿Quieres convertirte en Super Sayayin? Sigue leyendo.

Esquemáticamente, un análisis maxdiff se hace así: primero, debes decidir qué medir, en cuyo caso, comúnmente, hay de dos sopas, a). evaluar marcas o conceptos y b). evaluar características o atributos de la marca o el concepto. Por ejemplo, en una pequeña encuesta que acabamos de hacer les preguntamos a los entrevistados “¿Para usted, cuál de estos bancos es el mejor y cuál es el peor?” (véase la figura de abajo), lo que pretendíamos medir en dicho caso son las marcas de bancos.

mejor banco maxdiff

Si hubiéramos preguntado “¿Cuál de estos atributos es el más importante en una tarjeta de crédito y cuál es el menos importante?” (véase la figura de abajo), entonces hubiésemos estado más interesados en medir la importancia de los atributos de las tarjetas de crédito en lugar de las marcas de tarjetas de crédito.

atributos maxdiff

El segundo paso es crear los estímulos o tarjetas donde vienen los marcas o atributos que deseas evaluar; eso es lo que se llama diseño experimental y aunque parece complicado no lo es ya que sólo se trata de que combines bien las marcas o atributos de forma tal que sea pareja la cosa, como decía mi amá: “o todos coludos o todos rabones”. Para hacerlo guíate de este post (clic aquí).

El tercer paso es analizar los datos de la encuesta, hay dos formas de hacerlo:

a). Contando las veces que cada atributo o marca fue mencionada como “el mejor”, restarle las veces que fue mencionado como “el peor” y dividir el resultado entre el número de veces que fue evaluado el atributo o marca; en otras palabras, sacar un promedio. Por ejemplo, si el atributo A fue seleccionado como “el mejor” 2 veces y 1 vez como “el peor” en 6 ocasiones que fue evaluado, entonces su puntaje es (2-1)/6 = .16. El principal problema con este enfoque es que no pela para nada tu diseño experimental; es decir, si la marca A se junto con la marca D, marca E y G no importa, lo que importa es que haya una marca ganadora y una perdedora así que las interacciones entre esas marcas no cuentan; Sawtooth dice que este tipo de análisis resulta útil es ciertos casos dándote una buena idea de por donde anda el resultado o sea te puede resolver la vida si es que no eres muy exigente. Si quieres más detalles sobre como hacer el análisis consulta este paper de Sawtooth o esta página .

b). Utilizando software estadístico para modelos de selección discreta. En la siguiente tabla están las principales opciones de software; he puesto los costos, capacidad y el grado de facilidad para aprender cada programa.

comparacion softaware maxdiff

Bien, Sawtooth es el jefe, casi todo mundo lo usa, tiene toneladas de información y es fácil de aprender; Latent Gold Choice es lo que llaman los gringos “state of the art” o sea el último grito de la moda debido a los modelos refinados que utiliza, su interface es muy similar a la de SPSS con la cual mucha gente está familiarizada y es más o menos sencillo de aprender aunque no te ayuda a crear los estímulos de tu estudio lo cual puede ser un problema pues también se requieren cuando deseas hacer un estudio de conjoint; SAS es el peso pesado de todos ellos pero al parecer es caro, el servicio es malo (si no me crees intenta que te den un demo) aunque te resuelve la vida al 100% en todo lo que alguna vez hayas deseado hacer en investigación de mercados; Q es muy parecido a Latent Gold, se acopla muy bien al formato de SPSS y es bastante amigable, desafortunadamente falta información y tampoco crea los estímulos; puedes solicitar un demo sin los problemas a los que te enfrentarías con SAS; R es difícil para mucha gente pero tiene todo lo que se puede pedir para hacer análisis y en muchos casos es más sencillo que SAS; por ejemplo, para analizar maxdiff en R utilizando un simple modelo logit standard la cosa es sencilla.

¿Mi recomendación? Empieza a aprender R pero si tienes las posibilidad de comprar un software que te resuelva la vida al 100% pues tienes mi bendición.

Por favor animate a comentar que con eso ayudas a que este blog crezca.

BIPLOT

Estaba René Descartes tendido sobre su cama cuando observó que una mosca volaba en el techo de su habitación y entonces se le ocurrió que se podrían expresar las relaciones geométricas mediante una gráfica de ejes coordenados, sí, me refiero a los ejes cartesianos “x” y “y”, inmediatamente se levantó, tomó papel y pluma y dibujó dichos ejes coordenados y chance que hasta la posición de la mosca. Bueno, tal vez exagero pero así nació el primer mapa perceptual. Aunque la versión oficial dice que fue el inicio de la geometría analítica y no de los mapas perceptuales. Sin embargo, para nosotros los mercadólogos fue el primer mapa perceptual, ciertamente no de marcas ni de algo que tenga que ver con la mercadotecnia pero sólo es cuestión de sustituir a la mosca por aquellos objetos o marcas que nos interesan conocer su posicionamiento y ¡Voila!

El mapa de Descartes era oblicuo y tenía un solo cuadrante no como los mapas de hoy los cuales son de cuatro cuadrantes, rectangulares, triangulares, cubos, sin coordenadas, con más de dos coordenadas, circulares, entre muchas otras especies alienígenas tipo “crop circles”. La especie de la que vamos a hablar tiene cuatro cuadrantes y es todo un clásico en investigación de mercados. Quizá, por ser tan clásico mucha gente no se ha percatado de que ya cambio. En efecto, se llama biplot y la diferencia con el biplot tradicional es que ahora viene calibrado ¿Quieres saber a qué nos referimos con calibrado? Sigue leyendo.

matriz precio calidad de pizzas

Te apuesto 2 a 1 que cuando iniciaste en este negocio el primer mapa que hiciste fue un simple cruce de 2 variables (tus ejes cartesianos) y la evaluación de las marcas sobre esos atributos, algo muy parecido a lo que se hace cuando se gráfica la calidad vs. el precio de varias marcas: la calidad se gráfica sobre el eje de las x’s (horizontal) y el precio sobre el eje de las y’s (vertical) y esto es así porque convencionalmente la “x” representa la variable independiente y “y” la dependiente. En otras palabras, entre más aumentas la calidad más sube el precio o valor de tu marca, es decir, aumenta “x” y sube “y” o debería ¿verdad? Sin duda, esa es una de las formas más fáciles y prácticas de representar una relación además de que resulta entendible para todo mundo. En la ilustración de la izquierda se puede observar cuál es la marca de pizza con la mejor relación precio-calidad ¡Pan comido! ¿No es así? La bronca, sin embargo, es cuando tienes necesidad de representar la relación entre más de dos variables. Pongamos, por ejemplo, el estudio que hizo la Revista del Consumidor sobre la calidad de marcas de Pizza en el cual evaluó varías características sobre estas marcas, en casos como esos la solución es usar la técnica de descomposición de datos llamada biplot ¡No te asustes! Suena complicado pero es fácil, ya lo verás.

Los mercadólogos, al menos en México, solemos usar el programa Brandmap para elaborar nuestros mapas perceptuales, es un programa sencillo que trabaja desde Excel y básicamente se usa para correr análisis de correspondencias pero puede elaborar otros mapas como el biplot; quizá lo único indispensable que debes saber para utilizar este software es que el análisis de correspondencias se utiliza cuando tienes una tabla de porcentajes o frecuencias y el biplot cuando tienes una de promedios. En términos generales, un biplot te ayuda a representar gráficamente los datos de tu tabla con el beneficio de que puedes conocer las relaciones entre variables y marcas. Cosa que es muy difícil percibir con sólo ver la tabla. En la imagen de abajo puedes ver una tabla con los promedios obtenidos por cada marca (sin identificar) en una serie de atributos (también sin identificar para proteger al inocente).

tabla atributos de biplot  Mapa resultante de Brandmap.

biplot de brandmap

Cualquier mercadólogo que ha utilizado este tipo de mapas sabe lo complicado que es explicarle al cliente que el puntaje de una marca sobre un atributo se mide trazando una línea perpendicular de la marca al atributo, no es fácil que lo entiendan; asimismo, si al cliente se le ocurre preguntar qué es varianza explicada (el ángulo recto en la parte inferior izquierda de la ilustración anterior que dice 27.5% y 34.1%) la cosa se tensa más y por si todo esto fuera poco, si el mercadólogo se avienta a comentar que el grado de asociación entre los atributos está dado por el ángulo entre sus vectores: a mayor ángulo entre ellos es menor su asociación y a la inversa, a menor ángulo es mayor su relación, pos el cliente voltea a verle como diciéndole “No seas ma…”. Todo un problema ¿verdad? Tal vez por eso no se utilizan muchos mapas de este tipo y en muchos casos se prefiere seguir presentando únicamente la tabla con los promedios de las marcas. Es una práctica horrible pero así es.

La tabla de abajo contiene los datos de las variables de calidad que midió la Revista del Consumidor de algunas marcas populares de Pizza. Puedes presentar los datos así como vienen en la tabla o puedes optar por correr un biplot como el de la ilustración al principio de este post. Si observas y comparas con atención el biplot del principio con el que te da Brandmap (independientemente del tipo de datos en cada uno de ellos) vas a notar que en el primero los vectores (atributos o variables) corren de lado a lado de la gráfica no así los del segundo; además podrás notar que en el primer caso los ejes vienen graduados, es decir, traen la escala original sobre las cuales se evalúo a cada marca, eso no lo tiene el segundo mapa; bien, pues a eso se le llama ejes calibrados ¿Para qué sirven? Primero, para que puedas explicarle mejor al cliente que calificación tiene cada marca sin meterte en broncas “perpendiculares”; segundo, para que por fin te puedan entender lo que es varianza y tercero, olvidarte del ángulo ya que las líneas (variables o atributos) se acercan o juntan naturalmente haciendo visible la relación que hay entre ellas.

datos de pizzas del consumidor

¿Hasta aquí me vas siguiendo? Si sí, entonces, ya aprendiste la lección que dice: el biplot es una representación gráfica de datos multivariables de una matriz (tabla de datos), en la que las muestras (marcas) son representadas como puntos y las variables como ejes calibrados en un espacio de 2 o 3 dimensiones. Esto nos remite, necesariamente, a aclarar una confusión sobre el término biplot el cual NO se refiere a que los datos se puedan correr en sólo dos dimensiones (“x” y “y”) pues, es obvio que el mapa tiene varias dimensiones, estrictamente hablando cada variable representa una dimensión. El concepto de biplot se utiliza para dar a entender que tanto las columnas (variables) como los renglones (marcas o muestra) se pueden mostrar en un mismo mapa ¿Cómo se logra esto? Recuerdas que más arriba hablamos de que el biplot es una técnica de descomposición ¿si? Bueno, lo que se descompone es la tabla original de datos (matriz de datos original) en el producto de 2 matrices que nos dan la posición de los vectores y las marcas, eso se logra mediante técnicas estadísticas, una de las cuáles es la popular regresión lineal múltiple. ¿Quieres saber más? Lee este libro Biplots in Practice de Michael Greenacre ¿sólo quieres pasar un buen rato? Ve este vídeo.

La interpretación del resultado de un biplot es muy intuitiva. Fíjate en la ilustración del principio y observa a Pizza Hut, las líneas “perpendiculares” caen en el puntaje “estimado” que obtuvo esta marca en cada una de las variables; Por ejemplo, en cuanto a precio Pizza Hut tiene un precio arriba de los $12 pesos por rebanada de pizza (esto es requetefácil verlo con los ejes calibrados) mucho más barata que Benedetti’s que tiene un precio superior a los $20 pesos; en cuanto a Kilocalorías está en 210 aproximadamente, mucho menos kilocalorías que cualquier otra marca a excepción de Domino’s Pizza; asimismo, puedes notar que el sodio y las proteínas van de la mano, si sube la sal también lo hacen las proteínas, y algo muy parecido sucede con los carbohidratos; en español plano, mucha sal, muchas proteínas y carbohidratos en una sola rebanada de Pizza Hut. Así de simple ¿verdad? Ahora, recuerda que hablamos de una estimación y no de los valores de la tabla original que presentó la Revista del Consumidor ¿Por qué no es posible representar los datos idénticamente como en la tabla? Básicamente, porque lo que hacemos al emplear estadística es construir modelos que expliquen los datos de forma resumida o simplificada con el fin de describir los fenómenos o hacer predicciones así que necesariamente dichos modelos deben contener algún grado de error, a ese grado de error le llamamos varianza y para saber que tan bueno es el modelo nos fijamos en la varianza que explica ¿Complicado? Déjame ponerlo de esta manera: si le encargas a un pintor profesional que haga un retrato de alguna persona, no importa que tan bueno sea el pintor, jamás podrá capturar la imagen exacta del rostro de esa persona ¿Estás de acuerdo? Bien, ahora dime ¿cómo puedes saber que tan buena es la imagen que pinto el artista?…¡Fácil!, viendo a la persona del retrato y comparándola con la pintura que hizo el pintor. En estadística sucede lo mismo, la imagen del mapa biplot no puede capturar al 100% los datos que se observan en la tabla pero para saber que tan bien lo hizo comparamos los datos originales de la tabla vs. los datos estimados. A eso, estimado lector, se le llama varianza explicada.

En el siguiente vídeo puedes aprender a correr un biplot utilizando el programa estadístico R, en el mismo hacemos referencia a las cuestiones básicas; sin embargo, te ánimo a que estudies más en profundidad este paquete ya que trae cosas muy buenas para hacerlo puedes bajar el tutorial aquí

Unable to display content. Adobe Flash is required.

Unable to display content. Adobe Flash is required.

Unable to display content. Adobe Flash is required.