Tag Archives: R

CLUSTER ANALYSIS

“Dios los cría y ellos se juntan”. Así como este refrán hay una docena más que hacen referencia al proceso natural que agrupa a las personas, animales o cosas parecidas entre si. Por ejemplo, “Los burros del mismo pelo trotan juntos” o “De tal palo tal astilla” o que tal “Hijo de tigre pintito” o como decía mi amá “Todos coludos o todos rabones”, apuesto a que te sabes otros tantos. Bueno, así como hay dichos también hay formas, estadísticamente hablando, de agrupar a los objetos o sujetos que se basan precisamente en la filosofía común de que “Los pájaros del mismo plumaje vuelan juntos”. De todos ellos, quizá el método más conocido es el análisis de agrupamiento jerárquico o hierarchical cluster analysis en la lengua de Shakespeare y Ronald A. Fisher.

La descripción más exacta que podemos hacer de este método, ya la hicieron los Beatles hace décadas y dice así:

Antes de que nos metamos en la bronca de explicarte como funciona esta cosa o porqué los Beatles cantan “todos juntos ya”, déjanos decirte para que sirve, total si no te sirve pos para qué continuas leyendo, ¿verdad? Mira, el cluster analysis es una técnica, desde el momento en que leo que esto o aquello es una técnica siento que no vale la pena seguir leyendo y quizá a ti te pasa igual por eso mejor hagamos un reset.

Para vender productos o servicios debes perfilar a tus posibles víctimas (clientes); es decir, no puedes ofrecer tus servicios a todo mundo porque muchos de ellos simplemente no los utilizan o les importa un reverendo pepino lo que haces, anuncias o vendes; una vez que encuentras a las víctimas tienes que asegurarte de que no sólo están interesadas en lo que vendes sino que además son las más dóciles y cooperativas que hay o sea que en cuanto les digas “Eat at Joe’s” se dirijan, sin chistar, inmediatamente a tu changarro. Suena fácil ¿no es así? pero como dicen, del dicho al hecho hay mucho trecho, distancia. Por eso, para lograrlo tienes que acortar esa distancia ofreciéndoles lo que necesitan, desean, buscan, etc. ¿cómo? pues investígales, pregúuuuuuuntales, ca’ y con base a lo que te digan que les gusta y necesitan agrúpales; asimismo, observa si, además de parecerse en eso, también son similares por su edad, sexo, nivel socioeconómico, estado civil, marcas que usan, etc. A esta práctica se le nombra segmentación de mercados y es necesaria pues a través de ella se logra mayor efectividad del marketing.

Ahora sí, el cluster analysis se utiliza para dicha segmentación de mercado. Aquí te voy a decir como funciona el método jerárquico, el cual comienza con una simple unidad (objeto o sujeto) y termina agrupándolo todo. Hagamos un pequeño ejercicio, a pie, para que le tomes sabor a lo que decían los Beatles: “one, two, three, four…all together now”. El ejemplo de Hair, Anderson, Tatham y Black del libro “Análisis Multivariante” sobre cluster análisis es muy didáctico, así que nos lo vamos a “piratear”. En una escala de 0 a 10 donde 0 es nada leal y 10 es totalmente leal, se les preguntó a 7 sujetos que tan leales se consideran a la tienda donde compran y marca que compran, sus respuestas fueron las siguientes:

tabla de lealtad cluster

Con una inspección somera de la tabla puedes darte cuenta que el sujeto E y F son muy parecidos, tienen casi los mismos niveles de lealtad a la tienda y marca y en ambos casos se trata de los niveles de lealtad más altos y aunque los sujetos C y D son muy leales a la marca no lo son tanto a la tienda. Gracias a la inventiva de René (no la rana) sino Descartes, para los amigos Renatus Cartesius (de allí el nombre de ejes cartesianos), podemos observar a través de los ejes coordenados de forma más fácil y mucho más si se trata de tan sólo dos dimensiones (lealtad a la tienda y a la marca) las relaciones entre puntos (sujetos). La siguiente gráfica nos muestra de manera instantánea que hay tres segmentos o grupos y la distancia que hay entre los sujetos dentro de cada grupo.

Gráfica de lealtad cluster

Antes de continuar, déjame hacerte una observación que tal vez no venga al caso pero que me muero de ganas por hacerla. Si tuviéramos 3 dimensiones todavía podríamos graficarlas y tratar de analizar visualmente las relaciones entre sujetos y los grupos resultantes pero sería mucho más complicado y por supuesto, mucho menos podríamos hacer este análisis en un gráfico en cuatro dimensiones porque todavía no se han inventado y ni idea de como serían*; además, imagínate lo qué sucede cuando tenemos más de 7 sujetos, digamos cientos de miles y las variables son más de tres, qué tal decenas. ¿No se puede verdad? Esta es la razón por la que insistimos en que entiendas que hay detrás de los modelos matemáticos de análisis de investigación (v.gr. el cluster análisis) porque sin ellos no se pueden resolver este tipo de problemas y quizá más importante aún es que te des cuenta que funcionan a la perfección sin importar que los puedas ver o no en un gráfico cartesiano.

Existen varios métodos para llegar a una solución dentro del cluster analysis, en general, este proceso se divide en 3 pasos:

  1. El método para medir la similitud
  2. El método para agrupar a los sujetos
  3. El método para decidir la cantidad de grupos

1. La similitud se puede medir a ojo de buen cubero, o sea como lo hicimos hace un momento, pero como te diste cuenta este método se vuelve obsoleto rápidamente, un método matemático-estadístico es la mejor solución. Por ejemplo, usando una medida de chi cuadrado, correlación o distancias euclidianas; de los dos primeros ya hemos hablado anteriormente en este blog así que vamos a hablar de distancia euclidiana. Observa el triángulo rojo de la gráfica de arriba en el cuál se unen los sujetos E y F, la diagonal que los conecta (hipotenusa) es la distancia que hay entre ellos; tú sabes que la fórmula matemática para medir esa distancia euclidiana, la cual se llama así porque se hace a través de las formas geométricas y euclides es el padre de esa ciencia, se obtiene con la siguiente fórmula:

distancia euclidiana

La mayoría de nosotros cuando vemos una fórmula, actuamos como si viéramos un hombre o mujer feo(a) o en el mejor de los casos a alguien que no nos interesa; es decir, volteamos para otro lado. Déjame retomar la primera analogía. Hay gentes que en primera instancia nos parecen feas pero cuando las conocemos y tratamos durante un buen tiempo nos damos cuenta de su belleza intrínseca, de la cual no nos habíamos percatado e incluso en algunos casos dicha relación se vuelve matrimonio. Las matemáticas son así, tienes que aprender a conocerlas para que veas esta belleza. Por ejemplo, te das cuenta que en la fórmula de arriba se obtiene la distancia dimensión por dimensión; es decir, se calcula la distancia que hay en el eje “X” de un punto al otro punto y se suma con la distancia calculada que hay de los mismos puntos sobre el eje “Y”; si tuvieras una tercera dimensión, digamos “Z”, tendrías que obtener la distancia de ese mismo par de puntos sobre este otro eje o dimensión y sumarla a las distancias anteriores, de esta forma al final obtienes la distancia que hay entre un punto y otro punto o entre sujetos y no importa cuantas variables tengas o cuantos sujetos haya la fórmula sigue funcionando. La fórmula con tres dimensiones sería así:

distancia euclidiana 3

Ahora, observa que la diferencia en distancia de un punto a otro punto, dentro de cada dimensión, está elevada al cuadrado, la explicación es muy simple: si en una dimensión (i.e “X”) la diferencia es positiva o negativa y en la otra dimensión (i.e. “Y”) la diferencia va en sentido contrario, al sumar las dimensiones estás diferencias siempre se anularían y nos encontraríamos con el resultado de que las diferencias son muy pequeñas o no las hay, esa es la razón por las que se elevan al cuadrado, para que siempre se puedan sumar, pero y este es un gran PERO, por lo cual te pido que pongas mucha atención. Esta forma de obtener las distancias anula la covarianza; en otras palabras, si un sujeto es leal a la tienda y también a la marca o si tiene mucha lealtad a la tienda y muy poca a la marca el cluster analysis no lo detecta; es más, NI siquiera está interesado en saber si esas distancias o diferencias entre dimensiones están relacionadas (el caso contrarío es el análisis de correlación); lo que le interesa es conocer la distancia que hay entre los sujetos, determinar si piensan igual, no le interesa, en lo más mínimo, saber cómo o en qué piensan. Esa es la gran debilidad del cluster análisis, NO hay un sustento teórico detrás de los grupos que forma y por eso el procedimiento para segmentar al mercado pasa por varios otros tipos de análisis como el análisis factorial, del cual ya también hablamos aquí y el análisis discriminante, del cuál muy pronto publicaremos un artículo.

Antes de concluir con la decodificación de la fórmula, permíteme insistir en el punto anterior, si tienes dos sujetos y uno dice que es totalmente leal a la tienda o sea tiene un puntaje de 10 y el otro sujeto dice que su lealtad es de 9, la distancia que hay entre ellos es de uno (raíz de 10-9 elavado al cuadrado es 1). ¿de acuerdo? Bueno, si observas a otros 2 sujetos diferentes en el que el primero tiene calificación de lealtad a la tienda de 0, o sea que no es nada leal y el otro tiene una lealtad de 1, que significa que su lealtad está por los suelos, la diferencia seguiría siendo uno (raíz de 0-1 elevado al cuadrado es 1); el cluster análisis junta a estos cuatro sujetos y claro que le tiene sin cuidado que los dos primeros sean leales y los otros dos no ¿me captas? Puedes terminar juntando peras con manzanas; no hay una estructura conceptual sobre la cual descanse el andamiaje de los grupos ¿Cómo te previenes de que te suceda ésto? pues incluyendo varias dimensiones, no nada más dos, asegurándote que las dimensiones que estás incluyendo en tu análisis son importantes para tu mercado y que tienen validez y confiabilidad. Muy bien, como te prometí, la raíz cuadrada en la fórmula, obedece a que las distancias se elevaron al cuadrado y se desea regresar las distancias resultantes a sus unidades originales. Más sin embargo, debido a que en la práctica se combinan distintas medidas o escalas y un resultado así carece de significado (v.gr. lealtad en una escala de 0 a 10 e intención de compra en una escala del 1 a 5) la mayoría de los programas estadísticos reescalan o estandarizan las distancias del cluster. En la imagen de abajo tenemos la distancia resultante entre el sujeto E y F, en sus escalas originales.

distancia euclidiana 2

Este cálculo se hace para todos los pares de puntos que hay y con ello se forma una matriz de similitudes o distancias entre sujetos, la cual se basa en tan sólo dos dimensiones: lealtad a la tienda y lealtad a la marca, no importa si tienes más variables de cualquier manera obtendrías una matriz del mismo tamaño, esta sólo cambiaría si hubieses entrevistado a más de 7 sujetos. Este otro asunto parece pueril, por obvio, pero hace algunos años era vital pues la mayoría de los programas estadísticos no podían correr un cluster analysis con más de 300 o 400 casos, por lo que se usaba una submuestra de casos, cuando tenías miles de ellos, determinabas cuál era el número de grupos con dicha submuestra y utilizabas un procedimiento llamada Cluster K-means, el cual podía agruparte a todos tus sujetos con la condición de que le indicaras cuantos grupos debía de obtener; lo de “K-means” se refiere a que introduzcas el promedio de distancia en cada grupo aunque, en la mayoría de los programas ya no es necesario, basta con que señales cuantos grupos quieres. A continuación nuestra matriz de distancias resultante.

matriz de simlitudes

2. Lo que sigue, como dice mi compadre Cenobio**, es “arrejuntar” a los sujetos y también allí existen varios métodos; el que describen Hair, Anderson y compañía, se llama jerárquico y aglomerativo. Es jerárquico porque como su nombre lo indica agrupa primero a los 2 sujetos más parecidos, luego busca al otro par más parecido para agruparlo y si alguno de ellos ya existe dentro de un grupo pos simple y sencillamente los aglomera. Ve el cuadro de abajo para que te quede más claro este procedimiento jerárquico y aglomerativo.

cluster jerarquico

Para empezar desde el principio, te puedes dar cuenta que se tienen tantos grupos como sujetos, 7 grupos en total; entonces lo que se busca es juntar a esta gente en una sola familia y una forma de hacerlo es como sugieren los Beatles, paso por paso; en el paso “one”, los sujetos más cercanos son el E y el F por lo cual se procede a juntarlos con lo que ahora nos quedamos con sólo 6 grupos; en el paso “two” se buscan a los sujetos más cercanos después del E y F y da la casualidad que son el E y G pero como el E ya pertenece a un grupo se procede a aglomerarlos en otro grupo más grande, de tal forma que ahora sólo nos quedan 5 grupos; si sigues este procedimiento al último vas a terminar cantando…”all together now”. ¿Lo ves?

3. Tal ves la parte más difícil del cluster analysis es decidir con cuántos grupos te debes quedar, tradicionalmente, los investigadores se apoyan en un elemento gráfico llamado dendrograma.

dendrograma

Como puedes ver, es un tipo de gráfico que en el eje de las x’s señala la distancia (reescalada) a la que se encuentran cada uno de los sujetos, graficados en el eje de las y’s con respecto a sus contrapartes. Por ejemplo, E y F estan separados por un poco más de una unidad de distancia, mientras que el G está a dos unidades de distancia del grupo formado por E y F. En general, es más o menos fácil ver que hay tres grupos: E-F-G, B-C-D, y A, este último grupo, que en realidad es sólo un sujeto, está a más de tres unidades de cualquiera de los otros dos grupos. No obstante, esta herramienta, el juicio para decidir cuantos grupos se deben considerar en la solución final depende de los aspectos prácticos de una segmentación, algunos de los que recuerdo son: que los grupos sean rentables (tamaño suficiente y que compren), alcanzables, es decir, que puedan leer tus mensajes tipo “Eat at Joe’s”. Estadísticamente hablando, los grupos deben ser muy homogéneos en su interior, esto quiere decir, que la distancia entre los sujetos que los componen sea pequeña y muy heterogéneos entre ellos; lo cual se lee: la distancia entre grupos debe ser la máxima.

Hacer este análisis en SPSS no implica ninguna dificultad, de hecho, creo que este programa es el más didáctico y fácil que existe pero si no cuentas con él y quieres hacerlo en R puedes consultar la sintaxis aquí.

Gracias por leernos y hasta la próxima.

P.D. Para los que nos han solicitado un libro, les queremos comentar que vamos en un 20% y que a este paso lo concluiremos a finales del próximo año pero es una promesa que lo tendremos que publicar tarde o temprano.

* Me refiero a las dimensiones del tipo cartesiano no a los vectores que se pueden construir en un mapa de 2 o 3 dimensiones como el factorial o discriminante.

** Se utiliza este nombre en doble sentido. Por un lado, así se llama mi compa pero por el otro es el concepto que se utiliza para describir a un grupo de células que, tras dividirse, no se separan y permanecen en grupos dentro de una vaina o sustancia mucilaginosa (wikipedia).

GAME OF SOFTWARES

“El software se está comiendo al mundo”. Al menos eso es lo que dice Marc Andreessen, y ni siquiera hace falta explicarlo, es como subir a la montaña más alta de un terreno y darte cuenta que estás en una isla, sólo agua a tu alrededor. Así estamos rodeados por el software que se está engullendo todo; las empresas más importantes del mundo basan su éxito en el software y también lo hacen las pequeñas. La investigación de mercados no es la excepción.

Durante décadas trabajamos con SAS, SPSS, Minitab, Sawtooth, etc. porque los problemas a los que nos enfrentabamos se podían apreciar en bytes y los modelos que usabamos eran lineales (estadística clásica); hoy los problemas son giga-ntescos y hemos pasado de pendientes a derivadas (de estadística clásica a bayesiana y modelos discretos).

De acuerdo al sapo es la pedrada. R, Python, Gephi, NodeXl, Perl, Julia, WordPress entre muchos otros lenguajes y programas están hechos para los nuevos tiempos y retos; así lo han entendido muchos investigadores, también lo han hecho las grandes empresas de software como SPSS y SAS.

SPSS desde la version 18 (actualmente está en la ver. 22) abrió sus puertas a los desarrolladores en R, Python y .Net, con esta decisión se pueden integrar los algoritmos desarrollados en esos lenguajes a SPSS, como si fuera un análisis nativo de él. Un ejemplo es el análisis turf que está hecho en Python e integrado a SPSS (véase imagen).

turf en spss

Antes las agencias de investigación de mercados tenían dos maneras de resolver una necesidad especifica de software: compraban la solución a una de las grandes empresas como SAS, SPSS u otro o mandaban a hacer su propio programa para solucionar el problema. En cualquiera de los dos casos la alternativa no era muy grata ya que por un lado las grandes compañías sólo se enfocaban en procedimientos estadísticos generales y ampliamente usados; es decir, no te vendían un modulo para elasticidad de precios que usara el modelo de Van Westendorp, por ejemplo. Por otra parte, si le encargabas a un desarrollador que te hiciera el programa para analizar precios, utilizando dicho modelo, había que hacer muchas adaptaciones en tu programa de batalla (tal vez, SPSS) antes de poder usarlo; en ambos casos el costo también era una limitante.

En la actualidad algunas empresas comienzan a vender sus soluciones de encuesta y recopilación de datos online, offline, mediante dispositivos móviles, etc., incorporando algunos de los modelos más populares entre las agencias de investigación de mercados, como: conjoint, maxdiff, turf, van westendorp, entre otros análisis (e.g. Survey Analytics). No obstante, el precio y la incapacidad de hacer el “one stop shop” sigue poniendo un freno a las empresas de investigación que desean ir más lejos.

La gente pregunta por qué deberían aprender R y se justifican diciendo cosas como: R no es mejor que SPSS, SAS o Minitab; además es mucho más complicado que el programa que uso. Posiblemente tengan razón pero ni SPSS ni SAS han pensado igual y le apuestan al softwarte libre para conservar y posiblemente expandir su mercado. Dios está en todas partes o al menos eso nos enseñó la iglesia católica. Si así fuera el caso lo más cercano que hay a Dios es el espionaje que hacen los gobiernos de todos los países, liderados por los Estados Unidos de la mano de las grandes empresas de software. Cada día se suman más y más voces contra este Dios digital (e.g. Richard Stalman, Karsten Gerloff) que nos piden usar software libre. ¿No te parece tu privacidad y seguridad un buen motivo para empezar a usarlo?

Desde hace buen rato, Python, Julia, Perl, R, Gephi, y un largo etc. vienen sonando los tambores de guerrra, de ti depende que te agarren preparado para lo que viene. En el juego de tronos no se puede vivir separado de las tribus ni tampoco te puedes quedar atrincherado en tu castillo. Alianzas es el nombre del juego.

Hasta la próxima.

BORRIQUITO COMBO TÚ, YO SÉ MÁS DE TURF

La verdad, desde hace mucho tenía ganas de escribir este post. Gracias a mi amigo Antonio Soberón, quien trabaja en la Universidad de Toluca y quien me enseñó lo que era un neto, pude entender posteriormente lo que era turf. Para los nuevos que son borriquitos como yo, les explico rápidamente que es un neto (si tú ya sabes que es, haz clic en el video de abajo y disfruta de él mientras los borriquitos leen).

En las encuestas hay un tipo de preguntas que se llaman múltiples o multi-respuesta porque el encuestado puede dar varias respuestas a una misma pregunta. Por ejemplo, si le preguntamos “¿Cuáles son los problemas de tu comunidad?”* puede responder: “falta de agua”, “delincuencia”, “asaltos”, “desempleo”, entre otras cosas; o si hacemos esta otra pregunta “¿Qué es lo que te gusta del champú que usas?” podríamos obtener respuestas como “deja el cabello suave”, “huele rico el pelo”, “deja una fragancia a fresco”, etc. Pues bien, para analizar estas respuestas hay que resumirlas, por 3 razones básicas:

1. Las respuestas son muchas, lo que genera un listado larguísimo que es difícil de analizar.
2. Un encuestado(a) puede repetir la misma respuesta.
3. Muchas de ellas son repetitivas y/o se refieren al mismo concepto.

La manera más práctica de resumirlas es agrupándolas en conceptos y contabilizándolas una sola vez; a esos conceptos se les llama respuestas netas o simplemente netos. En el cuadro de abajo se ilustra este procedimiento utilizando el 1er ejemplo de las preguntas anteriores:

Como puedes observar, el entrevistado dio 4 respuestas, pero una vez agrupadas en respuestas netas (conceptos): criminalidad, escasez y desempleo, las respuestas se reducen a 3 debido a que delincuencia y asaltos se refieren a un mismo concepto (criminalidad). Esta agrupación es útil principalmente porque:

1. Hay un análisis más conciso de las respuestas que da la gente.
2. Permite cuantificar y dimensionar las respuestas de forma más precisa.

En nuestro negocio, esta práctica de manejar así las respuestas de las preguntas multi-respuesta es casi universal aunque en algunas ocasiones es muy útil conocer la multiplicidad (total de respuestas antes de hacer netos) pues por raro que te parezca te presenta otro ángulo que no es precisamente el opuesto por los vértices (esa se la copie a un matemático), usando otra analogía es como si los netos te dieran profundidad y la multiplicidad anchura. Sé que no me he explicado bien pero qué tal este ejemplo para que ahora si sepas de que hablo. En el cuadro de abajo se les preguntó a 5 personas las marcas de celulares que conocen.

tabla de multiplicidad turf

La multiplicidad es simplemente el total de respuestas de todos los entrevistados dividido entre el total de entrevistados (14/5). La multiplicidad en este caso fue de 2.8, eso significa que en promedio la gente retiene en su mente por lo menos 2 marcas pero difícilmente 3 ¿Y qué con eso? ¡Aja! ese es el punto. Si no eres la 1ra o 2da marca la probabilidad de que te compren se reduce drásticamente. ¿Lo ves? dos “insigths” con una sola pregunta y eso mi querido amigo es lo que te da el análisis turf, alcance y frecuencia con una sola pregunta. Sé que estoy “regando el tepache” nuevamente y que no me explico bien pero que te parece si entramos en materia y así seguro que nos entendemos.

Turf (total unduplicated reach and frequency), en términos nopaleros, pa’nosotros los mexicanos pues, significa total no duplicado de alcance y frecuencia. ¿A cuál total, alcance y frecuencia nos referimos? Aquí es donde se empieza a armar el rompecabezas. Imagínate que eres el Rey de Turfland y tienes 5 hijos, los cuales deseas casar con las princesas de los reinos vecinos para extender tus dominios pero como el tesoro del reino no tiene muy buenas fianzas sólo puedes financiar la boda de 3 de ellos. Ahora, el problema es que no sabes cuáles 3 de tus 5 hijos serán los más aceptados por los reinos vecinos y no puedes andar de reino en reino ofreciéndo a los 5 pues cada uno de ellos debe llevar obsequios a las hijas de los Reyes, por si esto fuera poco existe la posibilidad de que ninguna princesa se interese en tus hijos. ¡Menudo problema! ¿No es así? La solución simple es que antes de que marches con tus hijos a esos reinos, envíes a tus espías (investigadores de mercado) a sondear cuáles de tus cinco hijos son los más favorecidos por las princesas, lo haces así y obtienes los siguientes datos:

70% quieren con el príncipe Carlos
65% quieren con el príncipe Enrique
50% desean al príncipe Felipe
50% desean al príncipe José
47% desean al príncipe Luis

¿Mandarías a Carlos, Enrique y Felipe a la conquista? La lógica dice que sí, pero que tal que ese 47% que desea al príncipe Luis son las princesas de los reinos más ricos y además sólo quieren a Luis y a nadie más ¡Chín, ya valió! ¿verdad? Bueno, eso mismo sucede con los productos:

1. Deseas vender más y tienes varios productos que crees que le podrían gustar a tu mercado pero…
2. no puedes darte el lujo de fabricarlos todos por cuestiones de mercado y presupuesto, entonces…
3. tienes que hacer una investigación para determinar cuales productos son los más atractivos para el mercado pero…
4. al igual que con las preguntas de respuesta múltiple, algunas personas desean más de un producto mientras que otras sólo les gusta uno, en pocas palabras…
5. tienes que hacer netos para alcanzar al mayor número de personas con el número de productos que hayas decidido vender (recuerda que no puedes fabricarlos ni distribuirlos todos) y obtener la multiplicidad pues además de saber cuántos van a comprar tus productos deseas saber que cantidad de ellos van a comprar.

¿Aún no? Bueno, un restaurante de comida exótica tiene 5 opciones de aguas frescas exóticas pero por razones financieras sólo puede producir 3. Obviamente, para satisfacer a sus clientes necesita que la oferta de aguas sea la más gustada, con esto logrará dos cosas:

1. Más gente consumirá su producto.
2. La gente consumirá mayor cantidad del producto.

La tabla de abajo contiene los datos de 5 entrevistados en el “Parque Sur” y los 5 sabores exóticos de aguas frescas. Los ceros en la tabla indican que al entrevistado ese sabor no le agrada “matarilerileron” y los unos que ese sabor si le agrada “matarilerileron”. Por ejemplo, a Eric no le gusta la guanábana ni el lychee pero si los otros 3 sabores.

tabla de preferencia turf

Tú trabajo es:

1. Saber cuantos combos (combinaciones) de 3 puedes armar con estos 5 sabores de aguas frescas. En total son 10. En está página, que además es muy divertida, puedes enterarte porque son 10.

2. Obtener la respuesta neta en cada una de esas combinaciones. En el cuadro de abajo están todas las combinaciones junto con su total “neto” de cada una de ellas.

tabla de combinaciones turf

Las combinaciones 4 (guanábana, pitahaya y lychee) y 8 (pitahaya, granada y lychee) son las que tienen el mayor alcance, le gustan a todos los entrevistados; las que tienen el menor alcance son la 5,7 y 10, sólo al 60% de los entrevistados (3 sujetos) les gusta. Asimismo, si observas la tabla titulada “Agua fresca preferida” y sumas el total de veces que se mencionó cada agua en las combinaciones 4 y 8 te vas a dar cuenta que tienen una frecuencia de 6 (en el combo 4 guanábana, pitahaya y lychee se prefieren 2 veces cada uno de ellos). En otras palabras, se comprarían seis aguas frescas vendiendo cualquiera de las 2 combinaciones. El asunto, sin embargo, no se detiene allí ya que no es lo mismo Chana que Juana. El dilema ahora es: ¿nos vamos por la combinación 4 o la 8? Hay varios métodos estadísticos que te ayudan a decidir, en caso de empate, cuál combinación es la mejor, de ellos tal vez “Shapley value” (artículo en inglés) sea el más utilizado. La idea básica es obtener un valor que refleje cuántos consumidores comprarían de nuestra línea de productos por lo menos uno de ellos. Por ejemplo, si te fijas en la tabla de combinaciones, Eric compraría en todas las combinaciones; no importa cual le ofrezcas, siempre va a encontrar un producto que le guste. Haciendo el ejercicio de contar las veces que cada sujeto compra en cada combinación por cada producto obtuvimos que la combinación 4 tiene 74 apariciones mientras que la 8 tiene 72. Este procedimiento además de ayudarte a decidir mediante “penalties” que combinación es la mejor también tiene la virtud de prever situaciones más reales del mercado, como falta de abasto. Y el ganador es:

Claro que hacer TURF, como lo hace un borriquito como yo, que sólo sabe la a,e,i,o,u, está del cocol porque podríamos tener decenas de productos y miles de combinaciones y allí si no se puede pero tú puedes hacerlo con Xlstat de forma muy fácil o mejor aún con SPSS (si tienes la versión 18-21) y el add-in de Python**.

Actualización 29-ene-2015. El programa R ya cuenta con un paquete exclusivo para análisis turf.

Gracias por leernos.

* Cuando los políticos hablan de sus ofertas a los electores se basan únicamente en las respuestas que obtienen la mayor frecuencia en esta pregunta. Difícilmente hacen un análisis turf lo cuál les permitiría alcanzar mayor número de votantes.

** SPSS permite desarrollar aplicaciones a través del software libre como R, Python y .Net e integrarlos al programa como si fuera parte del mismo, algo muy parecido a lo que se hace en Excel con VBA aunque con un “alcance” mucho muy superior pues las posibilidades del software libre son ilimitadas. ¿Te das cuenta del negocio en ciernes con esta decisión de SPSS? Hay mucha ayuda en Internet sobre como instalar estos plug-ins, add-ins o simplemente complementos (aquí uno en español). Sin embargo, no es tan fácil instalarlos porque los archivos se instalan de forma automática en carpetas incorrectas. Aquí hay una solución que a mi me funcionó de maravilla en Mac, honestamente no sé si lo haga también en Windows.