Tag Archives: satisfacción

REGRESIÓN LINEAL ¡QUÉ LA FUERZA TE ACOMPAÑE!

Déjame adivinar. Cuando estudiabas estadística, tu primer gran quebradero de cabeza lo tuviste con el tema de regresión lineal ¿cierto? Es posible que hasta el día de hoy todavía tengas algunos “hard feelings”  con esta técnica pero espero que después de leer este post puedas conciliarte con ella. La regresión lineal es un tema básico y muy importante para los investigadores de mercado y no obstante, que es tal vez de los análisis más sencillos, muchas personas le siguen sacando la vuelta. Qué mala fama le han creado a la pobre. Es necesaria en los estudios de satisfacción, elasticidad de precios, imagen de marca, de candidatos políticos, planeación, pronósticos de operación, ventas, inversión, etcétera. En este post vamos a explicarte la regresión y a mostrarte una forma de graficarla para deleite tuyo y de tus clientes.

Seguramente has escuchado la historia que explica de donde viene el término de regresión, es muy ilustrativa pero pocos nos damos por enterado de su significado. Verás, se cuenta que en un estudio donde se relacionaba la estatura de los hijos con la de sus padres se observó que los padres muy altos tenían en promedio hijos más bajos que ellos y al revés que los padres de muy baja estatura tenían en promedio hijos más altos. La estatura promedio de los hijos de ambos tipos de padres -ojo al Cristo que es de plata- se aproximaba al promedio general de estatura de la población. Es como si hubiera una fuerza que hiciera regresar las cosas, en este caso la estatura del ser humano. Esa fuerza es la media o promedio. En la regresión lineal lo que se busca es encontrar esa media, una vez que la conoces es fácil hacer pronósticos pues sabes que ese promedio es la fuerza de atracción que va a aglutinar a los puntajes diferentes a él. Puede suceder que una persona sea muy alta o muy baja pero la naturaleza de las cosas hará que en las siguientes generaciones las cosas se equilibren, emparejen o tiendan al promedio general. En la regresión lineal, a todas las personas que son distintas al promedio, se les denomina errores de muestreo o varianza de error; es como si dijeras que algo ocurrió con esas personas que no son iguales al promedio, y allí es donde echamos a andar el hamster ¿Qué está ocurriendo? o más bien dicho ¿qué o quién está afectando a esas personas que la fuerza del promedio no es suficiente para atraerlas? Ese qué o quién es lo que llamamos variable independiente. En otras palabras, con la regresión lineal buscamos determinar que factor o variable está provocando la variación en la variable dependiente (se llama dependiente porque dependiendo de los valores de la independiente es el valor que va a asumir) ¿Complicado? Sigue leyendo.

Comúnmente los clientes nos piden realizar análisis de regresión múltiple (que es exactamente lo mismo que la regresión lineal simple sólo que en este caso son dos o más variables las que suponemos que están afectando a la variable dependiente) para conocer cuales son las variables que determinan la satisfacción. Ese es el ejemplo que viste en la ilustración del principio; sin embargo, para que te quede perfectamente claro lo que vas a hacer, vamos a ilustrarte la técnica y el método con un ejemplo de regresión lineal simple en Excel ¿Por qué en Excel? Bueno, puedes hacerlo en tu programa de estadística favorito pero te aconsejo que lo hagas en este paquete si no quieres perderte la gráfica divertida con NodeXL (add-in gratuito de graficación de Excel).

Suponte que eres dueño de Yupies’ Pizza y que los clientes siempre te preguntan cuánto tiempo va a tardar en llegar su pizza; para darles una respuestas necesitas hacer pronósticos sobre el tiempo que se tardan tus repartidores en llevar un pedido de pizza a su destino; tienes datos de las últimas 10 entregas donde conoces la distancia hasta la que fueron a dejar los pedidos y el tiempo que dilataron en llegar tus repartidores. La tabla de abajo contiene esos datos.

De repente y para variar un cliente te pide que le digas cuánto tiempo vas a tardar en llevarle la pizza y sabes que ese cliente se encuentra a 14 kilómetros de distancia ¿Qué tiempo le dirías? Ve con cuidado la sexta entrega de tu tabla de datos ¡Exacto! 15 minutos. Lo dedujiste, sin necesidad de hacer ninguna regresión lineal, porque anteriormente ya habías entregado una pizza a la misma distancia y ese fue el tiempo que le tomó a tu repartidor llevarla. Pero qué pasa si regresa tu repartidor y te dice que se tardó 17 minutos ¿qué le vas a decir al próximo cliente cuando te pregunte cuánto tiempo vas a tardar en entregarle si sabes que está exactamente a 14 kilómetros de distancia? ¿Le dirás 15 o 17 minutos? ¿Te acuerdas de la fuerza, el promedio? Deja que la fuerza te acompañe, que el promedio responda por ti. Serían 16 minutos ¿verdad? Esa pregunta estuvo “simple” pero qué tal que te pregunta cuánto tiempo vas a tardar en llevarle la pizza y sabes que está a 10 kilómetros de distancia. Buscas en la tabla de arriba y ¡pelas! te das cuenta que no has hecho ninguna entrega a esa distancia por lo tanto no sabes cuanto tiempo te va a llevar entregarla. Entonces te acuerdas de la fuerza y trazas una línea que atraviesa todos los puntos de tus entregas anteriores (ve la gráfica de abajo); esa linea representa el promedio (media en estadística) de los puntos combinados “X” (distancia) y Y (tiempo) y das con la solución pues estimas que el tiempo de entrega está entre el cruce de la distancia a la que vas (10 km) en el eje X y el tiempo de entrega (11.5 minutos) en el que se cruza con el eje Y. Por las razones anteriores a este método estadístico se le llama regresión lineal y simple porque ocupa una sola variable independiente y no por fácil que ese es otro cantar.

regresion lineal gráfica

La mayoría de las veces los problemas a los que te enfrentas no son tan claros ni tan sencillos; en este caso, cualquiera puede entender que la distancia afecta el tiempo en que se entrega la pizza; además los datos son pocos y es fácil manipularlos e incluso hacer una gráfica donde puedes ver que a mayor distancia también se incrementa el tiempo. La regresión lineal en particular y la estadística en general te ayudan a analizar problemas más complejos donde se tienen que manejar grandes números o relaciones no tan claras. Por ejemplo, en los estudios de satisfacción del cliente es difícil conocer cuáles variables son las que afectan la satisfacción en general y sobre todo saber cuánto; ese “cuánto” se llama coeficiente de regresión y es la cantidad que varía la variable dependiente en función de la independiente. En otras palabras, qué tanto aumenta o disminuye la satisfacción general cuando los niveles de las variables independientes que pueden ser precio, calidad, atención, amabilidad, puntualidad, servicio o cualesquier otro aspecto de tu producto o servicio disminuyen o aumentan. A los aspectos que determinan la satisfacción en general los mercadólogos les llaman “drivers” y son claves para proporcionar una experiencia más satisfactoria al cliente; lo que en términos prácticos significa retenerlo y que siga consumiendo tus servicios o productos. Ese coeficiente de regresión también se llama beta de regresión porque se representa con la letra griega beta.

En el gráfico del principio, cada uno de los círculos representa un “driver” que afecta la satisfacción en general del cliente con la línea área; el número que hay dentro de cada círculo es el coeficiente de regresión o beta de ese “driver”. Si sumas estos coeficientes vas a obtener 100% eso se debe a que hemos ajustado todas las betas para que en total sumen 100%. ¡Atención! no es que los coeficientes resultantes del análisis de regresión múltiple sumen 100%, es más ni siquiera están expresados en porcentajes; lo que sucede es que para las personas que van a ver tu gráfica es más fácil interpretar esos números ajustados que si le dices que tienes un coeficiente de regresión o una beta de “.30”, “.35” o lo que sea que es el coeficiente. Algunas agencias de investigación presentan el mismo análisis de regresión pero en lugar de ajustar a 100% sólo indican el orden en el que afectan las variables independientes a la satisfacción general (variable dependiente); Por ejemplo, dicen el atributo “A” afecta en primer lugar a la satisfacción, el Atributo “B” en segundo lugar y así sucesivamente. Desde nuestro punto de vista eso está mal hecho pues no es lo mismo decir “A sus órdenes General” que “Órdenes generales”: Por si no entendiste mi lenguaje cantinfleado ahí te va de nuevo: si X1 afecta en 90% y X2 en 10% es más sencillo decidir prioridades que si sólo dices X1 en primer lugar y X2 en segundo.

Te vas encontrar con un montón de opciones y estadísticas que puedes pedirle a tu programa estadístico (total, pedir no empobrece) desde las estadísticas descriptivas que ya conoces como medias, desviación estándar, máximo, moda, mediana, entre otras y hasta las pruebas de normalidad*; sin embargo, en general, hay cuatro aspectos a los cuales debes prestar atención para tu análisis de regresión y gráfica, estos son:

1. El coeficiente de la variable dependiente, también llamado constante o intercepción.
2. El coeficiente de regresión que te señala cuánto afecta la variable independiente (VI) a la dependiente (VD).
3. La significancia de ese coeficiente (en Excel está etiquetado como probabilidad en otros programas dice significance o sig.) la cual te indica si la relación entre la VI y VD es verdadera o producto del azar.
4. La forma en que se presenta ese coeficiente, si está estandarizado o en bruto.

Claro que hay varias cosas más que aprender acerca de la regresión lineal pero algo de tarea te tenemos que dejar. Así que ya para terminar te explicamos los 4 puntos anteriores con el mismo ejemplo de los datos de Yupies’ Pizza. El cuadro siguiente contiene la salida del análisis de regresión tal y como lo arroja Excel.

1. Se llama intercepción porque es el lugar donde la línea promedio; si esa que representa la fuerza, cruza con el eje “Y” (la variable dependiente); si te fijas viene siendo algo así como el promedio cuando no hay ninguna influencia, o sea cantidad cero de la VI; por eso debes sumar siempre está constante a la influencia que ejerce la variable o variables independientes; más adelante viene la prueba empírica en la fórmula de la regresión lineal simple.

2. El coeficiente de regresión es la cantidad que está aumentando “Y” por cada unidad de “X”; en palabras simples, si vas a entregar tu pizza a 10 kilómetros de distancia y el coeficiente te dice que por cada kilómetro el tiempo de entrega va aumentar 1.0411, entonces debes multiplicar por 10 kilómetros para conocer el tiempo total que te va a llevar hacer la entrega.

3. ¡Espérate! antes de dar por buenas tus predicciones o presumir de que si hay una relación entre las variables que estás manejando para incrementar la satisfacción de tus clientes debes cerciorarte que la relación es significativa o como dice Excel que la probabilidad sea menor a .05; si el número que obtienes es mayor a .05 la relación entre esa VI y la VD fue puro azar, no hay tal relación. En nuestro caso, obtuvimos 4.26599E-05 (ese -05 significa que el decimal debes recorrerlo cinco dígitos a la izquierda, entonces es .0000426599 y claro que es mucho menor que .05 lo que nos llena de alegría pues hemos descubierto que la relación si es significativa.

Excel te arroja los coeficientes en bruto; es decir, no los estandariza** ¿estanda…qué? Cuando un coeficiente está estandarizado la beta siempre va de -1 a 1, eso sirve para que puedas comparar cualquiere regresión que hagas independientemente del tipo de unidades de medición que estás usando; es decir, no importa si tu variable independiente está en kilómetros, millas, si se trata de peso, estatura, de una escala de 5 o 7 puntos; simpre tendrás coeficientes de regresión entre -1 y 1. Si obtienes una beta de “-1” significa que la relación es perfecta y negativa: cuánto más aumenta la variable independiente más disminuye la independiente y si tu beta es de “1” también hay una relación perfecta entre la VD y la VI pero ésta es positiva; si la VI aumenta la VD también lo hace siempre en la misma proporción. Ambas betas tienen su utilidad, la estandarizada es útil siempre que quieres comparar las betas entre si. Por ejemplo, en nuestra gráfica de satisfacción es importante saber cuál VI es más predictora; en cambio en el ejemplo de pizzas necesitas saber específicamente el tiempo que te va llevar entregar el pedido, en ese caso, sí requieres el coeficiente sin estandarizar para sustituir en la fórmula de regresión y hacer el pronóstico, analiza el desarrollo de la fórmula de abajo.

Según nuestros cálculos sustituyendo en la fórmula las betas que obtuvimos, llevar la pizza a 10 kilómetros de distancia nos tomaría 11.51 minutos (multiplica el .51 por la unidad de tiempo o sea 60 segundos para obtener el resultado real, 11:30:60), casi como lo habíamos pronosticado con nuestra gráfica ¿Estará el repartidor entregando el pedido exactamente a las 11.51? Muy probablemente no, pero en el peor de los casos lo hará en 12.85 minutos (12:51:00 minutos) y en el mejor en 10.76 minutos (10:45:00 minutos); a eso se le llama intervalo de confianza (ve el resultado de arriba de Excel) y es nada más ni nada menos que el error que debes sumarle y restarle a tus estimaciones. Debimos habérselo puesto a nuestra ecuación pero para que no te asustaras lo omitimos; sin embargo, no hay falla, ese error siempre lo vas a encontrar en los libros de estadística (es un juego de palabras).

¿Y la gráfica Apá? Estos vídeos te explican como correr una regresión lineal múltiple y graficarla con NodeXL.

Unable to display content. Adobe Flash is required.

Unable to display content. Adobe Flash is required.

Unable to display content. Adobe Flash is required.

Unable to display content. Adobe Flash is required.

Unable to display content. Adobe Flash is required.

* ¡Precaución! la regresión lineal simple o múltiple asume algunos supuestos que debes revisar que se cumplan como la distribución normal de los errores, su independencia, entre otros; te sugiero que le des una repasada a esos conceptos para que te sientas más seguro de lo que estás haciendo.
** Para estandarizar una beta solo multiplica el coeficiente de regresión de la VI por su desviación estándar y divídelo entre la desviación estándar de la VD.

Hasta la próxima.


ESCALAS DE MEDICIÓN

Le pregunté a un amigo, que también se dedica a la investigación de mercados, sobre que sería bueno escribir en el blog y me dijo, sin titubeos, sobre escalas. Sinceramente, no le hice mucho caso porque pensé que era “old fashion”, ya nadie se fijaba en eso. Para mi sorpresa, a la semana siguiente un cliente me preguntó cuál era la mejor escala: de 5, 7, o 10 puntos. A través de los años este tema ha sido tan recurrente que algunos investigadores lo han llamado el santo grial de la investigación de mercados y ha generado varios debates; sin embargo, lo único claro hasta el día de hoy es que no existe la escala perfecta.

Algunas de las preguntas típicas sobre escalas son:

  • ¿Cuántos puntos debe llevar, es mejor dicotómica (si, no), de 3, 4, 5, 7 o 11 puntos?
  • ¿Debemos eliminar las respuestas neutrales como “Ni de acuerdo, ni en desacuerdo”, “Tal vez si o tal vez no compraría”, etc. para forzar el entrevistado a que se decida?
  • ¿Funciona mejor una sin etiquetas, por ejemplo, la famosa escala de 10 puntos, como en la escuela decimos o una anclada donde cada número tiene un significado semántico: 1 = a nunca, 2 = a casi nunca, etcétera.
  • ¿Qué tal la escala de expectativas para los estudios de satisfacción o la de importancias para los estudios de imagen o la de intención de compra para la pruebas de producto?
  • ¿Qué es el NPS (Net Promoter Score), MaxDiff, etc.?

Y así nos las hemos ido llevando de escala en escala a tal grado que comienza a sonar a la clásica canción: 1, 2 Freddy viene por ti; 3, 4 es mejor cerrar tu puerta…9, 10 nunca duermas otra vez.

Si buscas por allí, lo primero que vas encontrar es que cada quien defiende su escala y sus preferencias psicométricas; la mayoría presentan pruebas de validez y confiabilidad, otros hasta escriben libros completos sobre sus escalas como Reichhold con el NPS y su libro “The Ultimate Question” pero también te vas encontrar pruebas en contrario que te dicen que esas escalas no son más validas ni más confiables que otras.

No es que estos debates sean estériles, al contrario nos han mostrado que al parecer no existe el santo grial; en algunos casos han puesto en evidencia escalas que tienen serios problemas como la de expectativas que se usa en los estudios de satisfacción y si alguna vez has contestado una entrevista en la que te han aplicado esta escala sabes que para acabarla de amolar es difícil de entender; por lo menos a mi me pasa cuando me han preguntado sobre la satisfacción con el servicio de mantenimiento de mi auto. Asimismo, nos han ayudado a entender las conceptos como discriminación, validez, confiabilidad, sesgo de una escala y nos han proporcionado guías prácticas para su elaboración, como que sea fácil de entender, aplicar, implementar, entre otras cosas.

A mi la experiencia me dice que las buenas escalas tienen poco que ver con los números. No se trata de una medida de longitud, altitud, volumen, u otra medida física se trata de una valoración psicológica y subjetiva y la única forma que tiene el sujeto de darnos una respuesta es utilizando su propio marco de referencia, urgando entre sus vivencias y experiencia. Es decir, el método puede ser lo más sofisticado que desees pero si no es comprensible para la persona y no se adecua a su entorno y vivencias el resultado será malo.

Por otra parte, está el usuario de la investigación, a él le debe quedar claro que es lo que pide, necesita o siente el investigado para que la investigación sea accionable. Por ejemplo, durante la presentación de un estudio de satisfacción con una empresa de telecomunicaciones uno de sus ejecutivos estaba feliz porque durante el semestre habían intentado bajar el porcentaje del público que decía “Es necesario mejorar mucho” en un aspecto de la programación que impactaba negativamente en la satisfacción; gran parte de ese porcentaje había pasado del “Es necesario mejorar mucho” al “Es necesario mejorar algo” y “No es necesario mejorar nada”; era evidente que sus esfuerzos habían dado fruto además de que la interpretación de la escala era clara, directa y se podía actuar con base en ella.

El debate sobre las escalas seguirá y continuarán inventándose nuevos métodos desde las simples escalas pictográficas y hasta los muy sofisticados como el escalamiento de diferencias máximas o maxdiff, pero yo te aconsejo que nunca pierdas de vista que trabajas con humanos y para humanos la abstracción es una forma de ver el mundo pero no es la forma en que opera el mundo.

Si deseas conocer el chisme de como se han venido agarrando del chongo los investigadores sobre este tema puedes leer los siguientes artículos:

1. Finding the perfect scale de Diane H. Schemalensee en Marketing Research, 1994. Vol. 6 No. 4
2. The single question trap. de Gina Pingitore, Neil A. Morgan, Lopo L. Rego y otros en Marketing Research, Summer 2007.
3. It’s all Just Psychometric Dithering, John P. Marketing Research, Winter 2003, Vol. 15 Issue 4, p49-49, 1p.
4. Problematic Scales de Terry Grapentine. En Marketing Research, fall 2003.

¿Cuál es tú escala favorita?

Gracias por leer este blog.

COMPARANDO LA SATISFACCIÓN DEL CLIENTE

A menudo los clientes desean saber si los promedios o puntajes obtenidos en sus encuestas de satisfacción son o no diferentes a los resultados de sus anteriores encuestas. Para saber esto, es necesario analizar dos aspectos relevantes:

1. El técnico, que se refiere a las diferencias estadísticamente significativas y su compinche el error de muestreo.

2. El estratégico, que se relaciona a los atributos, beneficios, valores o cualesquier otro elemento de la marca o empresa, que se relacione con ella y sea parte importante de la “propuesta de valor”.

Te voy a explicar el técnico que tiene que ver con la teoría estadística y es donde aparentemente hay más problema; aunque yo sé que no es así ya que si el ejecutivo de mercadotecnia tomara consciencia se daría cuenta que el problema más importante viene de la parte estratégica. Sin embargo, sobre la estrategia hablaremos en otra ocasión, cuando terminemos el post que estoy preparando para ti sobre Brand Equity.

Bueno, decía que un hallazgo es importante si es estadísticamente significativo ¿Cómo determinamos si lo es?
Hay te va un ejemplo, suponte que algunas mañanas, cuando te vas a trabajar, tu esposo(a) te da un besito y te desea suerte, otras veces te abraza y te dice que te quiere; también algunas veces te arregla la corbata (ya ni se usa ¿verdad?) o te recuerda que no salgas sin abrigarte o llevarte el paraguas y así lo hace durante buen tiempo sin que ese hábito cambie pero un día te dice “!si ándale¡ ya vete y que te vaya bien”. ¡Correcto! Ya te diste cuenta de que allí hay una diferencia, algo pasó; esperabas una muestra de cariño y no la hubo y siempre la ha habido, aunque no sea la misma manifestación, siempre te ha demostrado cariño; entonces tú te pones a pensar qué fue lo que hiciste, que la actitud de tú esposa(o) cambió.

Así es como opera la estadística, se espera que el resultado, cada vez que hagas tu encuesta, sea más o menos el  mismo, dentro de cierta variación. Sí, me refiero a eso que llamas error de muestreo. Por ejemplo, si planeaste que tu encuesta iba a tener un error de muestreo de +/- 4.0% de error; entonces esperarías que tu resultado no fuera menor ni mayor que el obtenido en las mediciones pasadas tomando en cuenta ese intervalo que se abre con el error de muestreo; es decir, no menor restando un -4% ni mayor si le sumas un +4%.

Un supongando, en el primer semestre del 2009 la empresa “MEGAMAQUILA” obtuvó un 35% de clientes “Totalmente satisfechos” mientras que en el segundo semestre un 39% dijeron estar “Totalmente satisfechos”; si la encuesta del primer semestre tiene un error de muestreo del 4%, tendríamos que sumarle ese error al resultado de 35% para ver cuál es el valor máximo que cabría esperar (39%) y restarle ese mismo 4% para calcular el valor mínimo que podría obtenerse (31%). A este rango de resultados es lo que en estadística se le nombra intervalo de confianza y se refiere al intervalo de resultados que se deben esperar sin que despierte sospechas en nosotros de que algo anda fuera de lo normal. En la tabla de abajo puedes observar los intervalos de confianza para cada uno de los porcentajes obtenidos en ambas encuestas.

tabla de errores de muestreo

Ahora bien, si el rango de posibles resultados de tu primer semestre se traslapa con el rango de posibles resultados del segundo semestre decimos que no hay diferencias significativas, en la gráfica de abajo puedes observar como aunque el resultado del segundo semestre fue más alto (39% de satisfechos) no es diferente del resultado del primer semestre (35% de satisfechos) ya que los resultados se traslapan en el área blanca. En términos estadísticos, se dice que hay una gran probabilidad (95% de confianza) de que el resultado del segundo semestre sea, como dice un amigo, “en el mejor escenario, 43% de personas Totalmente Satisfechas” y “en el peor escenario, 35% que están Totalmente Satisfechos”.

areas de error

Sé lo que estás pensando, has de decir que eso es para porcentajes pero qué sucede cuando tengo promedios. Comunmente los estudios se hacen con escalas de 11 puntos donde 0 es Nada Satisfecho y 10 es Totalmente Satisfecho con lo que el resultado de nuestra evaluación es un promedio en lugar de un porcentaje, puede ser que hayamos obtenido 9.4 en una medición y 9.1 en otra; el procedimiento es el mismo hay un error de muestreo que te sirve para calcular tu intervalo de confianza; sin embargo, el error se calcula de forma diferente. Cualquier programa estadístico te calcula esos errores y también te señala si hay diferencias significativas; así que no te preocupes por hacerlo a mano pero conviene que sepas de donde viene todo el argüende.

Es una práctica común a la industria decir que un estudio tiene un +/- X porcentaje de error de muestreo, como ya viste eso está bien para variables en las cuales manejas porcentajes o proporciones pero no está bien si deseas estimar los posibles resultados para una variable de intervalo, como la escala de 0 a 10 puntos que mencionábamos. Pero como dice el dicho, a la tierra que fueres has lo que vieres, te voy a enseñar una formulita muy útil y fácil que se usa para calcular el error de muestreo para proporciones. Dicho sea  de paso, fue de las primeras cosas que me enseñaron, cuando mi mala cabeza decidio dedicarse a la investigación de mercados, la fórmula es:

formula 1 entre raiz de n

Por ejemplo, si planeas hacer una encuesta de 400 sujetos, el error de muestreo sería de +/- 5%.formula 1 entre raiz de n 2Así de sencillo, que porqué uno entre raíz de n (n se refiere al tamaño de la muestra) bueno esa es otra historia que prometo explicarte en el siguiente post.

Espero te sirva la batifórmula, un gran abrazo mi estimado lector.