CORRELACIÓN DE DATOS

“Por fin comprende mi corazón: escucho un canto, contemplo una flor”…Esperamos que acabes cantando –como lo hacia el Poeta Texcocano, Rey Netzahuacoyotl– cuando acabes de leer este post y, ojalá, te lleve a comprender el concepto de correlación, que es uno de los más importantes en investigación. También esperamos tener mejor suerte que otros y que, contándote una buena historia, te vuelvas adepto al coeficiente de correlación de Pearson.

Seguramente estás midiendo de forma periódica, digamos mensual, trimestral o semestral, la compra de la marca que administras. Como no conozco los datos que has obtenido, déjame inventar unos como los del cuadro de abajo:

cuadro de compra de marca 2

Muy bien, es facilísimo observar que la compra de la marca bajó de enero a mayo 30 puntos porcentuales (45 – 15 = 30). Eso te resulta fácil porque aprendiste en la escuela primaria a sumar y restar con brinquitos de la ranita (aunque todavía no me explico cómo le hacía la condenada rana para saltar hacia atrás). Asimismo, tienes una predisposición natural a ver las cosas linealmente, de allí el nombre que se les da a los números naturales (los que nos sirven para contar). Si todos los problemas fueran unidimensionales, o sea para adelante o para atrás, no habría problema, pero no es así. En la vida real hay fuerzas que interactúan y a veces lo hacen de forma lineal, en ese caso el método de la ranita es efectivo, pero cuando estas relaciones no son lineales la rana se vuelve obsoleta.

La lealtad es una medida que interactúa con la compra de marca; ambas en conjunto son un mejor indicador de su desempeño. En el siguiente cuadro vienen los datos obtenidos de la lealtad de marca:

cuadro de lealtad de marca 2

Okey, según estos datos de enero a mayo aumentaste 15 puntos porcentuales (37 – 22 = 15). ¡Ah, caray! como que no checa, ¿verdad? Hay menos consumidores que compran la marca, pero más lealtad, ¿qué sucedió?, ¿será que no se asocian? Nosotros los investigadores sabemos que sí están relacionadas, pero quizá no lo hacen como suponemos. Nuestra hipótesis es que la lealtad se ha incrementado porque los que dejan de comprar la marca son los menos leales, de esta forma la proporción de leales aumenta.

Si empleamos el método universal de la ranita para conocer el desempeño que la marca tuvo en mayo quizá sumaríamos la compra de ese mes 15% más el 37% de la lealtad y lo podríamos dividir entre 2 para obtener un porcentaje promedio (15 + 37 = 52/2 = 26). Según nuestro cálculo, el desempeño de la marca estuvo en un 26%, pero espérame un momento, ¿no quedamos en que la lealtad aumenta cuando la compra baja? Mejor le restamos 15% a 37% porque la relación es inversa, entonces el desempeño de la marca fue de 22%. No, no convence, ¿verdad? ¿Qué pasará cuando tenga 50% de compra y 50% de lealtad? Si los resto el desempeño sería 0%. Fíjate en este otro ejemplo, si tienes un 1% de compra y 99% de lealtad y procedes como la ranita obtendrías un puntaje de 50% de desempeño de la marca: 1% + 99% / 2 = 50%. El mismo puntaje resultaría si tienes 50% de compra y 50% de lealtad: 50% + 50% / 2 = 50%. Sin embargo, si multiplicas en lugar de sumar, los puntajes que obtendrías serían totalmente distintos. En el primer caso obtendrías 0.99%: 1% x 99% = 0.99%. Mientras que en el segundo caso obtendrías 25%: 50% x 50% = 25%.

Karl Pearson, el padre de la correlación, se dio cuenta de que la forma más adecuada de cuantificar una relación como la anterior era multiplicando ambas variables; las multiplica porque supone que están interactuando; no se trata de una sola rana que brinca hacia adelante y hacia atrás; se trata de dos ranas que entran y salen de un charco, sepa Dios y Pearson en que momento y dirección. Imagina que los porcentajes de compra y lealtad son 50% para ambas variables, si los multiplicamos tenemos un desempeño de marca del 25% (50% X 50% = 25%); este indicador sí tiene sentido. En buen cristiano, significa que el 25% del mercado es de la marca; en otras palabras, uno de cada cuatro consumidores son clientes de la marca. Para Pearson ambas variables actúan en conjunto, interactúan y comparten elementos comunes por eso es necesario multiplicarlas; sin embargo, no se sabe con que fuerza y en que dirección lo hacen porque, después de todo, podría ser que la fuerza con la que se relacionan fuera nula; es decir, en realidad no hay ningún FACTOR COMÚN entre ellas; es infundada la suposición de que están interactuando.

La moraleja de las historias anteriores es que nunca debes construir modelos de mercado o investigación que se basen exclusivamente en restas y sumas (v. gr. NPS – Net Promoter Score), pero además, antes de sumar o restar dos o más variables, debes primero constatar que existe una RELACIÓN LINEAL entre ellas, determinar qué tan fuerte es esa relación y su sentido: si es positiva o negativa.

Con el fin de hacer este artículo lo menos árido posible, no vamos a incluir ninguna fórmula hasta que sea absolutamente necesario. Si te parece vamos a continuar analizando nuestros datos con el acuerdo de que es mejor multiplicar que sumar y/o restar. En la tabla de abajo se presenta el ejercicio con los datos que nos inventamos al principio: la compra, la lealtad, sus sumas y promedios, así como la multiplicación de ambas y la suma total de esos productos.

cuadro de compra por lealtad 3

De acuerdo, si multiplicamos la compra por la lealtad de cada uno de los 5 meses, los SUMAMOS y promediamos, el desempeño de la marca es del 7%. ¡Ya ves! cómo tenemos una predisposición innata a sumar sin fijarnos si las variables se relacionan. Todavía no hemos comprobado si la compra y la lealtad se relacionan pero ya las estamos sumando para obtener un promedio. Puedes alegar que en la tabla se observa que la compra baja mientras que la lealtad aumenta pero que tal si tienes cientos de casos o miles o quizá millones ¿Qué, lo podrías hacer con una simple inspección visual? No, ¿verdad?

El problema es cómo hacerle para comparar ambas medidas y es aquí donde Pearson echó a andar nuevamente la ardilla. Razonó que para saber sí una variable aumenta mientras otra disminuye o ambas aumentan o disminuyen al mismo tiempo (a eso en estadística se le llama covarianza) tenía que compararlas sobre una misma base y se le ocurrió que el promedio es el mejor indicador sobre el cual se podría comparar. El promedio o media es algo así como el punto cero para cualquier grupo de mediciones; si una observación (en este caso medición mensual) está por debajo del promedio se dice que es negativa y por el contrario si está por encima se dice que es positiva. De esta forma cada INTERACCIÓN (multiplicación) se podría sumar o restar dentro del conjunto total de datos y obtener un indicador general de la dirección de la relación: si el resultado general es negativo entonces hay una relación inversa (mientras una variable aumenta la otra disminuye), si el resultado general es positivo entonces la relación es directa (mientras una variable aumenta la otra también lo hace o si disminuye la otra también lo hace). En la siguiente tabla se ilustra el procedimiento anterior:

covarianza

En la tabla se restó la compra obtenida en cada mes a el promedio de compra general y se procedió de la misma forma con la lealtad; luego se multiplicaron ambos resultados en cada mes (desviación del promedio de compra por desviación del promedio de lealtad) y se sumaron, el resultado “-224%”; este número y su signo indica que hay una relación negativa, o sea que la compra disminuye y la lealtad aumenta o a la inversa. Vamos a analizar detenidamente la tabla. En el mes de febrero la compra estuvo por encima de la media o promedio (30-27.2 = 2.8) es decir, el resultado fue positivo; en ese mismo mes, la lealtad también obtuvo resultados positivos porque no bajo del promedio general de lealtad. Sin embargo, la multiplicación de ambos resultados nos señala que hay 0% de covarianza; en otras palabras, no hay cambio en la lealtad cuando la compra aumenta o, si deseas verlo de otra forma, la compra aumenta aunque la lealtad permanezca igual. Dirían los sabios indigenas de México: “El ave canta aunque la rama cruja”. Eso es para un solo mes pero ¿qué pasa en marzo? Tanto la compra como la lealtad disminuyeron y el porcentaje en que lo hicieron fue de 0.8%, lo cual es muy poco. Toma nota que el resultado es positivo por que la variación en conjunto va en el mismo sentido, o sea ambas son positivas o negativas. ¿Qué tal en mayo? La compra quedó por debajo del promedio (-12.2%) y la lealtad por arriba de su promedio general (9%) por eso la relación es inversa: una baja y la otra sube. Si observas, tanto el mes de enero como mayo son los meses donde hay más variación, la cuál es de tipo negativa. Sólo para que estemos seguros de esta operación, si ambos resultados (compra y lealtad) son positivos o negativos el resultado de su multiplicación será positiva (menos por menos también da más). La consecuencia de sumar todos los productos cruzados (así se llama a la multiplicación de estas desviaciones) es que los valores negativos se neutralizan con los positivos; en otras palabras, hay variaciones en las que la compra y la lealtad se mueven juntas (covarían) en la misma dirección y variaciones en las que la compra y la lealtad se mueven en sentido inverso una crece mientras la otra baja; si, y éste es el meollo del asunto, la suma de los productos cruzados, es decir, de todas las variaciones es cero se infiere que hay un relajo entre las variables a veces suben o bajan juntas; otras veces una baja mientras otra sube, no están variando conjuntamente pero si el resultado es diferente de cero y positivo tanto la compra como la lealtad se mueven en el mismo sentido, o sea que medidas por encima del promedio de compra corresponden a medidas por encima del promedio de lealtad y medidas por debajo del promedio de compra (negativas) corresponden a medidas por debajo del promedio de lealtad (negativas). Por último, si es diferente de cero y negativo, la compra baja (está por debajo del promedio) mientras la lealtad sube (está por encima del promedio) o a la inversa. Al promedio de ese sube y baja, mi estimado lector, le llaman covarianza. En este caso la covarianza es de -56% (véase su cálculo en la tabla de arriba), su fórmula es:

formula covarianza2

Recuerda que en la ecuación la “x” y la “y” son desviaciones del promedio y que la “M” acostada indica que hay que sumarlas, después de haberlas multiplicado; la “n” simboliza el número de casos y se le resta menos “1”; te pido que no te confundas con este “1”, en esencia estas promediando la variación conjunta de compra y lealtad entre el número de casos.

La covarianza es prima hermana de la correlación. La diferencia es que la correlación es más comprensible que la covarianza. Por ejemplo, ¿qué significa una covarianza de -56%? Todo lo que podemos saber es que de toda la variación que podrían tener en conjunto la compra y la lealtad sólo quedó ese -56% porque la restante variación se anuló mutuamente debido a que no había un patrón de variaciones conjuntas entre ambas variables. Por esta razón Pearson se preguntó ¿qué porcentaje de variación total queda en la covarianza? y para responder a la pregunta simplemente dividió la covarianza entre el promedio de variación total que resulta del producto de ambas variables (véase la tabla de abajo).

correlación

Nota en la tabla anterior que las desviaciones de la compra y la lealtad las elevamos al cuadrado para poder sumarlas ya que no estamos interesados en saber si las diferencias eran negativas o positivas, simplemente deseamos saber el total de desviación que hay de su promedio; por otro lado, si no se elevan al cuadrado la suma total sería cero. Este artificio debe ser removido antes de calcular la correlación, lo cual se hace sacándole raíz cuadrada a la media de los cuadrados o covarianzas de cada variable; otro aspecto que te conviene recordar es que la covarianza es un promedio de desviaciones y que obtendrías el mismo factor de correlación dividiendo las sumas de la variaciones x,y (-224) y la total (raíz de 540.8 por la raíz de 134), el resultado en ese caso sería -224/269.2 = -.83. Abajo se muestra el coeficiente de correlación obtenido usando las covarianzas:

calculo de correlacion

La correlación tiene la propiedad de ir de -1 a 1; si el resultado es “-1” significa que las variables oscilan en conjunto de forma perfecta pero en sentidos opuestos: una aumenta y la otra disminuye; si el resultado es “1” entonces las variables oscilan en la misma dirección: una aumenta y la otra también o una disminuye y la otra también. En general, se entiende cuando es “-1” o “1”que la covarianza es igual al total de la variación promedio del producto cruzado de ambas variables. Si no es exactamente “-1” o “1”, se comprende que la covarianza es sólo una parte del total de la variación. Para ilustrar este punto, observa nuestro resultado de “-.83”, en buen cristiano este número nos dice que por cada unidad o punto porcentual que aumenta o disminuye una variable la otra lo hace en sentido inverso en un 83%. Por fin, aquí te presento la fórmula de correlación de Karl Pearson:

formula correlacion

La “Vx” es la covarianza de “x” y la “Vy” es la covarianza de “y”. Si deseas saber que es eso de varianza puedes ver el artículo: Varianza y el perico jefe.

Hasta pronto.

¡Compártelo a tus amigos(as)!...Tweet about this on Twitter
Twitter
Share on LinkedIn
Linkedin
Share on Facebook
Facebook
Share on Google+
Google+
Email this to someone
email

Leave a Reply

Your email address will not be published. Required fields are marked *