Author Archives: Administrator

QUÉ HACER Y QUÉ NO HACER EN LAS REDES SOCIALES

Todos somos usuarios de las redes sociales, me entiendes ¿verdad? al menos lo son todos los que están leyendo este post. Hace ya casi cuatro años, publicamos un artículo que se llamaba “En Familia con Chabelo”, todos los mexicanos saben quien es Chabelo, pues su programa ya estaba aquí desde mucho antes de que ellos nacieran y sigue estando aquí; para los que no viven en México, explico que se trata de un programa de televisión de concursos con niños(as), papás, mamás y hasta abuelitos, no estoy seguro si también participan mascotas, pero lo que yo destacaba en ese artículo era la propensión que tenemos la mayoría de los profesionales a mezclar, en las redes sociales, los asuntos personales con la profesión.

Recientemente se “atrapó”, a la probable próxima presidenta de los Estados Unidos, Hillary Clinton, en una serie de comunicaciones oficiales porque publicó en su cuenta personal cosas que se supone debería publicar a través de las cuentas oficiales; seamos sinceros ¿cuántos de ustedes hacen sistemáticamente o han hecho lo mismo que Hillary? Creo que es mucho más fácil contar a los que no lo han hecho; han de pensar que es una exageración pues ustedes no se tienen que cuidar por cuestiones de seguridad nacional, ni son tan importantes como Hillary. Bueno, lamento decírtelo pero sigues pegada(o) al televisor mirando “En Familia Con Chabelo”; no entiendes todavía que son las redes sociales, te voy a dar algunas buenas razones por las que no deberías mezclar los e-mails pero antes déjame explicarte algo sobre ellas.

Todos estamos conectados ¿sale? Eso significa que prácticamente cualquiera puede llegar a ti, estés dónde estés; la forma en que estamos conectados tiene una estructura ¿sale? eso quiere decir que para algunos es más fácil llegar a ti que para otros; todas las estructuras, por favor, deja de hacer cualquier cosa que estés haciendo y pon mucha atención, tienen SIGNIFICADO o sea que la relación que hay entre tú y las personas de tu red pueden ser desveladas, decodificadas, interpretadas, analizadas, me entiendes ¿verdad?

Todos hemos escuchado historias de personas que perdieron el trabajo porque publicaron algo de la empresa en su muro de FB o mandaron un Twitter criticando el lugar donde trabajan; gentes que se meten en problemas por publicar fotos bajo el influjo de una alta dosis de estupidina; parejas que se pelean a través de FB, otras que se tomaron su último “selfie” porque dieron un paso en falso y vas pa’bajo; personas que no saben que estamos en secuestrolandia y gangsterolandia y se dan vuelo publicando sus viajes, lujos, fiestas, preciosos hijos y/o conquistas y “pos” así nos la podemos seguir citando casos; sin embargo, el asunto sobre el que quiero llamar tu atención no es que hay gentes brutas y otras no tanto; todos podemos cometer errores pero es más probable que los cometas si no estás enfocado en lo que deseas hacer con tus redes sociales pero sobre todo si no eres consciente del gran medio del que dispones, parafraseando al hombre araña se puede decir que “Una gran red conlleva una gran responsabilidad”.

Ocasionalmente, recibimos a través de la red social de profesionales Linkedin, peticiones y curriculums de personas solicitándonos empleo, y lo mismo les pasa a las demás agencias de investigación, no es que nosotros seamos pila de agua bendita; independientemente de darnos un tiempo para revisar su información y conocer a la persona, les pedimos estar en contacto a través de la misma red, esto lo hacemos con doble intención, una es crecer nuestra red que tiene al día de hoy 319 contactos y ayudar al solicitante a que crezca la suya propia abriéndole caminos a través de nuestra red y de esta forma pueda tener más oportunidades. A eso se refieren las redes sociales cuando se habla de compartir (share), a establecer una vía de comunicación y de conveniencia mutua, no de que te sueltes publicando lo bonita(o) que eres y reclamarle a Dios por haberte hecho tan bonito(a). Eso se hacia en la televisión, no lo hagas en las redes sociales, como dicen los de Pepsi ¡Despierta!

¡Ah, perdón! se nos estaba olvidando las razones de no mezclar el mail. Si buscas una información que te llegó hace algún tiempo y que ahora necesitas ¿dónde la buscas en tu mail personal o de la empresa? Qué lío y perdida de tiempo ¿verdad?; si quieres hacerle perder el tiempo a tus compañeros y colaboradores del trabajo usa de manera indiscriminada tu correo personal y el de la empresa, total los babosos(as) que van a perder el tiempo buscando tu información serán ellos y no tú. Has escuchado la frase ¿A qué correo me lo mandaste? o ¿con qué mail me lo enviaste? ¿¡No!? Bueno felicidades eres uno de los pocos felices mortales que no han tenido estos problemas; si te suscribes a un blog como este ¿qué correo usas, el personal o el de la empresa? Bueno, depende, ¿de qué? de la relación que desees establecer. Espero que no tengas la necesidad de comprobar tus dichos en un juicio o alegato porque buscar la información en todas tus cuentas de mail va a ser muy pero muy tardado.

Hasta la próxima.

CLUSTER ANALYSIS

“Dios los cría y ellos se juntan”. Así como este refrán hay una docena más que hacen referencia al proceso natural que agrupa a las personas, animales o cosas parecidas entre si. Por ejemplo, “Los burros del mismo pelo trotan juntos” o “De tal palo tal astilla” o que tal “Hijo de tigre pintito” o como decía mi amá “Todos coludos o todos rabones”, apuesto a que te sabes otros tantos. Bueno, así como hay dichos también hay formas, estadísticamente hablando, de agrupar a los objetos o sujetos que se basan precisamente en la filosofía común de que “Los pájaros del mismo plumaje vuelan juntos”. De todos ellos, quizá el método más conocido es el análisis de agrupamiento jerárquico o hierarchical cluster analysis en la lengua de Shakespeare y Ronald A. Fisher.

La descripción más exacta que podemos hacer de este método, ya la hicieron los Beatles hace décadas y dice así:

Antes de que nos metamos en la bronca de explicarte como funciona esta cosa o porqué los Beatles cantan “todos juntos ya”, déjanos decirte para que sirve, total si no te sirve pos para qué continuas leyendo, ¿verdad? Mira, el cluster analysis es una técnica, desde el momento en que leo que esto o aquello es una técnica siento que no vale la pena seguir leyendo y quizá a ti te pasa igual por eso mejor hagamos un reset.

Para vender productos o servicios debes perfilar a tus posibles víctimas (clientes); es decir, no puedes ofrecer tus servicios a todo mundo porque muchos de ellos simplemente no los utilizan o les importa un reverendo pepino lo que haces, anuncias o vendes; una vez que encuentras a las víctimas tienes que asegurarte de que no sólo están interesadas en lo que vendes sino que además son las más dóciles y cooperativas que hay o sea que en cuanto les digas “Eat at Joe’s” se dirijan, sin chistar, inmediatamente a tu changarro. Suena fácil ¿no es así? pero como dicen, del dicho al hecho hay mucho trecho, distancia. Por eso, para lograrlo tienes que acortar esa distancia ofreciéndoles lo que necesitan, desean, buscan, etc. ¿cómo? pues investígales, pregúuuuuuuntales, ca’ y con base a lo que te digan que les gusta y necesitan agrúpales; asimismo, observa si, además de parecerse en eso, también son similares por su edad, sexo, nivel socioeconómico, estado civil, marcas que usan, etc. A esta práctica se le nombra segmentación de mercados y es necesaria pues a través de ella se logra mayor efectividad del marketing.

Ahora sí, el cluster analysis se utiliza para dicha segmentación de mercado. Aquí te voy a decir como funciona el método jerárquico, el cual comienza con una simple unidad (objeto o sujeto) y termina agrupándolo todo. Hagamos un pequeño ejercicio, a pie, para que le tomes sabor a lo que decían los Beatles: “one, two, three, four…all together now”. El ejemplo de Hair, Anderson, Tatham y Black del libro “Análisis Multivariante” sobre cluster análisis es muy didáctico, así que nos lo vamos a “piratear”. En una escala de 0 a 10 donde 0 es nada leal y 10 es totalmente leal, se les preguntó a 7 sujetos que tan leales se consideran a la tienda donde compran y marca que compran, sus respuestas fueron las siguientes:

tabla de lealtad cluster

Con una inspección somera de la tabla puedes darte cuenta que el sujeto E y F son muy parecidos, tienen casi los mismos niveles de lealtad a la tienda y marca y en ambos casos se trata de los niveles de lealtad más altos y aunque los sujetos C y D son muy leales a la marca no lo son tanto a la tienda. Gracias a la inventiva de René (no la rana) sino Descartes, para los amigos Renatus Cartesius (de allí el nombre de ejes cartesianos), podemos observar a través de los ejes coordenados de forma más fácil y mucho más si se trata de tan sólo dos dimensiones (lealtad a la tienda y a la marca) las relaciones entre puntos (sujetos). La siguiente gráfica nos muestra de manera instantánea que hay tres segmentos o grupos y la distancia que hay entre los sujetos dentro de cada grupo.

Gráfica de lealtad cluster

Antes de continuar, déjame hacerte una observación que tal vez no venga al caso pero que me muero de ganas por hacerla. Si tuviéramos 3 dimensiones todavía podríamos graficarlas y tratar de analizar visualmente las relaciones entre sujetos y los grupos resultantes pero sería mucho más complicado y por supuesto, mucho menos podríamos hacer este análisis en un gráfico en cuatro dimensiones porque todavía no se han inventado y ni idea de como serían*; además, imagínate lo qué sucede cuando tenemos más de 7 sujetos, digamos cientos de miles y las variables son más de tres, qué tal decenas. ¿No se puede verdad? Esta es la razón por la que insistimos en que entiendas que hay detrás de los modelos matemáticos de análisis de investigación (v.gr. el cluster análisis) porque sin ellos no se pueden resolver este tipo de problemas y quizá más importante aún es que te des cuenta que funcionan a la perfección sin importar que los puedas ver o no en un gráfico cartesiano.

Existen varios métodos para llegar a una solución dentro del cluster analysis, en general, este proceso se divide en 3 pasos:

  1. El método para medir la similitud
  2. El método para agrupar a los sujetos
  3. El método para decidir la cantidad de grupos

1. La similitud se puede medir a ojo de buen cubero, o sea como lo hicimos hace un momento, pero como te diste cuenta este método se vuelve obsoleto rápidamente, un método matemático-estadístico es la mejor solución. Por ejemplo, usando una medida de chi cuadrado, correlación o distancias euclidianas; de los dos primeros ya hemos hablado anteriormente en este blog así que vamos a hablar de distancia euclidiana. Observa el triángulo rojo de la gráfica de arriba en el cuál se unen los sujetos E y F, la diagonal que los conecta (hipotenusa) es la distancia que hay entre ellos; tú sabes que la fórmula matemática para medir esa distancia euclidiana, la cual se llama así porque se hace a través de las formas geométricas y euclides es el padre de esa ciencia, se obtiene con la siguiente fórmula:

distancia euclidiana

La mayoría de nosotros cuando vemos una fórmula, actuamos como si viéramos un hombre o mujer feo(a) o en el mejor de los casos a alguien que no nos interesa; es decir, volteamos para otro lado. Déjame retomar la primera analogía. Hay gentes que en primera instancia nos parecen feas pero cuando las conocemos y tratamos durante un buen tiempo nos damos cuenta de su belleza intrínseca, de la cual no nos habíamos percatado e incluso en algunos casos dicha relación se vuelve matrimonio. Las matemáticas son así, tienes que aprender a conocerlas para que veas esta belleza. Por ejemplo, te das cuenta que en la fórmula de arriba se obtiene la distancia dimensión por dimensión; es decir, se calcula la distancia que hay en el eje “X” de un punto al otro punto y se suma con la distancia calculada que hay de los mismos puntos sobre el eje “Y”; si tuvieras una tercera dimensión, digamos “Z”, tendrías que obtener la distancia de ese mismo par de puntos sobre este otro eje o dimensión y sumarla a las distancias anteriores, de esta forma al final obtienes la distancia que hay entre un punto y otro punto o entre sujetos y no importa cuantas variables tengas o cuantos sujetos haya la fórmula sigue funcionando. La fórmula con tres dimensiones sería así:

distancia euclidiana 3

Ahora, observa que la diferencia en distancia de un punto a otro punto, dentro de cada dimensión, está elevada al cuadrado, la explicación es muy simple: si en una dimensión (i.e “X”) la diferencia es positiva o negativa y en la otra dimensión (i.e. “Y”) la diferencia va en sentido contrario, al sumar las dimensiones estás diferencias siempre se anularían y nos encontraríamos con el resultado de que las diferencias son muy pequeñas o no las hay, esa es la razón por las que se elevan al cuadrado, para que siempre se puedan sumar, pero y este es un gran PERO, por lo cual te pido que pongas mucha atención. Esta forma de obtener las distancias anula la covarianza; en otras palabras, si un sujeto es leal a la tienda y también a la marca o si tiene mucha lealtad a la tienda y muy poca a la marca el cluster analysis no lo detecta; es más, NI siquiera está interesado en saber si esas distancias o diferencias entre dimensiones están relacionadas (el caso contrarío es el análisis de correlación); lo que le interesa es conocer la distancia que hay entre los sujetos, determinar si piensan igual, no le interesa, en lo más mínimo, saber cómo o en qué piensan. Esa es la gran debilidad del cluster análisis, NO hay un sustento teórico detrás de los grupos que forma y por eso el procedimiento para segmentar al mercado pasa por varios otros tipos de análisis como el análisis factorial, del cual ya también hablamos aquí y el análisis discriminante, del cuál muy pronto publicaremos un artículo.

Antes de concluir con la decodificación de la fórmula, permíteme insistir en el punto anterior, si tienes dos sujetos y uno dice que es totalmente leal a la tienda o sea tiene un puntaje de 10 y el otro sujeto dice que su lealtad es de 9, la distancia que hay entre ellos es de uno (raíz de 10-9 elavado al cuadrado es 1). ¿de acuerdo? Bueno, si observas a otros 2 sujetos diferentes en el que el primero tiene calificación de lealtad a la tienda de 0, o sea que no es nada leal y el otro tiene una lealtad de 1, que significa que su lealtad está por los suelos, la diferencia seguiría siendo uno (raíz de 0-1 elevado al cuadrado es 1); el cluster análisis junta a estos cuatro sujetos y claro que le tiene sin cuidado que los dos primeros sean leales y los otros dos no ¿me captas? Puedes terminar juntando peras con manzanas; no hay una estructura conceptual sobre la cual descanse el andamiaje de los grupos ¿Cómo te previenes de que te suceda ésto? pues incluyendo varias dimensiones, no nada más dos, asegurándote que las dimensiones que estás incluyendo en tu análisis son importantes para tu mercado y que tienen validez y confiabilidad. Muy bien, como te prometí, la raíz cuadrada en la fórmula, obedece a que las distancias se elevaron al cuadrado y se desea regresar las distancias resultantes a sus unidades originales. Más sin embargo, debido a que en la práctica se combinan distintas medidas o escalas y un resultado así carece de significado (v.gr. lealtad en una escala de 0 a 10 e intención de compra en una escala del 1 a 5) la mayoría de los programas estadísticos reescalan o estandarizan las distancias del cluster. En la imagen de abajo tenemos la distancia resultante entre el sujeto E y F, en sus escalas originales.

distancia euclidiana 2

Este cálculo se hace para todos los pares de puntos que hay y con ello se forma una matriz de similitudes o distancias entre sujetos, la cual se basa en tan sólo dos dimensiones: lealtad a la tienda y lealtad a la marca, no importa si tienes más variables de cualquier manera obtendrías una matriz del mismo tamaño, esta sólo cambiaría si hubieses entrevistado a más de 7 sujetos. Este otro asunto parece pueril, por obvio, pero hace algunos años era vital pues la mayoría de los programas estadísticos no podían correr un cluster analysis con más de 300 o 400 casos, por lo que se usaba una submuestra de casos, cuando tenías miles de ellos, determinabas cuál era el número de grupos con dicha submuestra y utilizabas un procedimiento llamada Cluster K-means, el cual podía agruparte a todos tus sujetos con la condición de que le indicaras cuantos grupos debía de obtener; lo de “K-means” se refiere a que introduzcas el promedio de distancia en cada grupo aunque, en la mayoría de los programas ya no es necesario, basta con que señales cuantos grupos quieres. A continuación nuestra matriz de distancias resultante.

matriz de simlitudes

2. Lo que sigue, como dice mi compadre Cenobio**, es “arrejuntar” a los sujetos y también allí existen varios métodos; el que describen Hair, Anderson y compañía, se llama jerárquico y aglomerativo. Es jerárquico porque como su nombre lo indica agrupa primero a los 2 sujetos más parecidos, luego busca al otro par más parecido para agruparlo y si alguno de ellos ya existe dentro de un grupo pos simple y sencillamente los aglomera. Ve el cuadro de abajo para que te quede más claro este procedimiento jerárquico y aglomerativo.

cluster jerarquico

Para empezar desde el principio, te puedes dar cuenta que se tienen tantos grupos como sujetos, 7 grupos en total; entonces lo que se busca es juntar a esta gente en una sola familia y una forma de hacerlo es como sugieren los Beatles, paso por paso; en el paso “one”, los sujetos más cercanos son el E y el F por lo cual se procede a juntarlos con lo que ahora nos quedamos con sólo 6 grupos; en el paso “two” se buscan a los sujetos más cercanos después del E y F y da la casualidad que son el E y G pero como el E ya pertenece a un grupo se procede a aglomerarlos en otro grupo más grande, de tal forma que ahora sólo nos quedan 5 grupos; si sigues este procedimiento al último vas a terminar cantando…”all together now”. ¿Lo ves?

3. Tal ves la parte más difícil del cluster analysis es decidir con cuántos grupos te debes quedar, tradicionalmente, los investigadores se apoyan en un elemento gráfico llamado dendrograma.

dendrograma

Como puedes ver, es un tipo de gráfico que en el eje de las x’s señala la distancia (reescalada) a la que se encuentran cada uno de los sujetos, graficados en el eje de las y’s con respecto a sus contrapartes. Por ejemplo, E y F estan separados por un poco más de una unidad de distancia, mientras que el G está a dos unidades de distancia del grupo formado por E y F. En general, es más o menos fácil ver que hay tres grupos: E-F-G, B-C-D, y A, este último grupo, que en realidad es sólo un sujeto, está a más de tres unidades de cualquiera de los otros dos grupos. No obstante, esta herramienta, el juicio para decidir cuantos grupos se deben considerar en la solución final depende de los aspectos prácticos de una segmentación, algunos de los que recuerdo son: que los grupos sean rentables (tamaño suficiente y que compren), alcanzables, es decir, que puedan leer tus mensajes tipo “Eat at Joe’s”. Estadísticamente hablando, los grupos deben ser muy homogéneos en su interior, esto quiere decir, que la distancia entre los sujetos que los componen sea pequeña y muy heterogéneos entre ellos; lo cual se lee: la distancia entre grupos debe ser la máxima.

Hacer este análisis en SPSS no implica ninguna dificultad, de hecho, creo que este programa es el más didáctico y fácil que existe pero si no cuentas con él y quieres hacerlo en R puedes consultar la sintaxis aquí.

Gracias por leernos y hasta la próxima.

P.D. Para los que nos han solicitado un libro, les queremos comentar que vamos en un 20% y que a este paso lo concluiremos a finales del próximo año pero es una promesa que lo tendremos que publicar tarde o temprano.

* Me refiero a las dimensiones del tipo cartesiano no a los vectores que se pueden construir en un mapa de 2 o 3 dimensiones como el factorial o discriminante.

** Se utiliza este nombre en doble sentido. Por un lado, así se llama mi compa pero por el otro es el concepto que se utiliza para describir a un grupo de células que, tras dividirse, no se separan y permanecen en grupos dentro de una vaina o sustancia mucilaginosa (wikipedia).

DIFERENCIAS ESTADÍSTICAMENTE SIGNIFICATIVAS

Si siempre pudiéramos entrevistar a toda la población no existiría la estadística; ésta nace por la imposibilidad de hacerlo porque, como sabes, cuesta mucho dinero entrevistar a toda la raza; nos tardaríamos todo una vida en ello o no podríamos acceder a todos los sujetos quizá, al momento de hacer el estudio, algunos se encuentren en alta mar o volando rumbo a Marte. En fin, existen muchos inconvenientes. El resultado que obtenemos con una muestra no es igual al de toda la población pero para efectos prácticos decimos que se parece mucho ¿Qué tan parecido? Bueno, podemos decir que se parece en un 68%, 95% o 99%, claro que entre más decimos que se parece más seguros estamos de que es igual. En los estudios de mercado y casi en toda la ciencia formal, la mayoría de los investigadores aceptan que es suficiente con que los resultados se parezcan en un 95%; por eso decimos: con un 95% de confianza el resultado es…Sin embargo, no hace falta ser mal pensado para darse cuenta de que podría no ser así ¿quién me asegura que son tan parecidos los resultados de la muestra a los de la población? ¿Debemos confiar sólo porque el investigador dice que hay un 95% de confianza de que sí se parecen?

Los mexicanos solemos decir: “a las pruebas me remito”. Esto no puede ser más cierto que en las pruebas de significancia estadística, estas sirven para probar matemáticamente que se parecen mucho y aunque el concepto es simple además de elegante, como casi todas las matemáticas, la mayoría tenemos problemas para entender estas pruebas. Vamos a tratar de explicarlo de manera coloquial para que se comprenda pero sería conveniente que se contrastará lo dicho aquí contra las formas puramente matemáticas para comprenderlo en su totalidad.

Supongamos que entrevistamos a 10 jóvenes y 7 de ellos nos dicen que les gusta el café Starbucks®, es decir, al 70% de ellos les agrada esta marca; ahora suponte que en lugar de entrevistar 10, entrevistas a 1,000 y 700 dicen que les gusta la marca Starbucks® o sea también hay un 70% que prefieren la marca ¿A cuál resultado de las dos muestras le tendrías más confianza? Si no te apellidas contreras, seguramente vas a decir que a la muestra de 1,000 casos ¿¡Lo ves!? El meollo del asunto está en el tamaño de la muestra, mientras más grande sea, mayor será la probabilidad de que se parezca a la población. Hasta aquí no hemos descubierto nada nuevo, es sólo cuestión de sentido común. Ahora, fíjate en esto otro, si haces dos estudios de 100 entrevistas cada uno y en uno de ellos el 50% te dice que va a votar por el candidato del PRI (Partido Revolucionario Institucional) y en el otro hay un 70% que te dice que votará por el PRI ¿En cuál resultado confiarías más? Recuerda que ambos estudios tienen el mismo tamaño de muestra, asimismo, fíjate que no me refiero a la confianza de que los estudios estén bien hechos, nuestro “supón” es que ambos lo están. Déjame ayudarte, porque sospecho que esta respuesta no es tan directa como la anterior. Yo confiaría más en la que dice que el 70% va a votar por el PRI. ¿Por qué? Perdona, que te confunda más, con otro ejemplo, pero es en aras de que nos vayamos entendiendo. Si tienes una novia(o) que unas veces si va a las citas que convienes con ella(él) y otras no, digamos 50% de las veces si va y 50% no ¿qué tanto confiarías en que esta vez si va a acudir a la cita? Por el contrario, si tu novia(o) ha demostrado que el 70% de las veces si acude ¿No confiarías más en esta pareja que en la que a veces viene a la cita y a veces no? Muy bien, allí lo tienes, el segundo ingrediente de las pruebas de significancia es la variación de los resultados.

En resumen, la significancia estadística depende del tamaño de la muestra y la variación que hay en los resultados. Si entendemos esto podremos entender porqué una diferencia del 15%, 10%, 5% entre dos muestras o grupos a veces puede ser significativa y a veces no. Por ejemplo, en un estudio donde se compara un grupo de jóvenes de 18-25 años contra otro de 26-35 años en cuanto a su red social favorita, encontramos que el primero prefiere Facebook en un 70% mientras que el segundo lo hace en un 60% y que este resultado es significativo estadísticamente. Observa que la diferencia entre porcentajes es del 10%. Siguiendo con el mismo ejemplo, podría suceder que con los mismos tamaños de muestras y los mismos grupos y una diferencia de también el 10% no hubiera diferencias significativas debido a que la variación dentro de cada grupo es mayor, digamos un 45% vs. un 55%; aunque también podría darse el caso de que la muestra de un grupo sea más pequeña que la del otro grupo con lo que también dejarían de existir diferencias.

Tal vez, el elemento más extraño de las pruebas de significancia y de toda la estadística clásica sea el comparativo. Ya sabemos que, a la hora de comparar muestras, su tamaño y variación son importantes pero en realidad ¿En qué nos basamos para decidir si una diferencia es significativa o no? Nos basamos en lo más natural del mundo o “normal” que hay. Si ves en México una persona alta, de piel blanca, ojos azules y cabello rubio, seguramente vas a pensar que es extranjero, dirás esto no es “normal” pero cuidado podrías equivocarte ya que, aunque no hay muchos, algunos mexicanos son así; sin embargo, tu mejor apuesta es pensar que no es mexicano; si tu hijo que siempre ha sido bien portado y sólo se dedica a sus estudios te dice de repente que va a ser estrella de rock y que ya se va a triunfar, seguramente le dirías que está loco porque no es “normal”, nunca lo has visto tocar en un grupo y además no tiene nada de rebelde pero cuidado que te podrías equivocar si tu hijo se llama Jim Morrison y toca con los Doors. ¿Me captas? Instintivamente, comparamos los eventos que observamos contra lo que creemos que es “normal”. En estadística se sabe, desde hace cientos de años, que la mayoría de los eventos naturales y ese tipo de equivocaciones (errores en estadística) tienen una regularidad predecible, es decir, se distribuyen de forma normal y su relación es probabilística. La probabilidad de que un resultado de eventos aleatorios (como hacer entrevistas mediante una muestra aleatoria) caiga en el valor verdadero de la población está definida por la cantidad de su variación; en otras palabras, la probabilidad de que un resultado esté dentro de una desviación estándar (así se dice para referirse al promedio de variación que hay en un grupo) es del 68%, de que esté en dos desviaciones estándar es del 95% y de que esté en tres desviaciones estándar es del 99%. Cuando los resultados de cualquier experimento estadístico no caen dentro de estas distribuciones que se esperan al azar se dice que hay diferencias significativas. De forma más clara, estamos diciendo que los resultados no son azarosos porque no se distribuyen de tal forma; más bien hay un elemento(s) o variables que no pertenecen al azar que están influyendo en los resultados. ¿Complicado? Qué te parece si vemos la formula más sencilla que hay sobre error de muestreo. Por favor, no te confundas con este término, a lo que se refiere es que la muestra tiene un error ¿cuál es ese error o en qué se equivoca? Pues en atinarle al verdadero valor de la población. Permíteme explicarte la fórmula y seguro vas a entender a que nos referimos. La fórmula es: 1 / raíz(n). Fácil ¿verdad? Uno entre la raíz de “n”. “n” se refiere al tamaño de muestra.

Como dijo Jack, el destripador, “vámonos por partes”; el numerador de la fórmula, ese enigmático “1”, se refiere a la variación de los resultados. Como dijimos hay una interacción entre la variación de los resultados, e interacción en el lenguaje de las matemáticas significa multiplicación; así si el 50% (.5) dice que va a votar por el PRI y el otro 50% (.5) dice que no lo hará, debemos multiplicar .5 X .5 para conocer la variación resultante que en este caso es de .25, la cual, si eres curioso, notarás que es la más grande que se puede alcanzar; es decir, no hay nada más diferente, que una población dividida: el 50% dice sí y el otro 50% dice no. Sólo para estar seguros de que captamos esto ¿Cuál es la variación si el 95% vota por el PRI y el 5% restante no? Veamos: .95 X .05 = .047. Muy poca ¿No es así? Espera un poco más antes de desvelar ese enigmático “1” del numerador. Tu bien sabes que una multiplicación altera las unidades originales, con ella obtenemos un indicador de la variación pero destruimos nuestra escala original, qué tal si, para volver a la escala inicial, sacamos raíz cuadrada, operación que, como sabes, es parecida a la multiplicación pero en reversa; el resultado es un número con más sentido que indica la variación que tienen en conjunto los que sí votan y los que no votan por el PRI. Éste sería: raíz(.25) = .5. Ya sé que vas a decir que no tiene caso dar un paso adelante y luego otro atrás sino agarramos el ritmo. En este caso es así porque recuerda que estamos hablando de la máxima variación pero en otros casos que no representan precisamente la máxima variación este meneíto si funciona, ¡hazlo y verás! Prueba por ejemplo, con .40 X .60 y luego saca la raíz cuadrada y vas a obtener un número diferente (.48) que obedece a la variación conjunta de ambos porcentajes. No desesperes, sólo nos falta un último ingrediente para llegar a ese “1”.

En nuestra fórmula calculamos que el resultado va a estar dentro de dos desviaciones estándar, o sea el 95% (por eso se dice que tenemos un 95% de confianza en que el resultado es el correcto), si no sucede así tendremos que concluir que hay diferencias significativas. Si hasta aquí todo va bien, te voy a pedir que multipliques tu desviación (variación), sí ese .50 que nos quedó al extraer la raíz cuadrada, por dos para estimar con el 95% de probabilidad la cantidad de variación que debería de haber en tus resultados; en otras palabras, la desviación la vas a duplicar porque sabes que el 95% de los resultados siempre están dentro de dos desviaciones estándar. Si ya lo hiciste te darás cuenta que de allí sale el famoso “1” (.5 X 2 = 1).

Recuerdas que en primaria nos enseñaban que en una división la parte de arriba o el numerador es lo que tenemos para repartir y que el denominador son las personas entre las cuales lo podemos hacer. Pues bien, ya te diste cuenta cuál es la variación que hay, eso es lo que tienes que repartir ¿Entre cuántos? Pues entre el número de sujetos que entrevistaste. Entonces si tienes mucha variación y pocos sujetos, el resultado será mayor cantidad de variación por cada sujeto y a la inversa si hay muchos sujetos y poca variación la cantidad en que varían tus datos será muy pequeña. Para efectos prácticos esto quiere decir que a mayor variación las diferencias significativas son poco probables mientras que a menor variación son más probables (más adelante te explico un poco más de esto). Es necesario que te des cuenta que así como la multiplicación significa interacción la división significa condición; dicho de otra forma, la cantidad de variación resultante está condicionada por el número de sujetos. Que ¿qué tiene que ver la raíz cuadrada del denominador? La explicación es la misma que con ese 95% de confianza, la función de probabilidad cambia de forma inversamente proporcional al tamaño de la muestra. ¿Necesitas que tu error de muestreo sea menor al 5%, digamos que sea del 2.5%? Entonces debes cuadruplicar tu muestra, en lugar de entrevistar a 400 sujetos, entrevista a 1,600.

La fórmula de la que estamos hablando no es oficial, es un “fast track” que utilizan los mercadólogos para obtener ese famoso error de muestreo y aunque no es súper precisa, funciona muy bien, la fórmula original es:fórmula del error estándar

En ella “Z” se refiere al número de desviaciones estándar, “P” y “Q” son los porcentajes de los que están a favor y en contra, respectivamente y “n” es el tamaño de la muestra.

La lógica que hay detrás de la prueba de significancia estadística que se usa para saber si los resultados de dos grupos de proporciones son diferentes se fundamenta en que la diferencia que hay entre ambas proporciones debe ser más grande que la cantidad de variación de ambos grupos esperada al azar con un 95% de confianza; si las variaciones, en conjunto de ambos grupos, son menores a la diferencia que hay entre sus porcentajes, seguramente vas a obtener diferencias significativas. ¿Qué tan menores? Por lo menos que éstas sean dos veces menores (recuerda 95% de confianza igual a dos desviaciones estándar). No ponemos aquí la fórmula para no abrumarte más pero si la consultas en algún texto de estadística clásica vas a encontrar un parecido muy grande con lo dicho aquí.

Gracias por leernos y hasta la próxima.