Tag Archives: muestreo

APRENDIENDO A MUESTREAR

En el año 2000 trabajaba como director de proyectos especiales en Pearson S.A. de C.V. una de las principales agencias de investigación en México y estaba encargado de los estudios de opinión que se hacían para el PRI (Partido Revolucionario Institucional); el último proyecto que hicimos ese año para este partido fue un conteo rápido o quick count que se utiliza para conocer los resultados de una elección, muchas horas antes de que se den las cifras oficiales, y el PRI deseaba conocer con anticipación al ganador de la elección para Presidente de la República Mexicana.

Este proyecto era sin duda el más grande y complejo y representaba la culminación de bastantes meses de trabajo y desvelo. El concepto de un conteo rápido es simple pero la metodología y la logística que implican son otra cosa; así que mi jefe por aquel entonces Manolo Barberena siguió el consejo de los Beatles “with a little help from my friends” y decidió que viéramos a Roy Campos. Las técnicas “quick count” y “exit poll” fueron desarrolladas por Warren Mitofsky de los Estados Unidos de Norteamérica y en México se dieron a conocer por el Dr. Roy Campos de la empresa Consulta Mitofsky, así que quién mejor que él para explicarnos.

Roy nos habló con bastante apertura sobre los puntos más importantes de un conteo rápido, nos comentó de la necesidad de ponderar (en algún otro post te hablaré de ponderación), del call center, sobre las secciones electorales, el conteo de votos, la forma en que recibiríamos los resultados, entre otros muchos aspectos pero lo que nos explicó sobre muestreo y el programa que usaba para obtener sus muestras fue lo que sin duda captó más nuestra atención. El programa podía seleccionar muestras aleatorias mediante un muestreo sistemático estratificado por conglomerados (sé que suena fuerte esto pero aguántate tantito y ahorita vas a ver que no es tan pantera como parece). Salimos de las oficinas de Roy mucho más confiados y por supuesto agradecidos por el “quick count for dummies” que nos acaba de dar y no recuerdo si Manolo le preguntó a Roy si vendía su programa de muestreo pero a mi sí me lo comentó y le respondí que era un magnifico programa pero que no era algo muy difícil de hacer y me acuerdo que me preguntó ¿Tú sabes hacer eso? Le dije que sí y después de eso me envío a un curso sobre muestreo a los Estados Unidos, cosa por la que yo también le estoy muy agradecido. ¡No te preocupes! no pienso contarte como me fue allá, voy ir directo al grano sobre cómo hacer un muestra para un estudio político. Sin embargo, sí te voy a pedir que leas a pierna suelta para que no se te haga densa la explicación.

Para fines electorales, México se divide en poco más 64,000 secciones y 300 distritos electorales dentro de los 32 Estados, incluyendo al Distrito Federal; las secciones electorales son de tres tipos: rurales, mixtas y urbanas y están compuestas por un número de electores que puede ir de 50 a 1500. La información sobre las secciones electorales es básica porque es la que se usa para sacar la muestra de tu estudio político ya sea éste un quick count, exit poll, preferencia electoral o cualquier otro.

Supón que sólo tienes 10 secciones electorales y hay únicamente 3 partidos políticos PAN, PRD y PRI; asimismo, tienes los resultados de la última votación por partido político en cada una de esas secciones. Si yo te pidiera que extrajeras una muestra al azar del 30%, o sea 3 secciones de las 10 que tienes para estimar como votaron los electores ¿cómo le harías para darme la mejor muestra o la más exacta? La forma más sencilla de hacerlo es, como en la escuela, elaborar 10 papelitos, cada uno de ellos con el número de una sección electoral distinta, doblarlos, meterlos en un recipiente, revolverlos y luego extraer 3 de ellos; a eso se le llama muestreo aleatorio simple y la única condición es que obtengas al azar tus secciones donde vas a ir a levantar tus entrevistas o a hacer el quick count. Ahora ¿qué tan exacta crees que puede ser tu muestra? para responderte necesito que veas el cuadro de abajo en él vienen nuestras 10 secciones electorales imaginarias y los resultados por partido.

Muestreo de estudios políticos

Como puedes observar en la tabla anterior el PAN tiene un 37% de los votos totales, el PRI el 43% y el PRD el 13%; imagina que las secciones que obtuviste al azar en tu muestreo aleatorio simple fueron la 3, 5 y 6, si sumas los resultados de esas secciones y obtienes el porcentaje total de votos de cada partido te darás cuenta que es totalmente inexacta tu muestra: el ganador es el PAN con 41% de la votación y no el PRI con el 39% aunque el PRD obtiene el mismo resultado (ve la tabla de abajo).

Muestreo aleatorio simple de estudios políticos

El truco para obtener una muestra más exacta es utilizar otro tipo de muestreo que se llama sistemático o de salto sistemático con un arranque aleatorio y hacerlo con base a la diferencia de votos que hay entre los principales partidos políticos; es decir, aquellos que captan el mayor número de votos, en este caso el PAN y el PRI. El procedimiento es simple, réstale los votos del PAN al PRI en cada sección y ordena las secciones electorales de menor a mayor o a la inversa, después obtén el salto sistemático mediante la fórmula “N/n” donde “N” es igual al número de secciones electorales y “n” es igual al tamaño de tu muestra; si tienes 10 secciones y el tamaño de tu muestra es de 3, entonces el salto sería de cada 3.33 secciones (no te fijes en los decimales y piensa que el salto sería de cada 3 secciones); posteriormente, saca un número al azar entre el 1 y el 10 o sea de entre el total de secciones, supón que obtuviste el 2, allí es donde debe empezar tu muestra y seleccionar la siguiente sección electoral cada 3 secciones como dice tu salto. Las secciones “afortunadas” son la 8, 5 y 2, como en la tabla de abajo.

Muestreo de estudios políticos por diferencias

Confío que hasta aquí no te hayas perdido. Lo único que hicimos fue ordenar por diferencia y seleccionar las secciones de acuerdo a ese orden, aunque debes ser observador y darte cuenta que con este método se seleccionan de forma automática las secciones electorales que tienen mayor y menor diferencia de votos así como las intermedias. En estadística a eso se le llama reducir varianza, y ese es el truco, una muestra será más exacta en la medida en que reduzcas la varianza. Mira la tabla siguiente y dime si los resultados no son más exactos: PAN (38%), PRD (12%) y PRI (44%).

Muestreo sistemático de estudios políticos

!Un momento¡ ¿Puedes hacer el muestreo más exacto? Claro, si conoces que variables influyen en la forma de votar de los electores. Por ejemplo, dijimos que hay secciones urbanas, mixtas y rurales y sabes que la gente del campo no vota igual que la de las ciudades o de las zonas semirurales (mixtas), entonces lo que tienes que hacer es dividir tus secciones en rurales, mixtas y urbanas y obtener una muestra de cada una de ellas de acuerdo al tamaño que representan; en otras palabras, si necesitas una muestra de 100 secciones electorales y sabes que el 60% son urbanas, el 10% mixtas y el 30% restante rurales tu muestra tendría que ser de 60 secciones urbanas, 10 mixtas y 30 rurales a ese procedimiento se le llama estratificar; así que tu muestra sería sistemática y estratificada, pero ¿y de dónde viene la fama de conglomerados? bueno, desde el momento en que seleccionas secciones electorales y no personas estás hablando de conglomerados aunque esos conglomerados pueden irse haciendo más y más pequeños. Cómo cuando seleccionas estados, luego dentro de los estados secciones y dentro de las secciones manzanas decimos que fue muestreo polietápico de 3 etapas y como dice el buen Aleks Syntek Sha-la-la, Sha-la-la, Sha-la-la.

Ya sólo para resumir y no quedarme con las ganas de contarte otra asúntacho. Efectivamente, se usan los datos de las elecciones pasadas para obtener la muestra para el siguiente estudio, si es para presidente pues usa esos resultados, si es para cámara de representantes usa los correspondientes a las elecciones de diputados y senadores; obtén varias muestras con el procedimiento que te describí compáralas entre si y la muestra que mejor pronostique o sea más exacta esa es la que debes utilizar.

¡Perdón! un último asunto y ya con ese cierro, lo prometo ¿Qué tan exactos son los resultados de un conteo rápido (quick count)? Déjame decírtelo de esta forma, cuando tuve que entregar la base de datos a nuestro cliente el PRI, me dí cuenta que había cualquier cantidad de errores de captura; muchos errores quiero decir, lo cual es comprensible por la rapidez con la que se deben entregar los resultados; y sin embargo, el resultado que dimos fue extremadamente preciso, muy parecido al de otras agencias. Ese mismo día alguien me comentó y que me perdone pero no recuerdo su nombre, que con semejante tamaño de muestra nadie, ninguna agencia podía equivocarse; por eso, hasta el día de hoy me preguntó ¿por qué en el 2006 una agencia, que fue la única que dio resultados a la opinión pública del exit poll que hizo con una mega muestra de votantes, se “equivocó” y dijo que el ganador de las elecciones presidenciales era el candidato del PRD? La verdad, esa agencia necesitaría haber hecho las cosas con las patas para haberse equivocado con semejante tamaño de muestra; no lo sé, igual y sí, o ¿tienes alguna hipótesis alternativa?

Cualquier comentario es bienvenido, hasta la próxima.

ERROR DE MUESTREO Y LA FÓRMULA 1 ENTRE RAIZ DE n

Allá, por el lejano 1,999 del siglo pasado, cuando trabajaba en Pearson, Viterbo Berberena, un buen amigo y excelente matemático-estadístico, me preguntaba por qué utilizábamos la fórmula 1/√n para obtener el error de muestreo. Contesté tímidamente que no lo sabía, que así me la habían enseñado pero era fácil de recordar y funcionaba bien. Por supuesto, que esta respuesta para una persona que está acostumbrada a trabajar con fórmulas es totalmente inaceptable; la fórmula debe ser tan clara como el agua más cristalina que hayas visto y si acaso está codificada, todos deberían entender de que se trata; como la consabida forma matricial de Ax=b la cual todos los matemáticos saben que se refiere a un sistema de ecuaciones simultáneas. Sí, esas que nos enseñaron a resolver en la secundaria. Sin embargo, para la fórmula 1/√n no sucede así ya que sólo la entienden los investigadores de mercado y eso no todos. Si te parece, vamos a ver primero como funciona esta fórmula y en un momento más te digo como la decodificamos en ese entonces Viterbo y yo.

Imagina que les preguntas a 10 gatos (i.e, Don Gato, Felix El Gato, Tom, Garfield) cuál alimento prefieren y 8 de ellos te dicen que prefieren Whiskas; en números relativos representan el 80% (8/10 = .8). Entonces vas corriendo con tu jefe y le dices: “Sabemos que 8 de cada 10 gatos prefieren Whiskas” y tú jefe te dice: “¡wait a minute! ¿estás seguro de lo que me estás diciendo? Porque si es así puedo lanzar una excelente campaña que se podría llamar ocho de cada diez gatos prefieren Whiskas”. Así como respondí yo tibiamente a mi amigo, a ti también te asalta la duda e inmediatamente te das cuenta que no puedes asegurarlo porque no les preguntaste qué alimento preferían a Benito Bodoque, Cucho, Demóstenes, Silvestre, en resumen, a todos los gatos. Qué tal que a los que te faltó entrevistar les gusta, digamos, Gatina, claro que ese 80% podría bajar o quizá subir, si es que también les gusta la marca Whiskas. Por otro lado, te das cuenta que entrevistar a todos los gatos es imposible porque se necesitaría mucho dinero para hacer un estudio de esa magnitud. ¿Qué haces para responder la pregunta de tu jefe y que te vea seguro? ¡Fácil! aplicas la fórmula 1/√n.

Si “n” se refiere al tamaño de tu muestra o número de gatos que entrevistaste, el resultado sería 0.3162 (1/√10 = 0.3162), múltiplica ese número por 100 para que lo puedas ver en porcentajes o números relativos como dicen los matemáticos; es decir, tu error de muestreo es del 32%. En pocas palabras, le puedes decir a tu jefe, con un 95% de seguridad o confianza, que en el peor de los casos sólo el 48% (80% – 32% = 48%) de los gatos prefieren Whiskas porque ese error, como su nombre lo indica, te señala qué tanto te puedes equivocar en tu estimación o resultado; claro que también puedes equivocarte subestimando el resultado, es decir, que sean más del 80% de gatos; sin embargo, en este caso, si al resultado del 80% le sumas el error te daría 80% + 32% = 112% ¿O sea? todavía nadie se ha atrevido a decir que el 112% de los gatos prefieren Whiskas; por lo tanto sólo puedes decir que a todos los gatos les gusta Whiskas, es decir, al 100%. Suena raro ¿verdad? ¿Cómo se puede decir que es más del 100%? ¿Será por eso que la ley de los grandes números o teoría del límite central dice que sólo después de 30 casos se puede hacer inferencias estables?

Volviendo a nuestra encuesta gatuna, seguramente, tu jefe te va a mandar lejos pero muy lejos pues, al igual que mi respuesta no le satisfizo a mi amigo el matemático, tampoco la tuya le va a parecer al jefe. ¿Qué tienes que hacer? Nuevamente, otra respuesta fácil, incrementar el tamaño de muestra y, esta vez, entrevistar a 100 gatos, no a todos porque eso es muy caro pero si a 100; con eso el error de muestreo disminuye a 10%(1/√100 = .10), de forma tal que ahora si le puedes decir al jefe que en el peor de los casos quizá no sea el 80% aunque tampoco será menos del 70% y con un poco de suerte te equivocas favorablemente y en lugar de 80% son 90% los gatos que prefieren Whiskas. Todo eso se lo vas a asegurar con un 95% de confianza en lo que dices.

La parte práctica ya está, ya sabes cómo usar la fórmula y entiendes que muestras más grandes hacen jefes más felices porque hay una menor error en los resultados que se le dan. Ahora vamos a la parte más obscura del tema para echar algo de luz en ella. Vamos imaginándonos que hacemos un censo en México y le preguntamos a todos, sí a todos, por eso es un censo, los mexicanos mayores de 18 años si creen que el planeta se está calentando o no y el 70% dice que sí hay calentamiento global mientras que el 30% restante opina que no.

Oso

¿Cuál es la probabilidad de equivocarte y que no sea el 70% los que piensan que hay calentamiento global? Teóricamente, cero, no hay forma de que te equivoques pues entrevistaste a todos. Por favor, no busques en tu cabeza cosas como qué tal si me inventaron las entrevistas, se capturó mal, algunos no estaban en el país, etc. Recuerda que esto es teórico, todo lo hiciste a la perfección y todos los mexicanos y mexicanas estaban en México y sus respuestas eran cuerdas ¿Ok? Bueno, entonces no hay forma de que te equivoques. Aunque, como bien sabes, entrevistar a toda la raza cuesta un montón de dinero por lo que si deseas corroborar que efectivamente, el 70% dice que hay calentamiento global y el 30% que no, tendrás que hacer una encuesta con una muestra aleatoria de mexicanos y mexicanas mayores de 18 años. La encuesta es un método rápido y económico que sirve para estimar los parámetros de una población. Un parámetro es el valor real de la población que en este caso sería el 70% de los que dicen sí o el 30% de los que dicen no; en contraste, al resultado que obtienes de una encuesta con una muestra se le llama estadística la cual puede ser igual o no al parámetro de la población pero siempre resulta cercana a él; claro, cuando hablas de más de 30 casos. El asunto es medir qué tan cerca está esa estadística (resultado de la encuesta) del parámetro (valor real) y para eso te sirve la susodicha fórmula de la que estamos hablando.

Sigamos imaginando que hacemos una primera encuesta con 100 casos en toda la república mexicana y obtenemos que el 80% de los encuestados nos dice que sí se está calentando y el 20% que no y como sabemos que el resultado de una encuesta puede o no ser igual al parámetro de la población, para asegurarnos hacemos otra encuesta de 100 casos más, obteniendo ahora los valores de 65% que dice sí y 35% que dice no. Suponiendo que no conoces el parámetro (valor real) de la población mexicana sobre lo que opinan sobre este tema, ahora te encuentras con un dilema ¿cuál de las dos encuestas es la que está más cerca del parámetro? ¿A cuál le hago caso? ¡Ni modo! para resolver este entuerto decidimos hacer una tercera encuesta con el mismo número de casos y obtenemos que el 72% dice sí y el 28% no; y, ya encarrerado el ratón, pos hacemos un cuarta encuesta en la cual el 69% dice sí y el 31% no. Si registramos en una gráfica los resultados de las cuatro encuestas con los que dicen que el planeta sí se está calentando, nos vamos a dar cuenta que ninguna de éstas le atinó al parámetro.

Error estándar en encuestas

Pero fíjate bien en lo que sigue, si continúas haciendo encuestas vas a notar que la mayoría de los resultados son iguales al parámetro o muy parecidos y que muy pocos, son muy diferentes a él. Todas las encuestas que hagas resultarán en una figura más o menos como la de abajo siguiente, a esa figura se le llama distribución normal porque, como su nombre lo índica, la mayoría de las cosas que suceden en la naturaleza tienen esa distribución, también se le conoce como campana de Gauss en honor Carl Friedrich Gauss, uno de los tres más grandes matemáticos que hayan existido jamás, los otros dos son Newton y Arquímedes, pero más importante aún es que allá a principios del siglo XIX se le conocía como curva de error y ¿Sabes por qué? Porque como te acabas de dar cuenta siempre hay un error asociado a las mediciones que haces por encuesta (o por cualquier otro medio) y ese error se distribuye de forma simétrica, a veces es menor que el parámetro otras mayor pero al final siempre va a existir un número muy parecido de errores hacia un lado como hacia el otro, eso es lo que le da la simetría a la curva normal o de campana, como también se le dice por su forma; sin embargo, la gran mayoría de mediciones siempre van a estar muy cerca del parámetro de la población por lo cual la frecuencia de esos valores será mayor dándole con ello la altitud a nuestra figura. Antes de continuar observa la imagen para que te des cuenta de lo estamos hablando.

distribución normal
Dijimos que la mayoría de los resultados en tus encuestas, 186 para ser exactos, serían igual al parámetro o estarían muy cerca de él; pero ¿Qué tan cerca de él? ¿Cómo saber si nuestra primera encuesta (80% dice que sí), por ejemplo, es igual o no al parámetro? Bueno, por esos años también los matemáticos se dieron cuenta que los errores pequeños eran más frecuentes que los grandes; es decir, equivocarse por poco era más común que equivocarse por mucho, por eso algunas gentes dicen que la estadística es noble. Asimismo, también observaron que hay una relación inversamente proporcional entre el tamaño del error y la frecuencia con la que se producen. Por esa relación que es inversamente proporcional es que la fórmula que nos ocupa tiene en el denominador la raíz de n pues en otras palabras; mientras más grande sea tu muestra el tamaño del error va a disminuir proporcionalmente. Eso es lo que significa esa raíz cuadrada. Pero ¿Qué hay del 1 del numerador? Si te parece prosigamos para ver que más nos encontramos.
Aunque se puede construir una curva normal haciendo todo esa monstruosidad de encuestas, para que verifiques que las cosas realmente son así, no es práctico ya sea por falta de tiempo y o dinero por lo que usualmente confiamos en las tablas estadísticas que nos proporcionan los libros, las cuales nos señalan cual es la probabilidad de observar determinado error “estandarizado”. Se dice que está estandarizado pues nos los da como áreas dentro de la curva normal. Por ejemplo, en ellas se observa que el 99.99% de los resultados de todas tus encuestas estarán dentro de 3 errores estándar o tres áreas de esa curva, tanto a la izquierda como a la derecha del parámetro de la población; que un 95% de ellas estarán dentro de 2 errores estándar y que el 68% dentro de 1 error estándar a la izquierda y 1 a la derecha del parámetro, como se nota en la figura de abajo.
áreas bajo la curva
Si se te dificulta entender a que se refiere eso de error estándar, piensa que un error estándar es algo así como el promedio de errores; es decir, que si tu promedio de error fue de 5%, en general, tendrías que el resultado más equivocado estará en 15% (3 errores estándar) menos de lo que obtuviste en tu encuesta o 15% más porque allí se encuentran el 99.99% de tus resultados. Para ilustrar esto, volvamos al resultado de la primera encuesta en la que el 80% dijo que el planeta se estaba calentando; si en este momento yo te preguntara qué confianza tienes de que ese 80% es igual al parámetro de la población. Bueno tienes tres respuestas claras:
1. Que tienes un 68% de confianza de que el resultado está dentro de un error estándar o sea un promedio de errores por abajo o por arriba, lo cual puede ser +/- 5%, de acuerdo a nuestro tamaño de muestra de 100 casos y que en términos prácticos significa que entre el 75% al 85% consideran que sí hay calentamiento global, esto por supuesto debe incluir el valor real o sea el parámetro si tu encuesta es acertada. Observa que ese 68% significa que de todos los estudios o muestras que tu hagas, el 68% de ellos van a caer en un área no mayor a un error estándar; asimismo esa confianza (así se dice en investigación) del 68% puede no ser suficiente para dar el valor real como en este caso que es del 70% pero tú dices que está entre el 75% y 80%.
2. Que sabes con un 95% de confianza que tu resultado está entre dos errores estándar o sea dos promedios de errores por abajo o por arriba, lo cual puede ser +/- 10%, de acuerdo a nuestro tamaño de muestra de 100 casos y que en términos prácticos significa que entre el 70% al 90% consideran que sí hay calentamiento global. En este caso sí acertaste, por eso los investigadores prefieren dar los resultados usando dos errores estándar o el 95% de confianza. Claro está que en la fórmula de 1/√n el error está calculado con base a dos áreas o errores estándar.
3. Que sabes con el 99% de confianza que ese 80% está dentro de tres errores estándar o sea tres promedios de errores por abajo o por arriba, lo cual puede ser +/- 15%, de acuerdo a nuestro tamaño de muestra de 100 casos y que en términos prácticos significa que entre el 65% al 95% consideran que sí hay calentamiento global. Nota que en este caso la probabilidad de que te equivoques es prácticamente nula pero las posibilidades que das sobre el verdadero resultado son muy amplias lo que en algunos casos es impráctico ¿o cómo le dirías a tu público que más de la mitad (65%) o casi todos (95%) consideran que sí hay calentamiento global? No funciona ¿verdad?
Ahora sí, ahí te va la decodificación de la fórmula, el numerador, o sea ese enigmático “1″, se compone por la letra “Z” que significa número de errores estándar o áreas bajo la curva; “P” que representa a la proporción que dice que sí se está calentando; “Q” que es la proporción de gentes que dice que no se está calentando, este “P” y “Q” son un indicador de lo que varían las opiniones; en otras palabras, es la variación y “n”, en el denominador, es el tamaño de la muestra o número de entrevistas, la fórmula original es esta:
fórmula del error estándarEjemplo, si quieres no estar más alejado en tu pronóstico de 2 errores estándar deberás sustituir Z por 2, eso quiere decir que deseas una confianza del 95%; asimismo, como no sabes cuál es la variación de la población tendrás que asumir que lo peor que puede suceder es que el 50% diga que sí hay calentamiento global y el otro 50% que no lo hay. Si lo piensas por un momento ese número te daría los promedios más altos de desviación por lo que estás siendo bastante cuidadoso en tus pronósticos; sin embargo, si conoces el valor de la desviación puedes usarlo en lugar de suponer la máxima desviación; en la práctica nunca se conoce pero bien podrías usar el de tu encuesta 80%-20% pero observa que dejas de ser conservador, estás siendo más arriesgado pues infieres que los datos se desvían muy poco. En resumen, sustituye “P” por 0.5  y “Q” por 0.5, en ambos casos este “0.5” representa el 50%. Si haces estos cambios a la fórmula obtienes:
 fórmula de error
La fórmula anterior también se puede escribir como:
error estándar 2
Si efectúas la operación del numerador el resultado será 0.5 que al multiplicarlo por 2 te da uno, quedando la fórmula finalmente como:
fórmula de uno entre raíz de n
Nota 1. En realidad el 95% de confianza se encuentra entre 1.96 desviaciones o sea casi 2 pero no te afecta mucho si multiplicas la desviación por 2.
Nota 2. Este artículo ya lo habíamos publicado a principios del 2010 pero aprovechando que nuestro sitio se cayó hace un año aproximadamente y es uno de varios que teníamos por rescatar y publicar nuevamente, lo hemos modificado para hacerlo más entendible hoy 18 de febrero del 2015.

COMPARANDO LA SATISFACCIÓN DEL CLIENTE

A menudo los clientes desean saber si los promedios o puntajes obtenidos en sus encuestas de satisfacción son o no diferentes a los resultados de sus anteriores encuestas. Para saber esto, es necesario analizar dos aspectos relevantes:

1. El técnico, que se refiere a las diferencias estadísticamente significativas y su compinche el error de muestreo.

2. El estratégico, que se relaciona a los atributos, beneficios, valores o cualesquier otro elemento de la marca o empresa, que se relacione con ella y sea parte importante de la “propuesta de valor”.

Te voy a explicar el técnico que tiene que ver con la teoría estadística y es donde aparentemente hay más problema; aunque yo sé que no es así ya que si el ejecutivo de mercadotecnia tomara consciencia se daría cuenta que el problema más importante viene de la parte estratégica. Sin embargo, sobre la estrategia hablaremos en otra ocasión, cuando terminemos el post que estoy preparando para ti sobre Brand Equity.

Bueno, decía que un hallazgo es importante si es estadísticamente significativo ¿Cómo determinamos si lo es?
Hay te va un ejemplo, suponte que algunas mañanas, cuando te vas a trabajar, tu esposo(a) te da un besito y te desea suerte, otras veces te abraza y te dice que te quiere; también algunas veces te arregla la corbata (ya ni se usa ¿verdad?) o te recuerda que no salgas sin abrigarte o llevarte el paraguas y así lo hace durante buen tiempo sin que ese hábito cambie pero un día te dice “!si ándale¡ ya vete y que te vaya bien”. ¡Correcto! Ya te diste cuenta de que allí hay una diferencia, algo pasó; esperabas una muestra de cariño y no la hubo y siempre la ha habido, aunque no sea la misma manifestación, siempre te ha demostrado cariño; entonces tú te pones a pensar qué fue lo que hiciste, que la actitud de tú esposa(o) cambió.

Así es como opera la estadística, se espera que el resultado, cada vez que hagas tu encuesta, sea más o menos el  mismo, dentro de cierta variación. Sí, me refiero a eso que llamas error de muestreo. Por ejemplo, si planeaste que tu encuesta iba a tener un error de muestreo de +/- 4.0% de error; entonces esperarías que tu resultado no fuera menor ni mayor que el obtenido en las mediciones pasadas tomando en cuenta ese intervalo que se abre con el error de muestreo; es decir, no menor restando un -4% ni mayor si le sumas un +4%.

Un supongando, en el primer semestre del 2009 la empresa “MEGAMAQUILA” obtuvó un 35% de clientes “Totalmente satisfechos” mientras que en el segundo semestre un 39% dijeron estar “Totalmente satisfechos”; si la encuesta del primer semestre tiene un error de muestreo del 4%, tendríamos que sumarle ese error al resultado de 35% para ver cuál es el valor máximo que cabría esperar (39%) y restarle ese mismo 4% para calcular el valor mínimo que podría obtenerse (31%). A este rango de resultados es lo que en estadística se le nombra intervalo de confianza y se refiere al intervalo de resultados que se deben esperar sin que despierte sospechas en nosotros de que algo anda fuera de lo normal. En la tabla de abajo puedes observar los intervalos de confianza para cada uno de los porcentajes obtenidos en ambas encuestas.

tabla de errores de muestreo

Ahora bien, si el rango de posibles resultados de tu primer semestre se traslapa con el rango de posibles resultados del segundo semestre decimos que no hay diferencias significativas, en la gráfica de abajo puedes observar como aunque el resultado del segundo semestre fue más alto (39% de satisfechos) no es diferente del resultado del primer semestre (35% de satisfechos) ya que los resultados se traslapan en el área blanca. En términos estadísticos, se dice que hay una gran probabilidad (95% de confianza) de que el resultado del segundo semestre sea, como dice un amigo, “en el mejor escenario, 43% de personas Totalmente Satisfechas” y “en el peor escenario, 35% que están Totalmente Satisfechos”.

areas de error

Sé lo que estás pensando, has de decir que eso es para porcentajes pero qué sucede cuando tengo promedios. Comunmente los estudios se hacen con escalas de 11 puntos donde 0 es Nada Satisfecho y 10 es Totalmente Satisfecho con lo que el resultado de nuestra evaluación es un promedio en lugar de un porcentaje, puede ser que hayamos obtenido 9.4 en una medición y 9.1 en otra; el procedimiento es el mismo hay un error de muestreo que te sirve para calcular tu intervalo de confianza; sin embargo, el error se calcula de forma diferente. Cualquier programa estadístico te calcula esos errores y también te señala si hay diferencias significativas; así que no te preocupes por hacerlo a mano pero conviene que sepas de donde viene todo el argüende.

Es una práctica común a la industria decir que un estudio tiene un +/- X porcentaje de error de muestreo, como ya viste eso está bien para variables en las cuales manejas porcentajes o proporciones pero no está bien si deseas estimar los posibles resultados para una variable de intervalo, como la escala de 0 a 10 puntos que mencionábamos. Pero como dice el dicho, a la tierra que fueres has lo que vieres, te voy a enseñar una formulita muy útil y fácil que se usa para calcular el error de muestreo para proporciones. Dicho sea  de paso, fue de las primeras cosas que me enseñaron, cuando mi mala cabeza decidio dedicarse a la investigación de mercados, la fórmula es:

formula 1 entre raiz de n

Por ejemplo, si planeas hacer una encuesta de 400 sujetos, el error de muestreo sería de +/- 5%.formula 1 entre raiz de n 2Así de sencillo, que porqué uno entre raíz de n (n se refiere al tamaño de la muestra) bueno esa es otra historia que prometo explicarte en el siguiente post.

Espero te sirva la batifórmula, un gran abrazo mi estimado lector.