Category Archives: ESTADISTICA

REGRESIÓN LINEAL ¡QUÉ LA FUERZA TE ACOMPAÑE!

Déjame adivinar. Cuando estudiabas estadística, tu primer gran quebradero de cabeza lo tuviste con el tema de regresión lineal ¿cierto? Es posible que hasta el día de hoy todavía tengas algunos “hard feelings”  con esta técnica pero espero que después de leer este post puedas conciliarte con ella. La regresión lineal es un tema básico y muy importante para los investigadores de mercado y no obstante, que es tal vez de los análisis más sencillos, muchas personas le siguen sacando la vuelta. Qué mala fama le han creado a la pobre. Es necesaria en los estudios de satisfacción, elasticidad de precios, imagen de marca, de candidatos políticos, planeación, pronósticos de operación, ventas, inversión, etcétera. En este post vamos a explicarte la regresión y a mostrarte una forma de graficarla para deleite tuyo y de tus clientes.

Seguramente has escuchado la historia que explica de donde viene el término de regresión, es muy ilustrativa pero pocos nos damos por enterado de su significado. Verás, se cuenta que en un estudio donde se relacionaba la estatura de los hijos con la de sus padres se observó que los padres muy altos tenían en promedio hijos más bajos que ellos y al revés que los padres de muy baja estatura tenían en promedio hijos más altos. La estatura promedio de los hijos de ambos tipos de padres -ojo al Cristo que es de plata- se aproximaba al promedio general de estatura de la población. Es como si hubiera una fuerza que hiciera regresar las cosas, en este caso la estatura del ser humano. Esa fuerza es la media o promedio. En la regresión lineal lo que se busca es encontrar esa media, una vez que la conoces es fácil hacer pronósticos pues sabes que ese promedio es la fuerza de atracción que va a aglutinar a los puntajes diferentes a él. Puede suceder que una persona sea muy alta o muy baja pero la naturaleza de las cosas hará que en las siguientes generaciones las cosas se equilibren, emparejen o tiendan al promedio general. En la regresión lineal, a todas las personas que son distintas al promedio, se les denomina errores de muestreo o varianza de error; es como si dijeras que algo ocurrió con esas personas que no son iguales al promedio, y allí es donde echamos a andar el hamster ¿Qué está ocurriendo? o más bien dicho ¿qué o quién está afectando a esas personas que la fuerza del promedio no es suficiente para atraerlas? Ese qué o quién es lo que llamamos variable independiente. En otras palabras, con la regresión lineal buscamos determinar que factor o variable está provocando la variación en la variable dependiente (se llama dependiente porque dependiendo de los valores de la independiente es el valor que va a asumir) ¿Complicado? Sigue leyendo.

Comúnmente los clientes nos piden realizar análisis de regresión múltiple (que es exactamente lo mismo que la regresión lineal simple sólo que en este caso son dos o más variables las que suponemos que están afectando a la variable dependiente) para conocer cuales son las variables que determinan la satisfacción. Ese es el ejemplo que viste en la ilustración del principio; sin embargo, para que te quede perfectamente claro lo que vas a hacer, vamos a ilustrarte la técnica y el método con un ejemplo de regresión lineal simple en Excel ¿Por qué en Excel? Bueno, puedes hacerlo en tu programa de estadística favorito pero te aconsejo que lo hagas en este paquete si no quieres perderte la gráfica divertida con NodeXL (add-in gratuito de graficación de Excel).

Suponte que eres dueño de Yupies’ Pizza y que los clientes siempre te preguntan cuánto tiempo va a tardar en llegar su pizza; para darles una respuestas necesitas hacer pronósticos sobre el tiempo que se tardan tus repartidores en llevar un pedido de pizza a su destino; tienes datos de las últimas 10 entregas donde conoces la distancia hasta la que fueron a dejar los pedidos y el tiempo que dilataron en llegar tus repartidores. La tabla de abajo contiene esos datos.

De repente y para variar un cliente te pide que le digas cuánto tiempo vas a tardar en llevarle la pizza y sabes que ese cliente se encuentra a 14 kilómetros de distancia ¿Qué tiempo le dirías? Ve con cuidado la sexta entrega de tu tabla de datos ¡Exacto! 15 minutos. Lo dedujiste, sin necesidad de hacer ninguna regresión lineal, porque anteriormente ya habías entregado una pizza a la misma distancia y ese fue el tiempo que le tomó a tu repartidor llevarla. Pero qué pasa si regresa tu repartidor y te dice que se tardó 17 minutos ¿qué le vas a decir al próximo cliente cuando te pregunte cuánto tiempo vas a tardar en entregarle si sabes que está exactamente a 14 kilómetros de distancia? ¿Le dirás 15 o 17 minutos? ¿Te acuerdas de la fuerza, el promedio? Deja que la fuerza te acompañe, que el promedio responda por ti. Serían 16 minutos ¿verdad? Esa pregunta estuvo “simple” pero qué tal que te pregunta cuánto tiempo vas a tardar en llevarle la pizza y sabes que está a 10 kilómetros de distancia. Buscas en la tabla de arriba y ¡pelas! te das cuenta que no has hecho ninguna entrega a esa distancia por lo tanto no sabes cuanto tiempo te va a llevar entregarla. Entonces te acuerdas de la fuerza y trazas una línea que atraviesa todos los puntos de tus entregas anteriores (ve la gráfica de abajo); esa linea representa el promedio (media en estadística) de los puntos combinados “X” (distancia) y Y (tiempo) y das con la solución pues estimas que el tiempo de entrega está entre el cruce de la distancia a la que vas (10 km) en el eje X y el tiempo de entrega (11.5 minutos) en el que se cruza con el eje Y. Por las razones anteriores a este método estadístico se le llama regresión lineal y simple porque ocupa una sola variable independiente y no por fácil que ese es otro cantar.

regresion lineal gráfica

La mayoría de las veces los problemas a los que te enfrentas no son tan claros ni tan sencillos; en este caso, cualquiera puede entender que la distancia afecta el tiempo en que se entrega la pizza; además los datos son pocos y es fácil manipularlos e incluso hacer una gráfica donde puedes ver que a mayor distancia también se incrementa el tiempo. La regresión lineal en particular y la estadística en general te ayudan a analizar problemas más complejos donde se tienen que manejar grandes números o relaciones no tan claras. Por ejemplo, en los estudios de satisfacción del cliente es difícil conocer cuáles variables son las que afectan la satisfacción en general y sobre todo saber cuánto; ese “cuánto” se llama coeficiente de regresión y es la cantidad que varía la variable dependiente en función de la independiente. En otras palabras, qué tanto aumenta o disminuye la satisfacción general cuando los niveles de las variables independientes que pueden ser precio, calidad, atención, amabilidad, puntualidad, servicio o cualesquier otro aspecto de tu producto o servicio disminuyen o aumentan. A los aspectos que determinan la satisfacción en general los mercadólogos les llaman “drivers” y son claves para proporcionar una experiencia más satisfactoria al cliente; lo que en términos prácticos significa retenerlo y que siga consumiendo tus servicios o productos. Ese coeficiente de regresión también se llama beta de regresión porque se representa con la letra griega beta.

En el gráfico del principio, cada uno de los círculos representa un “driver” que afecta la satisfacción en general del cliente con la línea área; el número que hay dentro de cada círculo es el coeficiente de regresión o beta de ese “driver”. Si sumas estos coeficientes vas a obtener 100% eso se debe a que hemos ajustado todas las betas para que en total sumen 100%. ¡Atención! no es que los coeficientes resultantes del análisis de regresión múltiple sumen 100%, es más ni siquiera están expresados en porcentajes; lo que sucede es que para las personas que van a ver tu gráfica es más fácil interpretar esos números ajustados que si le dices que tienes un coeficiente de regresión o una beta de “.30”, “.35” o lo que sea que es el coeficiente. Algunas agencias de investigación presentan el mismo análisis de regresión pero en lugar de ajustar a 100% sólo indican el orden en el que afectan las variables independientes a la satisfacción general (variable dependiente); Por ejemplo, dicen el atributo “A” afecta en primer lugar a la satisfacción, el Atributo “B” en segundo lugar y así sucesivamente. Desde nuestro punto de vista eso está mal hecho pues no es lo mismo decir “A sus órdenes General” que “Órdenes generales”: Por si no entendiste mi lenguaje cantinfleado ahí te va de nuevo: si X1 afecta en 90% y X2 en 10% es más sencillo decidir prioridades que si sólo dices X1 en primer lugar y X2 en segundo.

Te vas encontrar con un montón de opciones y estadísticas que puedes pedirle a tu programa estadístico (total, pedir no empobrece) desde las estadísticas descriptivas que ya conoces como medias, desviación estándar, máximo, moda, mediana, entre otras y hasta las pruebas de normalidad*; sin embargo, en general, hay cuatro aspectos a los cuales debes prestar atención para tu análisis de regresión y gráfica, estos son:

1. El coeficiente de la variable dependiente, también llamado constante o intercepción.
2. El coeficiente de regresión que te señala cuánto afecta la variable independiente (VI) a la dependiente (VD).
3. La significancia de ese coeficiente (en Excel está etiquetado como probabilidad en otros programas dice significance o sig.) la cual te indica si la relación entre la VI y VD es verdadera o producto del azar.
4. La forma en que se presenta ese coeficiente, si está estandarizado o en bruto.

Claro que hay varias cosas más que aprender acerca de la regresión lineal pero algo de tarea te tenemos que dejar. Así que ya para terminar te explicamos los 4 puntos anteriores con el mismo ejemplo de los datos de Yupies’ Pizza. El cuadro siguiente contiene la salida del análisis de regresión tal y como lo arroja Excel.

1. Se llama intercepción porque es el lugar donde la línea promedio; si esa que representa la fuerza, cruza con el eje “Y” (la variable dependiente); si te fijas viene siendo algo así como el promedio cuando no hay ninguna influencia, o sea cantidad cero de la VI; por eso debes sumar siempre está constante a la influencia que ejerce la variable o variables independientes; más adelante viene la prueba empírica en la fórmula de la regresión lineal simple.

2. El coeficiente de regresión es la cantidad que está aumentando “Y” por cada unidad de “X”; en palabras simples, si vas a entregar tu pizza a 10 kilómetros de distancia y el coeficiente te dice que por cada kilómetro el tiempo de entrega va aumentar 1.0411, entonces debes multiplicar por 10 kilómetros para conocer el tiempo total que te va a llevar hacer la entrega.

3. ¡Espérate! antes de dar por buenas tus predicciones o presumir de que si hay una relación entre las variables que estás manejando para incrementar la satisfacción de tus clientes debes cerciorarte que la relación es significativa o como dice Excel que la probabilidad sea menor a .05; si el número que obtienes es mayor a .05 la relación entre esa VI y la VD fue puro azar, no hay tal relación. En nuestro caso, obtuvimos 4.26599E-05 (ese -05 significa que el decimal debes recorrerlo cinco dígitos a la izquierda, entonces es .0000426599 y claro que es mucho menor que .05 lo que nos llena de alegría pues hemos descubierto que la relación si es significativa.

Excel te arroja los coeficientes en bruto; es decir, no los estandariza** ¿estanda…qué? Cuando un coeficiente está estandarizado la beta siempre va de -1 a 1, eso sirve para que puedas comparar cualquiere regresión que hagas independientemente del tipo de unidades de medición que estás usando; es decir, no importa si tu variable independiente está en kilómetros, millas, si se trata de peso, estatura, de una escala de 5 o 7 puntos; simpre tendrás coeficientes de regresión entre -1 y 1. Si obtienes una beta de “-1” significa que la relación es perfecta y negativa: cuánto más aumenta la variable independiente más disminuye la independiente y si tu beta es de “1” también hay una relación perfecta entre la VD y la VI pero ésta es positiva; si la VI aumenta la VD también lo hace siempre en la misma proporción. Ambas betas tienen su utilidad, la estandarizada es útil siempre que quieres comparar las betas entre si. Por ejemplo, en nuestra gráfica de satisfacción es importante saber cuál VI es más predictora; en cambio en el ejemplo de pizzas necesitas saber específicamente el tiempo que te va llevar entregar el pedido, en ese caso, sí requieres el coeficiente sin estandarizar para sustituir en la fórmula de regresión y hacer el pronóstico, analiza el desarrollo de la fórmula de abajo.

Según nuestros cálculos sustituyendo en la fórmula las betas que obtuvimos, llevar la pizza a 10 kilómetros de distancia nos tomaría 11.51 minutos (multiplica el .51 por la unidad de tiempo o sea 60 segundos para obtener el resultado real, 11:30:60), casi como lo habíamos pronosticado con nuestra gráfica ¿Estará el repartidor entregando el pedido exactamente a las 11.51? Muy probablemente no, pero en el peor de los casos lo hará en 12.85 minutos (12:51:00 minutos) y en el mejor en 10.76 minutos (10:45:00 minutos); a eso se le llama intervalo de confianza (ve el resultado de arriba de Excel) y es nada más ni nada menos que el error que debes sumarle y restarle a tus estimaciones. Debimos habérselo puesto a nuestra ecuación pero para que no te asustaras lo omitimos; sin embargo, no hay falla, ese error siempre lo vas a encontrar en los libros de estadística (es un juego de palabras).

¿Y la gráfica Apá? Estos vídeos te explican como correr una regresión lineal múltiple y graficarla con NodeXL.

Unable to display content. Adobe Flash is required.

Unable to display content. Adobe Flash is required.

Unable to display content. Adobe Flash is required.

Unable to display content. Adobe Flash is required.

Unable to display content. Adobe Flash is required.

* ¡Precaución! la regresión lineal simple o múltiple asume algunos supuestos que debes revisar que se cumplan como la distribución normal de los errores, su independencia, entre otros; te sugiero que le des una repasada a esos conceptos para que te sientas más seguro de lo que estás haciendo.
** Para estandarizar una beta solo multiplica el coeficiente de regresión de la VI por su desviación estándar y divídelo entre la desviación estándar de la VD.

Hasta la próxima.


PONDERACIÓN DE DATOS ¡CUESTIÓN DE PESO NO DE PESOS!

¿Cuánto gana en promedio un trabajador de la ciudad de México? ¿Qué te parece si hacemos una mini-encuesta para averiguar? Imagina que seleccionas 10 personas al azar y les preguntas cuánto ganan mensualmente. En la tabla de abajo puedes apreciar las respuestas de cada uno de tus entrevistados así como el promedio en general del ingreso mensual. No está nada mal $19,400 pesos por cholla. Con ese dinero, como diría Chava Flores, cualquiera paga la renta, el teléfono, la luz y todavía alcanza hasta para echarse un alipuz. ¡Espérate, no te esponjes! Sabemos que eso no es lo que gana un “chilango”, es sólo un supóngando que nos sirve para ilustrar la ponderación de casos.

tabla ponderacion

No sé porqué dicen ponderación de datos o de resultados si en realidad lo que se pondera son los casos y una vez hecho esto se procesa y analiza la información pero dada la costumbre hemos titulado este post ponderación de datos. ¿Para qué sirve y qué cómo se hace? Bueno lo primera respuesta es: sirve para que no andes por allí, como si fueras secretario de economía, diciendo que un mexicano gana mucho; en otras palabras para que tus estimaciones o resultados de tus encuestas sean más precisos. La segunda respuesta nos fue proporcionada por nuestro amigo y colaborador Jesús Romero, sobre todo como hacerle para ponderar en Excel utilizando tablas dinámicas, así que sigue leyendo.

Regresando a nuestra encuesta de 10 casos, imagina que hay 10 millones de personas que trabajan en la ciudad de México de esas, 7 millones son de nivel socioeconómico (nse) bajo, 2 millones de nivel medio y 1 millón de nivel alto; en otras palabras, hay más gente de nse bajo que medio y alto pero en nuestra encuesta entrevistamos a casi la misma cantidad de cada nse (véase la tabla de abajo) razón por la cual los datos que obtuvimos de $ 19,400.00 pesos en promedio están sesgados. Para corregir este “sesgo” tenemos que ponderar o sea equilibrar las cosas ¿Cómo? Si entrevistaste a 3 personas de nse bajo o sea el 30% tienes que darle el peso real; en otras palabras, hacer que esos tres casos o 30% se conviertan en siete casos o 70% ¿Por qué? Porque recuerda que hay 10 millones que trabajan en la ciudad de México de los cuáles siete millones son de nse bajo o lo que es lo mismo siete de cada diez casos; tienes que hacer exactamente los mismo para los otros dos nse y ajustarlos de acuerdo al peso que tienen en la población (10 millones de trabajadores).

Como se trata de equilibrar tenemos que repartir o dividir con base a lo que le toca a cada quien. Así el asunto se convierte en un cuánto te toca y cuánto tienes para saber cuánto te falta o te sobra. Ejemplo, en el caso del nse bajo le tocan 7 y tiene 3, entonces es 7/3 = 2.33; en el nse medio le tocan 2 y tiene 3, lo que se formula así: 2/3 = .66; y al nse alto le toca 1 y tiene 4 lo que se escribe como 1/4 = .25. Para hacer lo anterior puedes dividir por frecuencias; es decir, casos entre casos o hacerlo con porcentajes, te dará lo mismo pero no dividas casos entre porcentajes. Por ejemplo, 7 / 30% = 23.33 (hazme caso y no lo hagas así o te vas a equivocar). Asimismo, me tocó ver empresas de investigación de mercados que dividían el número de casos de la población real entre el de su encuesta (no se si todavía lo hagan o ya aprendieron) de esta forma 7,000,000/3 = 2,333,333.33; se me hacía absurdo porque cuando reportaban sus resultados no había manera de saber cuantas entrevistas hicieron en realidad; confundía sobre la verdadera importancia de los resultados ya que a lo mejor eran sólo 2 casos y decían que eran chorrocientos millones; la verdad estaba bastante loco eso ¿o está todavía? Hay dos moralejas en esta historia: primero, si hiciste 10 entrevistas tus resultados totales deben reflejar 10 entrevistas ni más ni menos y segundo siempre debes reportar la base ponderada y la base no ponderada, los casos para que me entiendas.

Mira la tabla de abajo y observa como cuando aplicamos el factor de ponderación, o sea multiplicamos el ingreso en cada caso por el factor de ponderación (número de casos reales) cambia el promedio bajo la columna que dice ingreso ponderado. Ahora tenemos que en promedio un trabajador de la ciudad de México gana $10,070.00 pesos. ¿Verdad que es cuestión de peso y no de pesos?

TABLA PONDERADA DE INGRESO

Ahora si, ya podemos empezar con las preguntas:

1. No, no es lo que ganan en realidad, este es sólo un ejemplo ficticio y cualquier semejanza con la vida real es pura coincidencia.

2. La suma total de la columna “FACTOR DE PONDERACIÓN” te da 10 porque siempre debes obtener como resultado de tu base ponderada el mismo número de casos o entrevistas que hiciste. En realidad nos dio 9.97 pero eso es por los decimales.

3. ¿Qué tanto afectan los decimales en la ponderación? Depende del programa, por ejemplo, SPSS ajusta el caso a 0 (cero) cuando es menor a 0.5 y a 1 (uno) cuando es igual o mayor que 0.5; Excel aplica el mismo criterio pero cuando utilizas la función truncar o entero, no importa si eres 0.5, 0.9 o 0.25 lo convierte en 0 (cero). En términos generales, te puedo decir que con dos decimales que incluyas en tu factor de ponderación no debes tener ningún problema.

4. ¿Qué cómo sé quién es de nse bajo, medio y alto? Bueno lo pregunté en la encuesta. Eso te lleva a que siempre debes preguntar los sociodemográficos en tus encuestas ya que las respuestas dependen del tipo de persona que entrevistas, de su sexo, edad, nse, edo civil, ciudad donde reside, etc. y si te das cuenta que entrevistaste más mujeres que hombres y sospechas de un sesgo en los resultados desearas ponderar por sexo ¿Y qué tal que no apuntaste el sexo de tus entrevistados? !Sopas carnal(a)¡ Ya valiste.

5. ¿Qué cómo sabemos el nse de la población? Por supuesto, debe haber datos disponibles sobre la población. Dependiendo de que datos desees encontrar puedes buscar en INEGI, FONHAPO, SECRETARÍA DE ECONOMÍA, AMAI (ASOSIACIÓN MEXICANA DE AGENCIAS DE INVESTIGACIÓN), IFE, etc.

6. ¿Siempre se debe ponderar? No, depende de si sospechas que hay un sesgo, de si deseas equilibrar la muestra, hacer proyecciones por regiones, a nivel nacional, etc.

7. ¿Qué es una muestra autoponderada? Un jefe que tuve me decía que un estudio hecho en varias ciudades debe estar ponderado. Tal vez, pero muchas empresas determinan el tamaño de sus muestras según el tamaño de la ciudad, las características sociodemográficas más importantes de la población de estudio. Así, si saben que van a hacer 100 entrevistas en Guadalajara, Monterrey y Ciudad de Mexico, hacen 50 en México, 30 en Guadalajara y 20 en Monterrey que corresponde al tamaño de cada una de estas ciudades (aprox.); además si saben que hay 6 mujeres por cada diez habitantes procuran entrevistar 60% de mujeres y 40% de hombres de su muestra. A eso se le llama una muestra autoponderada.

8 ¿Se puede ponderar o corregir por otras variables? Por ejemplo, si quiero equilibrar el número de hombres y mujeres dependiendo de su nse ¿puedo hacerlo? Seguro, de hecho a eso se le llama multiponderación y es la forma más fina de corregir un sesgo pero ese ejemplo, cómo ponderar en Excel y lo que se me haya quedado en el teclado lo dejamos para el próximo post ¿Quieres?

Saludos.

APRENDIENDO A MUESTREAR

En el año 2000 trabajaba como director de proyectos especiales en Pearson S.A. de C.V. una de las principales agencias de investigación en México y estaba encargado de los estudios de opinión que se hacían para el PRI (Partido Revolucionario Institucional); el último proyecto que hicimos ese año para este partido fue un conteo rápido o quick count que se utiliza para conocer los resultados de una elección, muchas horas antes de que se den las cifras oficiales, y el PRI deseaba conocer con anticipación al ganador de la elección para Presidente de la República Mexicana.

Este proyecto era sin duda el más grande y complejo y representaba la culminación de bastantes meses de trabajo y desvelo. El concepto de un conteo rápido es simple pero la metodología y la logística que implican son otra cosa; así que mi jefe por aquel entonces Manolo Barberena siguió el consejo de los Beatles “with a little help from my friends” y decidió que viéramos a Roy Campos. Las técnicas “quick count” y “exit poll” fueron desarrolladas por Warren Mitofsky de los Estados Unidos de Norteamérica y en México se dieron a conocer por el Dr. Roy Campos de la empresa Consulta Mitofsky, así que quién mejor que él para explicarnos.

Roy nos habló con bastante apertura sobre los puntos más importantes de un conteo rápido, nos comentó de la necesidad de ponderar (en algún otro post te hablaré de ponderación), del call center, sobre las secciones electorales, el conteo de votos, la forma en que recibiríamos los resultados, entre otros muchos aspectos pero lo que nos explicó sobre muestreo y el programa que usaba para obtener sus muestras fue lo que sin duda captó más nuestra atención. El programa podía seleccionar muestras aleatorias mediante un muestreo sistemático estratificado por conglomerados (sé que suena fuerte esto pero aguántate tantito y ahorita vas a ver que no es tan pantera como parece). Salimos de las oficinas de Roy mucho más confiados y por supuesto agradecidos por el “quick count for dummies” que nos acaba de dar y no recuerdo si Manolo le preguntó a Roy si vendía su programa de muestreo pero a mi sí me lo comentó y le respondí que era un magnifico programa pero que no era algo muy difícil de hacer y me acuerdo que me preguntó ¿Tú sabes hacer eso? Le dije que sí y después de eso me envío a un curso sobre muestreo a los Estados Unidos, cosa por la que yo también le estoy muy agradecido. ¡No te preocupes! no pienso contarte como me fue allá, voy ir directo al grano sobre cómo hacer un muestra para un estudio político. Sin embargo, sí te voy a pedir que leas a pierna suelta para que no se te haga densa la explicación.

Para fines electorales, México se divide en poco más 64,000 secciones y 300 distritos electorales dentro de los 32 Estados, incluyendo al Distrito Federal; las secciones electorales son de tres tipos: rurales, mixtas y urbanas y están compuestas por un número de electores que puede ir de 50 a 1500. La información sobre las secciones electorales es básica porque es la que se usa para sacar la muestra de tu estudio político ya sea éste un quick count, exit poll, preferencia electoral o cualquier otro.

Supón que sólo tienes 10 secciones electorales y hay únicamente 3 partidos políticos PAN, PRD y PRI; asimismo, tienes los resultados de la última votación por partido político en cada una de esas secciones. Si yo te pidiera que extrajeras una muestra al azar del 30%, o sea 3 secciones de las 10 que tienes para estimar como votaron los electores ¿cómo le harías para darme la mejor muestra o la más exacta? La forma más sencilla de hacerlo es, como en la escuela, elaborar 10 papelitos, cada uno de ellos con el número de una sección electoral distinta, doblarlos, meterlos en un recipiente, revolverlos y luego extraer 3 de ellos; a eso se le llama muestreo aleatorio simple y la única condición es que obtengas al azar tus secciones donde vas a ir a levantar tus entrevistas o a hacer el quick count. Ahora ¿qué tan exacta crees que puede ser tu muestra? para responderte necesito que veas el cuadro de abajo en él vienen nuestras 10 secciones electorales imaginarias y los resultados por partido.

Muestreo de estudios políticos

Como puedes observar en la tabla anterior el PAN tiene un 37% de los votos totales, el PRI el 43% y el PRD el 13%; imagina que las secciones que obtuviste al azar en tu muestreo aleatorio simple fueron la 3, 5 y 6, si sumas los resultados de esas secciones y obtienes el porcentaje total de votos de cada partido te darás cuenta que es totalmente inexacta tu muestra: el ganador es el PAN con 41% de la votación y no el PRI con el 39% aunque el PRD obtiene el mismo resultado (ve la tabla de abajo).

Muestreo aleatorio simple de estudios políticos

El truco para obtener una muestra más exacta es utilizar otro tipo de muestreo que se llama sistemático o de salto sistemático con un arranque aleatorio y hacerlo con base a la diferencia de votos que hay entre los principales partidos políticos; es decir, aquellos que captan el mayor número de votos, en este caso el PAN y el PRI. El procedimiento es simple, réstale los votos del PAN al PRI en cada sección y ordena las secciones electorales de menor a mayor o a la inversa, después obtén el salto sistemático mediante la fórmula “N/n” donde “N” es igual al número de secciones electorales y “n” es igual al tamaño de tu muestra; si tienes 10 secciones y el tamaño de tu muestra es de 3, entonces el salto sería de cada 3.33 secciones (no te fijes en los decimales y piensa que el salto sería de cada 3 secciones); posteriormente, saca un número al azar entre el 1 y el 10 o sea de entre el total de secciones, supón que obtuviste el 2, allí es donde debe empezar tu muestra y seleccionar la siguiente sección electoral cada 3 secciones como dice tu salto. Las secciones “afortunadas” son la 8, 5 y 2, como en la tabla de abajo.

Muestreo de estudios políticos por diferencias

Confío que hasta aquí no te hayas perdido. Lo único que hicimos fue ordenar por diferencia y seleccionar las secciones de acuerdo a ese orden, aunque debes ser observador y darte cuenta que con este método se seleccionan de forma automática las secciones electorales que tienen mayor y menor diferencia de votos así como las intermedias. En estadística a eso se le llama reducir varianza, y ese es el truco, una muestra será más exacta en la medida en que reduzcas la varianza. Mira la tabla siguiente y dime si los resultados no son más exactos: PAN (38%), PRD (12%) y PRI (44%).

Muestreo sistemático de estudios políticos

!Un momento¡ ¿Puedes hacer el muestreo más exacto? Claro, si conoces que variables influyen en la forma de votar de los electores. Por ejemplo, dijimos que hay secciones urbanas, mixtas y rurales y sabes que la gente del campo no vota igual que la de las ciudades o de las zonas semirurales (mixtas), entonces lo que tienes que hacer es dividir tus secciones en rurales, mixtas y urbanas y obtener una muestra de cada una de ellas de acuerdo al tamaño que representan; en otras palabras, si necesitas una muestra de 100 secciones electorales y sabes que el 60% son urbanas, el 10% mixtas y el 30% restante rurales tu muestra tendría que ser de 60 secciones urbanas, 10 mixtas y 30 rurales a ese procedimiento se le llama estratificar; así que tu muestra sería sistemática y estratificada, pero ¿y de dónde viene la fama de conglomerados? bueno, desde el momento en que seleccionas secciones electorales y no personas estás hablando de conglomerados aunque esos conglomerados pueden irse haciendo más y más pequeños. Cómo cuando seleccionas estados, luego dentro de los estados secciones y dentro de las secciones manzanas decimos que fue muestreo polietápico de 3 etapas y como dice el buen Aleks Syntek Sha-la-la, Sha-la-la, Sha-la-la.

Ya sólo para resumir y no quedarme con las ganas de contarte otra asúntacho. Efectivamente, se usan los datos de las elecciones pasadas para obtener la muestra para el siguiente estudio, si es para presidente pues usa esos resultados, si es para cámara de representantes usa los correspondientes a las elecciones de diputados y senadores; obtén varias muestras con el procedimiento que te describí compáralas entre si y la muestra que mejor pronostique o sea más exacta esa es la que debes utilizar.

¡Perdón! un último asunto y ya con ese cierro, lo prometo ¿Qué tan exactos son los resultados de un conteo rápido (quick count)? Déjame decírtelo de esta forma, cuando tuve que entregar la base de datos a nuestro cliente el PRI, me dí cuenta que había cualquier cantidad de errores de captura; muchos errores quiero decir, lo cual es comprensible por la rapidez con la que se deben entregar los resultados; y sin embargo, el resultado que dimos fue extremadamente preciso, muy parecido al de otras agencias. Ese mismo día alguien me comentó y que me perdone pero no recuerdo su nombre, que con semejante tamaño de muestra nadie, ninguna agencia podía equivocarse; por eso, hasta el día de hoy me preguntó ¿por qué en el 2006 una agencia, que fue la única que dio resultados a la opinión pública del exit poll que hizo con una mega muestra de votantes, se “equivocó” y dijo que el ganador de las elecciones presidenciales era el candidato del PRD? La verdad, esa agencia necesitaría haber hecho las cosas con las patas para haberse equivocado con semejante tamaño de muestra; no lo sé, igual y sí, o ¿tienes alguna hipótesis alternativa?

Cualquier comentario es bienvenido, hasta la próxima.