Tag Archives: muestreo

DIFERENCIAS ESTADÍSTICAMENTE SIGNIFICATIVAS

Si siempre pudiéramos entrevistar a toda la población no existiría la estadística; ésta nace por la imposibilidad de hacerlo porque, como sabes, cuesta mucho dinero entrevistar a toda la raza; nos tardaríamos todo una vida en ello o no podríamos acceder a todos los sujetos quizá, al momento de hacer el estudio, algunos se encuentren en alta mar o volando rumbo a Marte. En fin, existen muchos inconvenientes. El resultado que obtenemos con una muestra no es igual al de toda la población pero para efectos prácticos decimos que se parece mucho ¿Qué tan parecido? Bueno, podemos decir que se parece en un 68%, 95% o 99%, claro que entre más decimos que se parece más seguros estamos de que es igual. En los estudios de mercado y casi en toda la ciencia formal, la mayoría de los investigadores aceptan que es suficiente con que los resultados se parezcan en un 95%; por eso decimos: con un 95% de confianza el resultado es…Sin embargo, no hace falta ser mal pensado para darse cuenta de que podría no ser así ¿quién me asegura que son tan parecidos los resultados de la muestra a los de la población? ¿Debemos confiar sólo porque el investigador dice que hay un 95% de confianza de que sí se parecen?

Los mexicanos solemos decir: “a las pruebas me remito”. Esto no puede ser más cierto que en las pruebas de significancia estadística, estas sirven para probar matemáticamente que se parecen mucho y aunque el concepto es simple además de elegante, como casi todas las matemáticas, la mayoría tenemos problemas para entender estas pruebas. Vamos a tratar de explicarlo de manera coloquial para que se comprenda pero sería conveniente que se contrastará lo dicho aquí contra las formas puramente matemáticas para comprenderlo en su totalidad.

Supongamos que entrevistamos a 10 jóvenes y 7 de ellos nos dicen que les gusta el café Starbucks®, es decir, al 70% de ellos les agrada esta marca; ahora suponte que en lugar de entrevistar 10, entrevistas a 1,000 y 700 dicen que les gusta la marca Starbucks® o sea también hay un 70% que prefieren la marca ¿A cuál resultado de las dos muestras le tendrías más confianza? Si no te apellidas contreras, seguramente vas a decir que a la muestra de 1,000 casos ¿¡Lo ves!? El meollo del asunto está en el tamaño de la muestra, mientras más grande sea, mayor será la probabilidad de que se parezca a la población. Hasta aquí no hemos descubierto nada nuevo, es sólo cuestión de sentido común. Ahora, fíjate en esto otro, si haces dos estudios de 100 entrevistas cada uno y en uno de ellos el 50% te dice que va a votar por el candidato del PRI (Partido Revolucionario Institucional) y en el otro hay un 70% que te dice que votará por el PRI ¿En cuál resultado confiarías más? Recuerda que ambos estudios tienen el mismo tamaño de muestra, asimismo, fíjate que no me refiero a la confianza de que los estudios estén bien hechos, nuestro “supón” es que ambos lo están. Déjame ayudarte, porque sospecho que esta respuesta no es tan directa como la anterior. Yo confiaría más en la que dice que el 70% va a votar por el PRI. ¿Por qué? Perdona, que te confunda más, con otro ejemplo, pero es en aras de que nos vayamos entendiendo. Si tienes una novia(o) que unas veces si va a las citas que convienes con ella(él) y otras no, digamos 50% de las veces si va y 50% no ¿qué tanto confiarías en que esta vez si va a acudir a la cita? Por el contrario, si tu novia(o) ha demostrado que el 70% de las veces si acude ¿No confiarías más en esta pareja que en la que a veces viene a la cita y a veces no? Muy bien, allí lo tienes, el segundo ingrediente de las pruebas de significancia es la variación de los resultados.

En resumen, la significancia estadística depende del tamaño de la muestra y la variación que hay en los resultados. Si entendemos esto podremos entender porqué una diferencia del 15%, 10%, 5% entre dos muestras o grupos a veces puede ser significativa y a veces no. Por ejemplo, en un estudio donde se compara un grupo de jóvenes de 18-25 años contra otro de 26-35 años en cuanto a su red social favorita, encontramos que el primero prefiere Facebook en un 70% mientras que el segundo lo hace en un 60% y que este resultado es significativo estadísticamente. Observa que la diferencia entre porcentajes es del 10%. Siguiendo con el mismo ejemplo, podría suceder que con los mismos tamaños de muestras y los mismos grupos y una diferencia de también el 10% no hubiera diferencias significativas debido a que la variación dentro de cada grupo es mayor, digamos un 45% vs. un 55%; aunque también podría darse el caso de que la muestra de un grupo sea más pequeña que la del otro grupo con lo que también dejarían de existir diferencias.

Tal vez, el elemento más extraño de las pruebas de significancia y de toda la estadística clásica sea el comparativo. Ya sabemos que, a la hora de comparar muestras, su tamaño y variación son importantes pero en realidad ¿En qué nos basamos para decidir si una diferencia es significativa o no? Nos basamos en lo más natural del mundo o “normal” que hay. Si ves en México una persona alta, de piel blanca, ojos azules y cabello rubio, seguramente vas a pensar que es extranjero, dirás esto no es “normal” pero cuidado podrías equivocarte ya que, aunque no hay muchos, algunos mexicanos son así; sin embargo, tu mejor apuesta es pensar que no es mexicano; si tu hijo que siempre ha sido bien portado y sólo se dedica a sus estudios te dice de repente que va a ser estrella de rock y que ya se va a triunfar, seguramente le dirías que está loco porque no es “normal”, nunca lo has visto tocar en un grupo y además no tiene nada de rebelde pero cuidado que te podrías equivocar si tu hijo se llama Jim Morrison y toca con los Doors. ¿Me captas? Instintivamente, comparamos los eventos que observamos contra lo que creemos que es “normal”. En estadística se sabe, desde hace cientos de años, que la mayoría de los eventos naturales y ese tipo de equivocaciones (errores en estadística) tienen una regularidad predecible, es decir, se distribuyen de forma normal y su relación es probabilística. La probabilidad de que un resultado de eventos aleatorios (como hacer entrevistas mediante una muestra aleatoria) caiga en el valor verdadero de la población está definida por la cantidad de su variación; en otras palabras, la probabilidad de que un resultado esté dentro de una desviación estándar (así se dice para referirse al promedio de variación que hay en un grupo) es del 68%, de que esté en dos desviaciones estándar es del 95% y de que esté en tres desviaciones estándar es del 99%. Cuando los resultados de cualquier experimento estadístico no caen dentro de estas distribuciones que se esperan al azar se dice que hay diferencias significativas. De forma más clara, estamos diciendo que los resultados no son azarosos porque no se distribuyen de tal forma; más bien hay un elemento(s) o variables que no pertenecen al azar que están influyendo en los resultados. ¿Complicado? Qué te parece si vemos la formula más sencilla que hay sobre error de muestreo. Por favor, no te confundas con este término, a lo que se refiere es que la muestra tiene un error ¿cuál es ese error o en qué se equivoca? Pues en atinarle al verdadero valor de la población. Permíteme explicarte la fórmula y seguro vas a entender a que nos referimos. La fórmula es: 1 / raíz(n). Fácil ¿verdad? Uno entre la raíz de “n”. “n” se refiere al tamaño de muestra.

Como dijo Jack, el destripador, “vámonos por partes”; el numerador de la fórmula, ese enigmático “1”, se refiere a la variación de los resultados. Como dijimos hay una interacción entre la variación de los resultados, e interacción en el lenguaje de las matemáticas significa multiplicación; así si el 50% (.5) dice que va a votar por el PRI y el otro 50% (.5) dice que no lo hará, debemos multiplicar .5 X .5 para conocer la variación resultante que en este caso es de .25, la cual, si eres curioso, notarás que es la más grande que se puede alcanzar; es decir, no hay nada más diferente, que una población dividida: el 50% dice sí y el otro 50% dice no. Sólo para estar seguros de que captamos esto ¿Cuál es la variación si el 95% vota por el PRI y el 5% restante no? Veamos: .95 X .05 = .047. Muy poca ¿No es así? Espera un poco más antes de desvelar ese enigmático “1” del numerador. Tu bien sabes que una multiplicación altera las unidades originales, con ella obtenemos un indicador de la variación pero destruimos nuestra escala original, qué tal si, para volver a la escala inicial, sacamos raíz cuadrada, operación que, como sabes, es parecida a la multiplicación pero en reversa; el resultado es un número con más sentido que indica la variación que tienen en conjunto los que sí votan y los que no votan por el PRI. Éste sería: raíz(.25) = .5. Ya sé que vas a decir que no tiene caso dar un paso adelante y luego otro atrás sino agarramos el ritmo. En este caso es así porque recuerda que estamos hablando de la máxima variación pero en otros casos que no representan precisamente la máxima variación este meneíto si funciona, ¡hazlo y verás! Prueba por ejemplo, con .40 X .60 y luego saca la raíz cuadrada y vas a obtener un número diferente (.48) que obedece a la variación conjunta de ambos porcentajes. No desesperes, sólo nos falta un último ingrediente para llegar a ese “1”.

En nuestra fórmula calculamos que el resultado va a estar dentro de dos desviaciones estándar, o sea el 95% (por eso se dice que tenemos un 95% de confianza en que el resultado es el correcto), si no sucede así tendremos que concluir que hay diferencias significativas. Si hasta aquí todo va bien, te voy a pedir que multipliques tu desviación (variación), sí ese .50 que nos quedó al extraer la raíz cuadrada, por dos para estimar con el 95% de probabilidad la cantidad de variación que debería de haber en tus resultados; en otras palabras, la desviación la vas a duplicar porque sabes que el 95% de los resultados siempre están dentro de dos desviaciones estándar. Si ya lo hiciste te darás cuenta que de allí sale el famoso “1” (.5 X 2 = 1).

Recuerdas que en primaria nos enseñaban que en una división la parte de arriba o el numerador es lo que tenemos para repartir y que el denominador son las personas entre las cuales lo podemos hacer. Pues bien, ya te diste cuenta cuál es la variación que hay, eso es lo que tienes que repartir ¿Entre cuántos? Pues entre el número de sujetos que entrevistaste. Entonces si tienes mucha variación y pocos sujetos, el resultado será mayor cantidad de variación por cada sujeto y a la inversa si hay muchos sujetos y poca variación la cantidad en que varían tus datos será muy pequeña. Para efectos prácticos esto quiere decir que a mayor variación las diferencias significativas son poco probables mientras que a menor variación son más probables (más adelante te explico un poco más de esto). Es necesario que te des cuenta que así como la multiplicación significa interacción la división significa condición; dicho de otra forma, la cantidad de variación resultante está condicionada por el número de sujetos. Que ¿qué tiene que ver la raíz cuadrada del denominador? La explicación es la misma que con ese 95% de confianza, la función de probabilidad cambia de forma inversamente proporcional al tamaño de la muestra. ¿Necesitas que tu error de muestreo sea menor al 5%, digamos que sea del 2.5%? Entonces debes cuadruplicar tu muestra, en lugar de entrevistar a 400 sujetos, entrevista a 1,600.

La fórmula de la que estamos hablando no es oficial, es un “fast track” que utilizan los mercadólogos para obtener ese famoso error de muestreo y aunque no es súper precisa, funciona muy bien, la fórmula original es:fórmula del error estándar

En ella “Z” se refiere al número de desviaciones estándar, “P” y “Q” son los porcentajes de los que están a favor y en contra, respectivamente y “n” es el tamaño de la muestra.

La lógica que hay detrás de la prueba de significancia estadística que se usa para saber si los resultados de dos grupos de proporciones son diferentes se fundamenta en que la diferencia que hay entre ambas proporciones debe ser más grande que la cantidad de variación de ambos grupos esperada al azar con un 95% de confianza; si las variaciones, en conjunto de ambos grupos, son menores a la diferencia que hay entre sus porcentajes, seguramente vas a obtener diferencias significativas. ¿Qué tan menores? Por lo menos que éstas sean dos veces menores (recuerda 95% de confianza igual a dos desviaciones estándar). No ponemos aquí la fórmula para no abrumarte más pero si la consultas en algún texto de estadística clásica vas a encontrar un parecido muy grande con lo dicho aquí.

Gracias por leernos y hasta la próxima.

INSTRUMENTOS DE CONFIANZA

Se dice que la ONU hizo una encuesta a nivel mundial sobre alimentación y en ella se obtuvo una cantidad muy pequeña de respuestas en la pregunta clave, la cual era: “Dígame, por favor, con toda honestidad, su opinión sobre la escasez de alimentos en el resto del mundo”. Debido a esta baja tasa de respuesta los investigadores se pusieron a indagar qué es lo que había fallado en el estudio y descubrieron que la gente no había respondido a esa pregunta porque no la entendieron. Los argentinos sencillamente no entendieron qué era “por favor”, lo mismo les pasó a los cubanos con la palabra “opinión”, a los europeos con “escasez”, a los africanos con “alimento”, a los norteamericanos con “resto del mundo” y a los mexicanos…bueno allí todavía se sigue debatiendo en la cámara de diputados que es honestidad.

Creo que ningún tipo de estudio genera más polémica en México que las encuestas sobre las preferencias electorales. Cómo decía el chavo del ocho las hay de limón que parecen de jamaica pero con sabor a tamarindo ¿Están bien hechas? ¿Se hicieron de verdad? ¿Su metodología es correcta? ¿Están copeteadas? etcétera. Pos quién sabe. Creo que eso sólo lo saben algunos de los involucrados, llámense encuestadores, partido y/o empresa que encargó la encuesta, agencia de investigación, entre otros pero de lo que si estoy casi seguro es que el público en general no tiene ni la más remota idea de cómo se hacen. Este post es una explicación breve para ese público que desea conocer un poco más sobre el tema sin que tenga que esperar a que los diputados terminen de debatir sobre él. Así que comencemos.

A parte de los estudios en los cuales te preguntan: “Si el día de hoy fueran las elecciones ¿por cuál de estos candidatos o partidos votaría usted?”, existen otras herramientas demoscópicas, o sea que se emplean para evaluar aspectos de una democracia, entre los más comunes están:

1. Encuesta de salida o exit poll.
2. Conteo rápido o quick count.
3. Monitoreo de medios electrónicos (televisión y radio).
4. Análisis de prensa.

Paso a explicar brevemente el primero. Una encuesta de salida se hace el mismo día de las votaciones, en ella los encuestadores esperan a que el elector emita su voto, una vez que éste se retira se le intercepta y se le pregunta si votó, por quién lo hizo, cómo decidió su voto, entre otros datos sociodemográficos. Cómo comprenderás estos datos tienen que ser capturados a la voz de ya para que los partidos, el IFE o quien haya encargado el estudio pueda tener una idea de cómo se perfilan los resultados de la votación, es decir, antes de que ésta concluya. Este tipo de estudios pueden ayudar a saber cómo se votó por sexo, edad, estatus socioeconómico, la forma en que el votante decide su voto (lo hizo el mismo día, ya lo tenía pensado, etc.), esos datos, por supuesto, no los puedes obtener revisando o contando únicamente los votos que es lo que se hace en un conteo rápido. En general, si el estudio estuvo bien levantado y la muestra es probabilística (al azar pa’que me entiendas) y suficientemente grande el resultado va a coincidir con las cifras del IFE (Instituto Federal Electoral) en su famoso PREP (Programa de Resultados Electorales Preliminares) si no sucede así la encuesta es una porquería, el IFE miente o las fuerzas oscuras de Darth Vader están actuando otra vez.

encuesta de salida

El conteo rápido. Este estudio es más simple que la encuesta de salida, sin embargo, los investigadores tenemos aquí más presión pues los resultados se tienen que obtener en un lapso de tiempo menor. En general, el asunto se desenvuelve así. Los encuestadores esperan a que se terminen las votaciones y que los representantes de casilla cuenten los votos y peguen las mantas donde dan a conocer al público en general los resultados de su votación en su sección electoral, en ese momento el encuestado anota los resultados y los transmite a la agencia de investigación mediante señales de humo, jajaja, mentira, lo hace por teléfono, principalmente (¿se utilizarán dispositivos móviles en esta elección?), la agencia captura en sus sistema esta información y la procesa para estimar el resultado a nivel general. Cabe señalar que al igual que en la encuesta de salida se emplea una muestra de secciones electorales.

prep ife

En ambos tipos de estudios hay un par de aspectos claves que debo subrayar: la muestra y la ponderación de datos. En el primer caso cada agencia tiene su propio algoritmo (método matemático) de muestreo el cual varía en exactitud; sin embargo, dado que las muestras son muy grandes es poco probable que se obtengan resultados diferentes. Te pongo un ejemplo para que me entiendas, en el conteo rápido los datos se capturan a una velocidad vertiginosa lo que ocasiona una cantidad más o menos importante de errores no obstante la muestra es tan grande que estos tienden a anularse dando como resultado un estimador muy preciso. Suena curioso que un estudio tan grande se deba ponderar ¿verdad? pero no lo es tanto si tomas en cuenta que la gente de diversas regiones vota de manera distinta y dado que vas contra reloj algunos datos de esas regiones no se alcanzan a completar en la encuesta de salida o conteo rápido lo cual debes equilibrar utilizando el método de ponderación. Contrario a lo que puedes pensar la ponderación no cambia de manera importante los datos pero si los afina.

Seguramente, has escuchado que tal candidato o partido ya rebasó los topes financieros de campaña que estipula el IFE ¿Qué les da valor a los que dicen eso? Bueno, se fijan en las actividades de promoción, publicidad y propaganda que hacen dichos candidatos o partidos y evalúan más o menos lo que cuesta pagar por esas actividades. El IFE hace una cosa similar aunque se concentra básicamente en la televisión y la radio, es a lo que llama monitoreo de medios electrónicos. La idea es grabar noticiarios de televisión y radio y de allí codificar las veces que aparece cada uno de los candidatos o partidos, el tratamiento que se les da, es decir, si aparecen en imágenes cerradas, abiertas, de archivo, en vivo, el tiempo total en que aparecen, entre otros asuntos. La idea es que debe haber un trato equitativo por parte de los medios electrónicos a los candidatos y partidos. Por supuesto que no se pueden grabar todos los noticiarios del país por lo cual se emplea también una muestra de ellos. La obligación del IFE es mostrar los resultados de este monitoreo a la sociedad así como la metodología empleada. Quizá hablo sin fundamento pero tengo entendido que en las últimas elecciones no le han salido muy bien las cosas al IFE en este renglón.

¿Qué se hace en el análisis de prensa? La intención es inferir la opinión pública a través de las notas periodísticas para esto se recopilan diariamente las notas sobre los candidatos o partidos o cualquier otro asunto que nos interese que aparecen en los principales diarios; dentro de cada nota se codifican los mensajes, se les asigna una calificación y se agrupan por temas; hay otras variables que también se revisan pero desde mi punto de vista son menos importantes: el periodista, periódico que publicó la nota, tamaño de la nota en cm2, entre otros. Una vez hecho lo anterior se procesa la información y se pondera por la lectoría (porcentaje de personas que leen cada medio donde apareció la nota), nuestro resultado final mostrará qué temas son de los que se habla más, cuáles son los mensajes dentro de esos temas, cuánto tiempo están vigentes en la prensa y si son negativos o positivos.

Ahora si, vámonos con los estudios donde te preguntan por quién vas a votar, éstos pueden tener 2 propósitos:

a. Conocer quién va arriba en la preferencia electoral. Por mucho este es el tipo de encuestas que más se hacen en una campaña electoral y son con las que te bombardean los medios un día si y al otro también. En la farándula de la investigación de mercados se les nombre carrera de caballos.

b. Sentar las bases de una estrategia para la campaña electoral de un candidato y/o partido. Este estudio normalmente se hace antes de iniciar la campaña pues te ayuda a determinar la cantidad de votos que necesitas, de donde obtenerlos, bajo que ofrecimientos, quienes son tus votantes seguros, probables, entre muchos otros aspectos.

¿La diferencia entre uno y el otro? Déjame ponerlo en estos términos; si te fajas a un(a) chavo(a) sin decirle si quiere ser tu novio(a) entonces es como si estuvieras haciendo un estudio del tipo “a”, como quién dice “a lo que te truje Chencha” (traducción: vamos a hacer aquello para lo que te traje Vicenta) por el contrario si le pides que sea tu novio(a), también te lo(a) vas a agasajar pero tienes otros planes en mente. Seguramente, le vas invertir más tiempo y recursos a tu estudio, lo que se traduce en una muestra y cuestionario más grandes. No obstante estas diferencias, en ambos tipos de estudios las preguntas típicas a los posibles votantes son:

1. Qué tanto conocen a cada uno de los candidatos.
2. Qué imagen tienen de los candidatos o partidos.
3. Qué problemas hay en su comunidad, estado y/o país.
4. Cómo evalúan las propuestas de campaña, slogans, frases, etc.
5. Por cuál partido o candidato piensan votar.
6. Cuál es su edad, sexo, nivel socio-económico, estado civil, etcétera.

Para cada una de esas preguntas ya hay estándares muy bien establecidos sobre como plantearlas por lo que la mayoría de las empresas se parecen en este punto; sin embargo, donde si hay diferencias, y donde los cocólazos se ponen de a peso, es en la forma de procesar los resultados de esas encuestas. En particular me voy a referir a 2 cuestiones. La primera es sobre los que dicen las agencias de investigación de opinión pública son los que van a votar pero que al final no votan (probables votantes) y la segunda se refiere a los que dicen que no van votar y al final si votan (los indecisos), la forma en que se tratan y clasifiquen unos y otros hace la diferencia en el resultado.

Primer caso. Es obvio que para votar debes tener credencial de elector actualizado de la sección electoral donde dices que vas a votar y donde te están haciendo la encuesta. La primer pregunta que surge aquí es ¿cómo le hacen las empresas que realizan sondeos de opinión por teléfono para verificar esto? Hay va otra un poco menos obvia, ¿Cuál es la probabilidad de que vayas a votar en estas elecciones si en otras ocasiones no has votado? ¿No sabes? yo te lo digo, la probabilidad es baja. Por esa razón algunas empresas le hacen la pregunta al individuo acerca de si fue a votar durante las elecciones pasadas. Si pasas estos 2 filtros entonces es posible que si vayas a votar ¿La última vez que te hicieron una encuesta política recuerdas si te preguntaron si habías votado anteriormente? Si no fue así, entonces ya tienes un argumento para desacreditar esa encuesta.

Segundo caso ¿Qué hacen las agencias de investigación con los sujetos que dijeron no saber por quién iban a votar o no dieron respuesta? Algunos empresas los eliminan democráticamente como en las últimas encuestas donde dicen que 52% votará por Enrique Peña Nieto, el 23% por Josefina Vázquez Mota y el 21% Por Andrés Manuel López Obrador ¿Es verdad que no van a votar? Por supuesto que no. Si ya te dijeron que tienen credencial y han votado anteriormente entonces si lo van a hacer en esta ocasión pero el asunto es saber por quién. Esta parte es la que genera mayor escozor pues cada quien tiene su forma de matar las pulgas y es difícil saber qué algoritmo de clasificación de indecisos funciona mejor. Aquí te dejo un artículo sencillo para que te des una idea más precisa de lo que estoy hablando.

José Woldenberg, decía en el libro, “La Construcción de la Democracia” que “Las encuestas electorales bien hechas, las que se despliegan con profesionalismo y sentido ético, no son sólo ni principalmente un reto técnico, un logro de la estadística o de la ciencia de la demoscopía; las encuestas de calidad son todavía más importantes porque su concurrencia en el escenario político es parte de una empresa mayor: del enorme reto de construir confianza.” ¿Qué tan lejos estamos de crear instrumentos de confianza? La tecnología desde hace mucho tiempo ya no es problema tampoco creo que lo sean los profesionales capacitados para hacer buenos estudios ¿Entonces qué está fallando? La sociedad. No aquélla que vemos como independiente o ajena a nosotros sino donde estás tú, yo, él, nosotros, todos y no se trata de ir a votar, desde mi punto de vista eso es irrelevante, se trata de informarnos, de declararle la guerra a nuestra ignorancia, de ser mejores seres humanos y de que dejemos de hacernos los occisos fingiendo que no sabemos de qué se nos habla cuando nos mencionan “honestidad”.

Hasta la próxima y nuevamente muchas gracias por aguantarnos y leernos.

PONDERACIÓN DE DATOS ¡CUESTIÓN DE PESO NO DE PESOS!

¿Cuánto gana en promedio un trabajador de la ciudad de México? ¿Qué te parece si hacemos una mini-encuesta para averiguar? Imagina que seleccionas 10 personas al azar y les preguntas cuánto ganan mensualmente. En la tabla de abajo puedes apreciar las respuestas de cada uno de tus entrevistados así como el promedio en general del ingreso mensual. No está nada mal $19,400 pesos por cholla. Con ese dinero, como diría Chava Flores, cualquiera paga la renta, el teléfono, la luz y todavía alcanza hasta para echarse un alipuz. ¡Espérate, no te esponjes! Sabemos que eso no es lo que gana un “chilango”, es sólo un supóngando que nos sirve para ilustrar la ponderación de casos.

tabla ponderacion

No sé porqué dicen ponderación de datos o de resultados si en realidad lo que se pondera son los casos y una vez hecho esto se procesa y analiza la información pero dada la costumbre hemos titulado este post ponderación de datos. ¿Para qué sirve y qué cómo se hace? Bueno lo primera respuesta es: sirve para que no andes por allí, como si fueras secretario de economía, diciendo que un mexicano gana mucho; en otras palabras para que tus estimaciones o resultados de tus encuestas sean más precisos. La segunda respuesta nos fue proporcionada por nuestro amigo y colaborador Jesús Romero, sobre todo como hacerle para ponderar en Excel utilizando tablas dinámicas, así que sigue leyendo.

Regresando a nuestra encuesta de 10 casos, imagina que hay 10 millones de personas que trabajan en la ciudad de México de esas, 7 millones son de nivel socioeconómico (nse) bajo, 2 millones de nivel medio y 1 millón de nivel alto; en otras palabras, hay más gente de nse bajo que medio y alto pero en nuestra encuesta entrevistamos a casi la misma cantidad de cada nse (véase la tabla de abajo) razón por la cual los datos que obtuvimos de $ 19,400.00 pesos en promedio están sesgados. Para corregir este “sesgo” tenemos que ponderar o sea equilibrar las cosas ¿Cómo? Si entrevistaste a 3 personas de nse bajo o sea el 30% tienes que darle el peso real; en otras palabras, hacer que esos tres casos o 30% se conviertan en siete casos o 70% ¿Por qué? Porque recuerda que hay 10 millones que trabajan en la ciudad de México de los cuáles siete millones son de nse bajo o lo que es lo mismo siete de cada diez casos; tienes que hacer exactamente los mismo para los otros dos nse y ajustarlos de acuerdo al peso que tienen en la población (10 millones de trabajadores).

Como se trata de equilibrar tenemos que repartir o dividir con base a lo que le toca a cada quien. Así el asunto se convierte en un cuánto te toca y cuánto tienes para saber cuánto te falta o te sobra. Ejemplo, en el caso del nse bajo le tocan 7 y tiene 3, entonces es 7/3 = 2.33; en el nse medio le tocan 2 y tiene 3, lo que se formula así: 2/3 = .66; y al nse alto le toca 1 y tiene 4 lo que se escribe como 1/4 = .25. Para hacer lo anterior puedes dividir por frecuencias; es decir, casos entre casos o hacerlo con porcentajes, te dará lo mismo pero no dividas casos entre porcentajes. Por ejemplo, 7 / 30% = 23.33 (hazme caso y no lo hagas así o te vas a equivocar). Asimismo, me tocó ver empresas de investigación de mercados que dividían el número de casos de la población real entre el de su encuesta (no se si todavía lo hagan o ya aprendieron) de esta forma 7,000,000/3 = 2,333,333.33; se me hacía absurdo porque cuando reportaban sus resultados no había manera de saber cuantas entrevistas hicieron en realidad; confundía sobre la verdadera importancia de los resultados ya que a lo mejor eran sólo 2 casos y decían que eran chorrocientos millones; la verdad estaba bastante loco eso ¿o está todavía? Hay dos moralejas en esta historia: primero, si hiciste 10 entrevistas tus resultados totales deben reflejar 10 entrevistas ni más ni menos y segundo siempre debes reportar la base ponderada y la base no ponderada, los casos para que me entiendas.

Mira la tabla de abajo y observa como cuando aplicamos el factor de ponderación, o sea multiplicamos el ingreso en cada caso por el factor de ponderación (número de casos reales) cambia el promedio bajo la columna que dice ingreso ponderado. Ahora tenemos que en promedio un trabajador de la ciudad de México gana $10,070.00 pesos. ¿Verdad que es cuestión de peso y no de pesos?

TABLA PONDERADA DE INGRESO

Ahora si, ya podemos empezar con las preguntas:

1. No, no es lo que ganan en realidad, este es sólo un ejemplo ficticio y cualquier semejanza con la vida real es pura coincidencia.

2. La suma total de la columna “FACTOR DE PONDERACIÓN” te da 10 porque siempre debes obtener como resultado de tu base ponderada el mismo número de casos o entrevistas que hiciste. En realidad nos dio 9.97 pero eso es por los decimales.

3. ¿Qué tanto afectan los decimales en la ponderación? Depende del programa, por ejemplo, SPSS ajusta el caso a 0 (cero) cuando es menor a 0.5 y a 1 (uno) cuando es igual o mayor que 0.5; Excel aplica el mismo criterio pero cuando utilizas la función truncar o entero, no importa si eres 0.5, 0.9 o 0.25 lo convierte en 0 (cero). En términos generales, te puedo decir que con dos decimales que incluyas en tu factor de ponderación no debes tener ningún problema.

4. ¿Qué cómo sé quién es de nse bajo, medio y alto? Bueno lo pregunté en la encuesta. Eso te lleva a que siempre debes preguntar los sociodemográficos en tus encuestas ya que las respuestas dependen del tipo de persona que entrevistas, de su sexo, edad, nse, edo civil, ciudad donde reside, etc. y si te das cuenta que entrevistaste más mujeres que hombres y sospechas de un sesgo en los resultados desearas ponderar por sexo ¿Y qué tal que no apuntaste el sexo de tus entrevistados? !Sopas carnal(a)¡ Ya valiste.

5. ¿Qué cómo sabemos el nse de la población? Por supuesto, debe haber datos disponibles sobre la población. Dependiendo de que datos desees encontrar puedes buscar en INEGI, FONHAPO, SECRETARÍA DE ECONOMÍA, AMAI (ASOSIACIÓN MEXICANA DE AGENCIAS DE INVESTIGACIÓN), IFE, etc.

6. ¿Siempre se debe ponderar? No, depende de si sospechas que hay un sesgo, de si deseas equilibrar la muestra, hacer proyecciones por regiones, a nivel nacional, etc.

7. ¿Qué es una muestra autoponderada? Un jefe que tuve me decía que un estudio hecho en varias ciudades debe estar ponderado. Tal vez, pero muchas empresas determinan el tamaño de sus muestras según el tamaño de la ciudad, las características sociodemográficas más importantes de la población de estudio. Así, si saben que van a hacer 100 entrevistas en Guadalajara, Monterrey y Ciudad de Mexico, hacen 50 en México, 30 en Guadalajara y 20 en Monterrey que corresponde al tamaño de cada una de estas ciudades (aprox.); además si saben que hay 6 mujeres por cada diez habitantes procuran entrevistar 60% de mujeres y 40% de hombres de su muestra. A eso se le llama una muestra autoponderada.

8 ¿Se puede ponderar o corregir por otras variables? Por ejemplo, si quiero equilibrar el número de hombres y mujeres dependiendo de su nse ¿puedo hacerlo? Seguro, de hecho a eso se le llama multiponderación y es la forma más fina de corregir un sesgo pero ese ejemplo, cómo ponderar en Excel y lo que se me haya quedado en el teclado lo dejamos para el próximo post ¿Quieres?

Saludos.