Más Información
SEP debe informar sobre objetos peligrosos en revisiones escolares: Inai; violencia escolar ha ido en aumento
Videojuegos, el nuevo gancho del crimen para captar menores; los atraen con promesas de dinero y poder
“Vamos a dar apoyo a los pequeños agricultores por sequía en Sonora”; Claudia Sheinbaum instruye a Berdegué
Todos los días se publica alguna nueva encuesta acerca de los múltiples cargos públicos que estarán en disputa el próximo 2 de junio, especialmente el de la Presidencia de la República. Los márgenes de diferencia son notables: mientras algunas encuestas arrojan un empate entre dos candidatos, cualesquiera, otras les asignan diferencias de intención de voto de dos dígitos. Por eso es importante entender que todas las encuestas de opinión tienen un margen de error y cómo se calcula.
Si tuviéramos una urna con un millón de bolitas de colores, rojas y azules, y quisiéramos saber qué porcentaje de ellas tiene el color rojo o el azul, podríamos hacer un muestreo para evitar tener que contarlas a todas. Supongamos que hay 60% de bolas rojas y 40% de bolas azules en la urna. Una muestra de diez bolitas extraídas de la urna podría contener ocho rojas y dos azules, por ejemplo, lo que corresponde a 80% y 20% de la muestra. Si queremos ser más exactos podemos extraer una muestra de 100 bolitas y supongamos que obtenemos 65% de bolitas rojas y 35% de bolitas azules. Aún tenemos un error en la estimación de los porcentajes reales que, sin embargo, es menor.
En la teoría estadística se demuestra que para un experimento como el mencionado, donde las dos clases de objetos tienen porcentajes de prevalencia cercanos al 50%, en el 95% de los experimentos el margen de error de una muestra aleatoria de tamaño 1000 es cercano al 3.2%, positivo o negativo. Es decir, si la muestra nos dice que hay 57% de bolas rojas, el resultado real varía entre 53.8% y 60.2%, en el 95% de los experimentos de muestreo. El ancho del intervalo de confianza es el doble de 3.2%, o sea 6.4%.
También puedes leer: Rafael Lozano-Hemmer: "Ser impredecibles nos separa de las máquinas"
Las casas encuestadoras reportan este margen de error como “el intervalo de confianza de 95%”. Cada encuesta es como un solo experimento. Lo que nos dice el intervalo de confianza es que, si la encuesta se repitiera muchas veces, en el 95% de los casos el porcentaje real sería un valor dentro de ese intervalo de confianza. Con un ancho del intervalo de confianza del 6.4%, por ejemplo, dos candidatos separados en la encuesta por menos del 5% de los votos se encuentran en realidad en “empate técnico”. El día de la elección puede ganar cualquiera de los dos, sin que eso debiera sorprendernos. Es esto un producto del error computacional introducido al considerar solamente la opinión de un subconjunto de la población.
Desgraciadamente, las encuestas de opinión de personas de carne y hueso están más sesgadas de lo que la teoría estadística de una urna nos puede predecir. En el caso de los Estados Unidos, por ejemplo, sabemos que en 2016 el 48% de los votos fueron para Hillary Clinton y 45% para Trump (quien ganó dado que los votos se cuentan por estados). Pero por Trump votaron el 62% de los hombres blancos y solo el 32% de ellos por Clinton. El 47% de los electores con un título universitario votaron por Clinton y solo el 36% por Trump. Es decir, el electorado norteamericano es un verdadero caldero de razas, rangos de edades, nivel de educación, religión, nivel económico y ubicación geográfica. Cuando se levanta una encuesta bien puede ocurrir que haya más personas blancas en la muestra que de la población en general, o bien que la encuesta reúna un exceso de personas de bajo nivel económico. Para que una encuesta corresponda al modelo de la urna (con su cálculo de intervalo de confianza) tiene que ser un fiel reflejo de la estructura social de un país. Y eso casi nunca sucede.
En México, las encuestadoras reportan un intervalo de confianza de más/menos 3.2%, el número clásico, porque tratan de encuestar alrededor de 1000 personas. Si se quiere reducir el margen de error a la mitad hay que encuestar cuatro veces más personas, es decir, 4000, lo que rara vez se hace porque cuesta más dinero.
También puedes leer: ¿Por qué “todos” los motociclistas se pasan los altos?
Lo primero que deberían hacer las encuestadoras es tratar de muestrear por todo el territorio, tratando de reproducir la estructura social del país en sus muestras. Las encuestas por celular están sesgadas hacia las personas que lo tienen y además aceptan llamadas de extraños. Encuestas en una caseta en la carretera estarían sesgadas hacia personas con auto. Encuestas en una escuela estarían sesgadas hacia personas con niños. Encuestas por Internet están sesgadas hacia los jóvenes que pasan más tiempo frente a la computadora. No es fácil levantar encuestas que sean representativas de la población.
Para minimizar costos, una vez hecha la encuesta de 1000 personas, las encuestadoras tratan de ajustar sus muestras utilizando los llamados “factores de ajuste”. Si, por ejemplo, en la encuesta de mil personas hubiera 300 hombres y 700 mujeres, se puede seleccionar aleatoriamente 500 hombres de entre los 300 encuestados (con los nombres en una urna y al sacar uno se le regresa a la urna) y 500 mujeres de entre las 700 encuestadas, para así generar una nueva muestra con mil personas, pero balanceada por género. Lo mismo se puede hacer ponderando las opiniones de los hombres por el factor 5/3 y las de las mujeres por 5/7. O sea la opinión de 300 hombres equivale a la opinión de 500 personas, después de la ponderación, y la de 700 mujeres a la opinión de 500 personas, también después de la ponderación. Estos son los famosos factores de ajuste.
Desgraciadamente hay que ajustar a las muestras de acuerdo a los porcentajes de género en un país, pero también por rango de edad, de nivel económico y de estudios. Eso conduce a tener una maraña de factores de ajuste que se aplican iterativamente, uno tras otro, hasta que la casa encuestadora queda satisfecha con la demografía de la muestra que han levantado. Es decir, en lugar de salir a recabar más datos para balancear la muestra, se hace todo en la computadora.
El resultado de este ejercicio es claro: los márgenes de error tienen que aumentar. Cuando le atribuimos la opinión de 300 personas a 500 (como en el ejemplo anterior) estamos sustituyendo una población más grande por una menor. El cálculo del intervalo de confianza ya no es correcto y el error sube.
Todo esto lo sabemos por los análisis post mortem de encuestas en los Estados Unidos. Los investigadores Andrew Gelman y Houshmand Shirani-Mehr compararon 4 mil 221 encuestas que se hicieron en EU durante las tres semanas previas a elecciones y encontraron que el intervalo de error real había sido el doble de lo que la teoría estadística nos predice para una urna con bolas de colores. Es decir, en vez de más/menos 3.2% de error, el error real de encuestas individuales fue de entre más/menos 6% o bien más/menos 7%. Eso corresponde a un ancho del intervalo de confianza de 13% a 14%.
Una de las más importantes fuentes de error y que es muy difícil de evitar al momento de hacer los cálculos, es el sesgo de las personas que no responden a la encuesta. Se ha demostrado que, por ejemplo, cuando en las noticias un candidato parece ir liderando de manera segura, los partidarios del otro candidato se abstienen de responder a las encuestas. Esto refuerza la ilusión de que el otro candidato sí lleva la delantera, lo que podría no ser cierto (como en el caso de la última elección en Argentina, donde el candidato oficialista lideraba las encuestas, pero perdió la elección).
Sin embargo, el problema principal son las casas encuestadoras. El distinguido matemático Nate Cohn realizó un experimento muy interesante para el New York Times. Levantó datos a través de una encuesta y se los entregó a cinco casas encuestadoras en EU. A pesar de que las cinco tenían exactamente los mismos datos, cuatro encuestadoras dieron por ganadora a Clinton (por 3%, 1%, 4% y 1%) y solamente una encuestadora le asignó el triunfo a Trump (por 1%). Es decir, con los mismos datos se llegó a estimaciones que variaron hasta por un máximo de 5%. Cohn analizó lo que hicieron las encuestadoras y la mayor diferencia entre ellas fueron los factores de ajuste por raza que habían empleado. El siguiente factor que afectó a los resultados fue el porcentaje estimado de personas que sí votan. Si entrevistamos mil personas que nunca han votado, el resultado será muy diferente a si le preguntamos a mil personas que votan regularmente.
Por eso cada vez que evaluamos datos de encuestas de opinión hay que tener en cuenta que la casa encuestadora los puede haber ajustado de acuerdo a variables demográficas. ¿Y cómo? ¡Ah! Eso es generalmente el “secreto industrial” de las encuestadoras. Es la “salsa mágica” que le agregan a los datos y que no reportan porque alguien les podría copiar el modelo de negocios. La secretaria general de Morena, Citlalli Hernández, de pocas luces estadísticas, explicó de esa manera la expulsión en 2023 de los representantes de Marcelo Ebrard del recinto donde las casas encuestadoras procesaron los resultados de la encuesta interna de Morena: “no era quien ganara más número de boletas marcadas … no. Lo que nos explicaban las encuestadoras es que todavía falta la ponderación… Es decir, si la boleta la llenó un joven de la sierra de Guerrero valdría distinto a una mujer empresaria de las Lomas”. Así es como Citlalli se imagina los factores de ajuste.
Pero, hay que decirlo, la verdad es que en México hay otro factor muy importante que afecta los resultados de las encuestas electorales que es, simple y llanamente, la corrupción. Un exsenador que conozco reportaba que “producir” una encuesta favorable cuesta en México alrededor de un millón de pesos. Con resultados a la carta. Un ejemplo notable de este tipo de resultados inverosímiles fue la encuesta realizada en 2020 para decidir si Porfirio Muñoz Ledo o Mario Delgado debería ser el presidente de Morena. Las encuestadoras Covarrubias y Demotecnia reportaron, en encuestas separadas, 41.7% de preferencia por Muñoz Ledo y 58.3% por Mario Delgado, ambas con 57% de personas indecisas. Dos encuestas que coinciden en tres números con diferencia cero son imposibles. Parametría fue más discreta, pero igualmente inverosímil, con una diferencia de alrededor de 1% de los otros dos. Todo esto lo expliqué en mi artículo publicado en EL UNIVERSAL “Demóscopos sin vergüenza”, donde calculé que una coincidencia así equivaldría a lanzar una moneda al aire y obtener el “águila” catorce veces consecutivas. Reté a las encuestadoras a discutir conmigo sus resultados de manera pública y nunca respondieron.
Así que el lector queda enterado: encuestas serias tienen generalmente el doble de margen de error al reportado. Las encuestas a la carta reportan diferencias de intención de voto que llevan una intención política. Se podría agregar encuestas para obtener un promedio de promedios, pero con la gran variabilidad de las encuestas en México el ejercicio no parece fácil. Por lo menos habría que sacar a Covarrubias, Parametría y Demotecnia del agregado, y quien sabe a cuantas encuestadoras más.
Por eso la única encuesta que vale es acudir a las urnas el 2 de junio. Y es que no es un mero trámite.