Claudia Sheinbaum y Xóchitl Gálvez
Sheinbaum tiene un 89% de probabilidades de
El promedio de encuestas que elabora El País de España coloca a Claudia Sheinbaum como la principal candidata a ganar la presidencia de México, con cerca de 60% del voto estimado, bien por delante de Xóchitl Gálvez (36%) y Jorge Álvarez Máynez (5%). A tres meses de la votación, la candidata de Morena es la firme favorita.
Pero, ¿qué probabilidad tiene de ganar?
Para responder eso hemos construido un modelo de predicción, similar al que EL PAÍS ha usado en las elecciones de 2018 y otra veintena de comicios de distintos países. Como se explica en la metodología, el modelo funciona en tres pasos: (1) partimos del promedio de encuestas anterior, (2) incorporamos cierto grado de incertidumbre alrededor, según el acierto histórico de los sondeos en México, y (3) simulamos las elecciones 20.000 veces para calcular las probabilidades de cada resultado.
Nuestra predicción dice que Claudia Sheinbaum tiene un 89% de opciones de victoria, pero su rival Xóchitl Gálvez conserva 1 opción entre 10 para dar la sorpresa.
Es importante interpretar bien estas probabilidades. Sheinbaum es una favorita clara, y su victoria es diez veces más probable que la de Gálvez, pero los sucesos de probabilidad 11% no son imposibles. Sirve de referencia una estadística futbolística: la derrota de Sheinbaum es más probable que ver fallarse los dos primeros penaltis de una una tanda de lanzamientos.
Este diario ya publicó pronósticos de este tipo en las elecciones presidenciales hace seis años. Nuestra primera predicción dijo en marzo de 2018 que López Obrador tenía un 79% de opciones de ganar; la última, días antes de las elecciones, elevó sus opciones hasta el 97%, anticipando lo que luego ocurrió.
Gálvez recupera terreno
Desde otoño, las encuestas se han movido para reducir la distancia entre Sheinbaum y Gálvez, desde los 32 puntos de diciembre a los 24 actuales. Por un lado, es evidente un salto adelante de Gálvez, coincidiendo con el desgaste de Movimiento Ciudadano —al anunciarse que su nominado sería Jorge Álvarez Máynez y no Samuel García, que parecía el favorito en noviembre—. Al mismo tiempo, desde enero se aprecia un ligero retroceso de Sheinbaum, que baja en el promedio del 62% al 60% de intención de voto.
Una clave de las próximas semanas es seguir la evolución de estas tendencias, aunque el colchón de Sheinbaum es considerable.
El error de los sondeos
Los modelos como el nuestro convierten las encuestas en predicciones, gracias a que incorporación una información adicional: la precisión histórica de los sondeos. ¿De qué magnitud son sus errores? ¿Cómo de probable es que fallen por 5 o 15 puntos? Para averiguar eso, hemos analizado decenas de encuestas en México y miles de otros países.
Las encuestas estuvieron bien en las presidenciales de México de 2006 y 2012, pero se desviaron más en 2000 y 2018. Aunque hace seis años predijeron la victoria de López Obrador, lo cierto es que le daban seis puntos menos de los que obtuvo —y un error de seis puntos, en otras circunstancias, puede cambiar el resultado—. En estas cuatro citas, los sondeos cometieron un error medio por candidato de 3,8 puntos en votos —considerando solo aquellos que superan el 10%—. Es decir, fueron habituales desviaciones de 4 o 5 puntos y el margen de error rondó los 9 puntos. Las encuestas fueron mejores en las elecciones legislativas de 2009, 2015 y 2021: allí el error medio fue 2,1 puntos, que es una precisión alta, similar a la de los sondeos en EE UU o España. Sin embargo, aplicando un principio de cautela, hemos usado ese primer dato —3,8 puntos de error— como base para nuestro modelo de predicción.
Además, nuestra metodología también ensancha la incertidumbre en función del tiempo que falta para la votación. A tres meses de la votación de junio, el margen de error (al 90%) ronda los 16 puntos para un candidato alrededor del 50% de voto, de ahí que Sheinbaum se mueva alrededor del 90% de opciones.
Metodología
Las predicciones las produce un modelo estadístico basado en sondeos y en su precisión histórica. Uno similar a los que usamos en España en 2023 y dos veces en 2019, en Andalucía, Cataluña o Madrid. . También en México hace seis años, en Francia o el Reino Unido. El modelo funciona en tres pasos: 1) agregar y promediar las encuestas, 2) incorporar la incertidumbre esperada, y 3) simular 20.000 elecciones calcular probabilidades.
Paso 1. Promediar las encuestas. Nuestro promedio tienen en cuenta docenas de sondeos para mejorar su precisión. Los datos han sido recopilados en su mayoría por la web Oraculus.mx. El promedio está ponderado para dar distinto peso a cada encuesta según dos factores: la casa encuestadora (las empresas sin trayectoria tienen menos peso; las que no publican sus datos en el INE son excluidas) y la fecha. Queremos dar más peso a las encuestas recientes al calcular el promedio, y que el último día solo importan las últimas publicadas por cada encuestador. Para eso asignamos pesos a los sondeos según una ley decreciente exponencial. Y definimos una franja de exclusión que ignora las encuestas con más de 30 días de antigüedad. Además, penalizamos las encuestas repetidas de un mismo encuestador. Al calcular el promedio en una fecha, la encuesta más cercana de cada casa tiene peso uno, pero el resto de sus estudios casi se ignoran.
Los promedios como el nuestro pueden verse como una estimación de consenso. En lugar de confiar en un único encuestador, agregan el criterio y las hipótesis de muchos. Los promedios reducen el ruido, evitando que las tendencias salten arriba y abajo por azar. Y sobre todo: se ha demostrado que mejoran la precisión.
Paso 2. Incorporar la incertidumbre de las encuestas. Este es el paso más complicado y más importante. Necesitamos estimar la precisión esperada de los sondeos en México. ¿De qué magnitud son los errores habituales? ¿Cómo de probable es que se produzcan errores de 3, 5 o 15 puntos? Para responder esas preguntas se estudian decenas de encuestas en México y miles internacionales.
Calibrar los errores esperados. Primero he estimado el error de las encuestas en México. He construido una base de datos con encuestas de siete elecciones desde 2000. El error absoluto medio (MAE) de los promedios de encuestas en México, por candidato o partido, considerando aquellos con más del 10% de votos, ha rondado los 3,8 puntos en las presidenciales y los 2,2 puntos en las legislativas. Es decir, fueron habituales desviaciones de cuatro o cinco puntos y el margen de error (95%) rondó los nueve puntos. Como siete elecciones son pocas para extraer conclusiones fuertes, también revisamos una veintena de votaciones en otros países de Latinoamérica, donde el error MAE se elevó al 4,1 puntos. Al final, siguiendo un principio de cautela, he decidido que nuestro modelo asuma un MAE de 3,8 puntos en México.
Además, esa incertidumbre se modula teniendo en cuenta dos factores adicionales: el tamaño del candidato/partido (porque es más fácil estimar el voto de un partido si ronda el 5% que si se acerca al 50%) y la cercanía de las elecciones (porque las encuestas del final son casi siempre más precisas). Para ajustar esta parte del modelo he recurrido a la base de datos de Jennings y Wlezien, publicada en Nature, y analizado los errores de 4.100 encuestas en 241 elecciones de 19 países occidentales.
Elección del tipo de distribución. Para incorporar la incertidumbre al voto de cada candidato/partido en cada simulación utilizo una distribución multivariable. Uso distribuciones t-student en lugar de normales para que tengan colas más largas (curtosis): eso hace más probable que sucedan eventos muy extremos. Las ventajas de esa hipótesis la explicó Nate Silver. El nivel de curtosis lo he estimado con la base de datos anterior. Luego defino la matriz de covarianzas de estas distribuciones para que la suma de los votos no sobrepase el 100% (una idea de Chris Hanretty). Por último, hay que escalar la amplitud de las matrices de covarianza para que las distribuciones de voto que resultan al final tengan el MAE y la desviación estándar esperados según la calibración.
Paso 3. Simular. El último paso consiste en ejecutar el modelo 20.000 veces. Cada iteración es una simulación de las elecciones con porcentajes de voto que varían según la distribución definida en el paso anterior. Los resultados en esas simulaciones permiten calcular las probabilidades que tiene cada candidato de ser el más votado y alcanzar la presidencia.
El País de España