?Qui¨¦n va a ganar las elecciones? Esto dicen las encuestas
Publicamos la predicci¨®n de esca?os y mayor¨ªas de nuestro modelo estad¨ªstico, a partir de sondeos y 15.000 simulaciones. El resultado m¨¢s probable es que PP y Vox tengan mayor¨ªa (55% de las veces), pero no ser¨ªa sorprendente una aritm¨¦tica ajustada y un gobierno de izquierdas
Las encuestas se apagaron este lunes con pron¨®sticos dispares. Algunas ven una clara mayor¨ªa de la derecha, otras la dan justa y alguna ven m¨¢s probable un gobierno de izquierdas. Teniendo en cuenta todos estos datos y el error natural de los sondeos: ?qu¨¦ probabilidades hay de que ocurra cada cosa? Es la pregunta que responde nuestro cl¨¢sico modelo electoral probabil¨ªstico, que EL PA?S publica desde 2016.
El gr¨¢fico siguiente representa nuestra estimaci¨®n de esca?os a partir del promedio de sondeos. El PP rondar¨ªa los 142 diputados, seguido de PSOE (108), Vox (35) y Sumar (34). El resto de fuerzas tendr¨ªa alrededor de 31 esca?os en total.
Para hacer esta estimaci¨®n usamos un modelo estad¨ªstico y simulamos las elecciones 15.000 veces, tal y como explica la metodolog¨ªa al final del texto. El modelo se alimenta de sondeos e incorpora una pieza clave de informaci¨®n: su acierto hist¨®rico. En Espa?a los sondeos se desv¨ªan del resultado unos dos puntos por partido, de media, y no es raro que cometan errores de tres o m¨¢s puntos con alguno. En otras palabras: nuestras horquillas son amplias pero no caprichosas, porque representan la precisi¨®n de los sondeos en el pasado.
Es f¨¢cil ver la incertidumbre que todav¨ªa rodea estas elecciones. Por ejemplo, seg¨²n nuestros c¨¢lculos, el resultado m¨¢s probable del PP ser¨ªa rondar los 142 esca?os, pero su intervalo de 90% de probabilidad va desde 119 a 164 asientos. Y todav¨ªa hay una opci¨®n entre 20 de que el PP acabase por encima (o por debajo) de esa enorme franja.
La clave: qui¨¦n alcanzar¨¢ la mayor¨ªa
La principal ventaja de tener un modelo de predicci¨®n es que permite atribuir probabilidades a diferentes resultados, algo que los sondeos no pueden hacer por s¨ª solos. Eso permite enfrentar la pregunta fundamental de unas elecciones generales: ?Qu¨¦ partidos tienen opciones de sumar los 176 diputados necesarios? El gr¨¢fico muestra el resumen:
- El 55% de las veces PP y Vox sumar¨¢n una mayor¨ªa. En las 15.000 simulaciones, esa es la frecuencia con que los dos partidos alcanzan los 176 esca?os que necesitan. La mayor¨ªa en solitario del PP solo ocurre en 1 de cada 100 ocasiones (1%). En otro 5% de las simulaciones podr¨ªa haber un gobierno del PP, si adem¨¢s del apoyo de Vox en una investidura, consigue tambi¨¦n el de Coalici¨®n Canaria, Uni¨®n del Pueblo Navarro y Teruel Existe.
- En otro 15% de las simulaciones (1 de 7) habr¨ªa seguramente una mayor¨ªa de izquierdas, solo con que el PSOE lograse el apoyo de los mismos partidos que votaron a favor o se abstuvieron en la investidura de Pedro S¨¢nchez tras los comicios de 2019: BNG, PNV, ERC y Bildu, adem¨¢s de Sumar. Y a eso habr¨ªa que a?adir un 1% de opciones de que PSOE y Sumar alcancen solos la mayor¨ªa.
- En el 23% de las simulaciones restantes, ninguna de las anteriores sumas es posible. Son casi siempre escenarios donde el PSOE necesitar¨ªa contar tambi¨¦n con el apoyo de Junts, la CUP o ambos para pasar de 176 asientos (20% de las veces). Pero tambi¨¦n se incluyen aqu¨ª los empates a 175 esca?os entre ese grupo (PSOE, Sumar, BNG, PNV, ERC, Bildu, Junts y la CUP) y el formado por PP, Vox, UPN, CC y Teruel Existe (3%).
?Qu¨¦ significan estos datos? Las cifras anteriores son probabilidades: las que tiene cada mayor¨ªa de producirse. Dicen que una mayor¨ªa del PP y Vox es el resultado m¨¢s probable, aunque apenas ocurre la mitad de las veces. En cierto modo, estos pron¨®sticos son una advertencia ante posibles sorpresas. Otra forma de verlo es imaginar un ¨¢rbol de alternativas. De cada 100 futuros posibles, los n¨²meros de arriba dicen en cu¨¢ntos gana la derecha y en cu¨¢ntos la izquierda. Lo que no sabemos es cu¨¢l de esos futuros ser¨¢ el nuestro.
Las 15.000 simulaciones para cada partido
El siguiente gr¨¢fico muestra la distribuci¨®n de esca?os de cada formaci¨®n en nuestras 15.000 simulaciones. Primero vemos los cuatro grandes. Adem¨¢s de constatar que la incertidumbre es considerable, es interesante ver que las distribuciones no son sim¨¦tricas, por efecto del sistema electoral. Por ejemplo, Sumar y Vox tienen m¨¢s f¨¢cil hacerse peque?os que crecer. Y pasa lo contrario con el PSOE, porque si crece suficiente amenazar¨ªa el primer puesto del PP en muchas provincias.
Por ¨²ltimo, estas son las distribuciones de asientos para los peque?os partidos.
Metodolog¨ªa
Las predicciones las produce un modelo estad¨ªstico basado en sondeos y en su precisi¨®n hist¨®rica. El modelo es similar al que usamos en las elecciones de abril y noviembre de 2019, en M¨¦xico, Francia, el Reino Unido, Andaluc¨ªa, Catalu?a o Madrid. Funciona en cuatro pasos: 1) agregar y promediar las encuestas, 2) proyectar ese promedio sobre cada provincia, 3) incorporar la incertidumbre esperada, y 4) simular 15.000 elecciones para repartir esca?os y calcular probabilidades.
Paso 1. Promedio de encuestas. Nuestro promedio tiene en cuenta decenas de sondeos para mejorar su precisi¨®n. El promedio est¨¢ ponderado para dar distinto peso a cada encuesta seg¨²n tres factores: el tama?o de la muestra (las encuestas con m¨¢s entrevistas reciben m¨¢s peso, pero siguiendo una ley decreciente: pasado cierto umbral, hacer m¨¢s entrevistas aporta poco); la casa encuestadora (las empresas con poca trayectoria pesan muy poco en el promedio) y la fecha (el ¨²ltimo d¨ªa solo importan las encuestas muy recientes). Adem¨¢s, penalizamos las encuestas repetidas de un mismo encuestador, para evitar que una sola empresa que haga muchas encuestas domine el promedio.
Los promedios como el nuestro pueden verse como una estimaci¨®n de consenso. En lugar de confiar en un ¨²nico encuestador, agregan el criterio y las hip¨®tesis de todos. Los promedios reducen el ruido de los sondeos, evitando que salten arriba y abajo por azar. Y sobre todo: se ha demostrado que los promedios mejoran la precisi¨®n de las encuestas individuales.
Paso 2. Proyectar el voto a cada provincia. Antes de calcular los esca?os es necesario estimar el porcentaje de votos de cada partido en cada provincia. Para hacerlo, se usan los resultados de las elecciones de 2019 y algunos ajustes con encuestas provinciales. Este es un m¨¦todo habitual, sencillo y que funciona razonablemente bien (si un partido crece, es l¨®gico pensar que crecer¨¢ m¨¢s donde ya era m¨¢s fuerte). La mayor dificultad est¨¢n en acertar con partidos muy peque?os que podr¨ªan tener opciones de esca?os, pero sobre los que tenemos muy pocos datos.
Paso 3. Incorporar la incertidumbre de las encuestas. Este es el paso m¨¢s complicado e importante. Se necesita estimar la precisi¨®n esperada de los sondeos. ?De qu¨¦ magnitud son los errores habituales? ?C¨®mo de probable es que se produzcan errores de 2, 3 o 5 puntos? Para responder esas preguntas se estudian cientos de encuestas en Espa?a y miles internacionales.
Calibrar los errores esperados. Primero se estima el error de las encuestas en Espa?a. Se construye una base de datos con todas las elecciones desde 1986. El error absoluto medio (MAE) de los promedios de encuestas ha rondado los 2 puntos por partido. Eso significa que fueron habituales desviaciones de 3 o 4 puntos y que el margen de error (al 95%) se acerca a los siete puntos para partidos alrededor del 30% de votos. Esos errores dependen al menos de dos cosas: del tama?o del partido y de la cercan¨ªa de las elecciones. Para tener en cuenta esos dos factores se recurre a la base de datos de Jennings y Wlezien, publicada en Nature. Se han analizado los errores de m¨¢s de 4.100 encuestas en 241 elecciones de 19 pa¨ªses occidentales. As¨ª se construye un modelo sencillo que estima el error MAE del promedio de votos estimado por las encuestas para cada partido, teniendo en cuenta: 1) su tama?o (es m¨¢s f¨¢cil estimar un partido que ronda el 5% en votos que uno que supera el 30%), y 2) los d¨ªas que faltan hasta las elecciones (porque las encuestas mejoran al final).
Elecci¨®n del tipo de distribuci¨®n. Para incorporar la incertidumbre al voto de cada partido en cada simulaci¨®n se utiliza una distribuci¨®n multivariable. Se usan distribuciones t-student en lugar de normales para que tengan colas m¨¢s largas (curtosis): eso hace m¨¢s probable que sucedan eventos muy extremos. Las ventajas de esa hip¨®tesis la explica Nate Silver: ¡°El nivel de curtosis lo he estimado con la base de datos. Luego defino la matriz de covarianzas de estas distribuciones para que la suma de los votos no sobrepase el 100% (una idea de Chris Hanretty). La incertidumbre la incorporo con 53 distribuciones, una a nivel nacional y otra en cada provincia. La primera distribuci¨®n introduce errores iguales para el voto de un partido en toda Espa?a. Es importante hacerlo as¨ª porque en general los errores de las encuestas son sist¨¦micos e iguales en todos los territorios. Si los asumimos independientes, los errores se cancelan entre provincias y el modelo falla por exceso de confianza. Esto pas¨® con algunos modelos de las elecciones de EE UU en 2016. La segunda parte de la incertidumbre la incorporo sobre cada provincia. Por ¨²ltimo, hay que escalar la amplitud de las matrices de covarianza para que las distribuciones de voto que resultan al final tengan el MAE y la desviaci¨®n est¨¢ndar esperados seg¨²n la calibraci¨®n.
Paso 4. Simular. El ¨²ltimo paso consiste en ejecutar el modelo 15.000 veces. Cada iteraci¨®n es una simulaci¨®n de las elecciones con porcentajes de voto, que var¨ªan seg¨²n la distribuci¨®n definida en el paso anterior. Los resultados en esas simulaciones permiten calcular las probabilidades que tiene cada partido de lograr cierto n¨²mero de esca?os, alcanzar la mayor¨ªa, quedar primero, etc¨¦tera.
Por qu¨¦ encuestas. Este modelo se basa por entero en encuestas. Existe la percepci¨®n de que los sondeos no son fiables, pero lo cierto es que las encuestas no lo han hecho mal ¨²ltimamente. En los ¨²ltimos cinco a?os han sido bastante precisas en Espa?a, aunque con excepciones como las elecciones andaluzas de 2018. Las encuestas raramente son perfectas, pero no existe ninguna alternativa que se haya demostrado mejor.
Ha colaborado en esta pieza Montse Hidalgo P¨¦rez.
?Quiere m¨¢s datos? Suscr¨ªbete aqu¨ª a la ¡®newsletter¡¯ de Kiko Llaneras donde analiza y explica la actualidad con datos y gr¨¢ficos.