Encuestas: ?Qui¨¦n va ganando las elecciones del 10N?
As¨ª es la predicci¨®n de nuestro modelo estad¨ªstico a partir de encuestas y 15.000 simulaciones. Con esca?os y mayor¨ªas

El gr¨¢fico muestra el promedio de sondeos de EL PA?S actualizado el pasado domingo. Mantiene primero al PSOE (27,2% de votos), seguido de PP (21,1%), Vox (12,8%), Unidas Podemos (12,7%), Ciudadanos (9%) y M¨¢s Pa¨ªs (3,8%).
Predicci¨®n de esca?os. A partir de los sondeos nuestro modelo estima que el PSOE rondar¨ªa los 116 diputados en las pr¨®ximas elecciones seguido del PP (94), Vox (42), Unidas Podemos (36) y Ciudadanos (19).

Las horquillas son amplias pero no caprichosas: representan la precisi¨®n de las encuestas en el pasado. Para hacer los c¨¢lculos usamos un modelo estad¨ªstico y simulamos las elecciones miles de veces. El modelo se alimenta del promedio de encuestas y tiene en cuenta su precisi¨®n hist¨®rica. Al final se puede consultar la metodolog¨ªa.
Qui¨¦n alcanzar¨¢ la mayor¨ªa. Para escoger al presidente y gobernar son necesarios 176 esca?os. ?Qu¨¦ partidos tienen opciones de sumar suficientes diputados? Las encuestas no pueden responder esa pregunta, pero un modelo como este s¨ª.
La derecha (PP, Vox y Ciudadanos) tiene un 9% de probabilidades de alcanzar la mayor¨ªa y la izquierda (PSOE, UP, MP) un 15%. Un acuerdo de la izquierda con PRC, CC y PNV aumenta sus opciones hasta el 31% (es decir, suman 176 esca?os un tercio de las veces). En el 60% de las simulaciones ninguna de estas opciones es posible.

La tabla siguiente muestra otras posibles mayor¨ªas y sus probabilidades.

Las 15.000 simulaciones partido a partido. El siguiente gr¨¢fico muestra la distribuci¨®n de esca?os en cada simulaci¨®n. Ah¨ª puede verse la incertidumbre de las encuestas. El PSOE ronda los 116 esca?os, pero su intervalo (al 90%) va de 89 a 140 diputados. Hay un 5% de probabilidades de que se salga por abajo y otro 5% de que lo haga por arriba. Estas horquillas reflejan el grado de precisi¨®n de las encuestas en el pasado. Al acercarse las elecciones los m¨¢rgenes de error se reducir¨¢n ligeramente.

Aqu¨ª se muestra el resultado del resto de partidos. Sus resultados son m¨¢s dif¨ªciles de precisar porque se publican pocas encuestas al nivel auton¨®mico.

La lucha por cada puesto. La tabla representa la probabilidad que tiene cada partido de quedar en cada puesto. El PSOE ser¨¢ primero con una alta probabilidad aunque no definitiva (83%). Otras posiciones est¨¢n a¨²n menos decididas. Vox, por ejemplo, es tercero en seis de cada diez simulaciones, cuarto en tres y quinto en una de cada diez. La lucha por el tercer puesto est¨¢ muy abierta.

Predicci¨®n final
Durante esta semana publicaremos una ¨²ltima predicci¨®n que incluir¨¢ las encuestas del lunes y una predicci¨®n de los esca?os probables, posibles y en juego de cada provincia. ?Quieres que te avisemos? Suscr¨ªbete a la newsletter de Kiko Llaneras y rec¨ªbela en tu correo.

Metodolog¨ªa. Las predicciones las produce un modelo estad¨ªstico basado en sondeos y en su precisi¨®n hist¨®rica. El modelo es similar al que usamos en las elecciones de abril, en M¨¦xico, Francia, el Reino Unido, Andaluc¨ªa o Catalu?a. Funciona en cuatro pasos: 1) agregar y promediar las encuestas, 2) proyectar ese promedio sobre cada provincia, 3) incorporar la incertidumbre esperada, y 4) simular 15.000 elecciones para repartir esca?os y calcular probabilidades.
Paso 1. Promedio de encuestas. Nuestro promedio tiene en cuenta decenas de sondeos para mejorar su precisi¨®n. El promedio est¨¢ ponderado para dar distinto peso a cada encuesta seg¨²n tres factores: el tama?o de la muestra, la casa encuestadora y la fecha. Los detalles pueden consultarse en esta p¨¢gina web.
Paso 2. Proyectar el voto a cada provincia. Antes de calcular los esca?os es necesario estimar el porcentaje de votos de cada partido en cada provincia. Lo habitual para hacer esto es usar sus resultados en anteriores elecciones. Es sencillo y funciona bien (si un partido crece, es l¨®gico pensar que crecer¨¢ m¨¢s donde ya era m¨¢s fuerte). Pero la aparici¨®n de M¨¢s Pa¨ªs obliga a hacer algunas modificaciones. El partido de Errej¨®n solo se presenta en algunas provincias y eso a?ade dos dificultades: 1) decidir c¨®mo distribuir sus votos y 2) penalizar al PSOE y UP en las provincias donde M¨¢s Pa¨ªs concurre. Para lo primero hemos usado los datos de transferencias desde el resto de partidos (sabemos por encuestas que alrededor del 38% de los votantes de MP vienen del PSOE y el 42% de UP, as¨ª que es razonable asumir que al partido le ir¨¢ mejor donde PSOE y Podemos son fuertes). El segundo problema es que, dado que MP existe solo en algunas partes, no podemos reducir (o aumentar) linealmente los votos de PSOE y UP en todas las provincias, sino que debemos penalizar sus n¨²meros donde concurre Errej¨®n. Lo hacemos rest¨¢ndoles en cada provincia rest¨¢ndoles una parte (38% y 42%) de los votos que tenga all¨ª MP. Esta resta solo aplica parcialmente en la Comunidad Valenciana: MP solo resta a PSOE y UP por los votos que consiga sobre los que ya ten¨ªa Comprom¨ªs.
Paso 3. Incorporar la incertidumbre de las encuestas. Este es el paso m¨¢s complicado e importante. Se necesita estimar la precisi¨®n esperada de los sondeos. ?De qu¨¦ magnitud son los errores habituales? ?C¨®mo de probable es que se produzcan errores de 2, 3 o 5 puntos? Para responder esas preguntas se estudian cientos de encuestas en Espa?a y miles internacionales.
Calibrar los errores esperados. Primero se estima el error de las encuestas en Espa?a. Se construye una base de datos con todas las elecciones desde 1986. El error absoluto medio (MAE) de los promedios de encuestas ha rondado los 1,9 puntos por partido. Eso significa que fueron habituales desviaciones de 3 o 4 puntos y que el margen de error (al 95%) se acerca a los siete puntos para partidos alrededor del 30% de votos. Esos errores dependen al menos de dos cosas: del tama?o del partido y de la cercan¨ªa de las elecciones. Para tener en cuenta esos dos factores se recurre a la base de datos de Jennings y Wlezien, publicada en Nature. Se han analizado los errores de m¨¢s de 4.100 encuestas en 241 elecciones de 19 pa¨ªses occidentales. As¨ª se construye un modelo sencillo que estima el error MAE del promedio de votos estimado por las encuestas para cada partido, teniendo en cuenta: i) su tama?o (es m¨¢s f¨¢cil estimar un partido que ronda el 5% en votos que uno que supera el 30%), y ii) los d¨ªas que faltan hasta las elecciones (porque las encuestas mejoran al final).
Elecci¨®n del tipo de distribuci¨®n. Para incorporar la incertidumbre al voto de cada partido en cada simulaci¨®n se utiliza una distribuci¨®n multivariable. Se usan distribuciones t-student en lugar de normales para que tengan colas m¨¢s largas (curtosis): eso hace m¨¢s probable que sucedan eventos muy extremos. Las ventajas de esa hip¨®tesis la explica Nate Silver: "El nivel de curtosis lo he estimado con la base de datos. Luego defino la matriz de covarianzas de estas distribuciones para que la suma de los votos no sobrepase el 100% (una idea de Chris Hanretty). La incertidumbre la incorporo con 53 distribuciones, una a nivel nacional y otra en cada provincia. La primera distribuci¨®n introduce errores iguales para el voto de un partido en toda Espa?a. Es importante hacerlo as¨ª porque en general los errores de las encuestas son sist¨¦micos e iguales en todos los territorios. Si los asumimos independientes, los errores se cancelan entre provincias y el modelo falla por exceso de confianza. Esto pas¨® con algunos modelos de las elecciones de EE UU en 2016. La segunda parte de la incertidumbre la incorporo sobre cada provincia. Por ¨²ltimo, hay que escalar la amplitud de las matrices de covarianza para que las distribuciones de voto que resultan al final tengan el MAE y la desviaci¨®n est¨¢ndar esperados seg¨²n la calibraci¨®n".
Paso 4. Simular. El ¨²ltimo paso consiste en ejecutar el modelo 15.000 veces. Cada iteraci¨®n es una simulaci¨®n de las elecciones con porcentajes de voto que var¨ªan seg¨²n la distribuci¨®n definida en el paso anterior. Los resultados en esas simulaciones permiten calcular las probabilidades que tiene cada partido de lograr cierto n¨²mero de esca?os, alcanzar la mayor¨ªa, quedar primero, etc¨¦tera.
Por qu¨¦ encuestas. Este modelo se basa por entero en encuestas. Existe la percepci¨®n de que los sondeos no son fiables, pero lo cierto es que las encuestas no lo han hecho mal ¨²ltimamente. A nivel nacional fallaron por pocos puntos incluso con Trump o con el Brexit, y desde entonces se han estado bastante precisos en muchas elecciones, como pas¨® en M¨¦xico, Brasil, Colombia, Francia, Pa¨ªses Bajos, Pa¨ªs Vasco, Galicia o Catalu?a. Las encuestas raramente son perfectas, pero no existe ninguna alternativa que se haya demostrado mejor.
Sobre la firma
