jun 5, 2019
jun 5, 2019

Pinnacle frente a FiveThirtyEight: una comparación del éxito predictivo

Modelo de predicción de fútbol de FiveThirtyEight

¿Se puede obtener una ganancia con la predicción de FiveThirtyEight?

¿Qué valor brinda a los apostadores?

Pinnacle frente a FiveThirtyEight: una comparación del éxito predictivo

FiveThirtyEight es una fuente reconocida de predicciones de fútbol. ¿Qué tan exactas son sus predicciones? ¿Cómo se comparan con los dividendos de Pinnacle? ¿Brindan algún valor a los apostadores? Continúa leyendo para averiguarlo.

Los dividendos de una casa de apuestas esencialmente proporcionan un pronóstico directo de probabilidad de los resultados deportivos. Cuando se expresan en notaciones decimales, simplemente se invierte la cifra y se obtiene el porcentaje implícito (si bien se exige un esfuerzo adicional para eliminar el margen). Las cuotas de 2,50 (sin margen) implican una probabilidad de resultado de 1/2,50, 0,4 o 40 %.

Por supuesto, la casa de apuestas no siempre tiene razón. Los errores brindan oportunidades a los clientes para encontrar el valor esperado y obtener una ganancia a largo plazo. Los lectores, sin embargo, ya estarán familiarizados con mi mensaje de que los errores de Pinnacle, al menos en el mercado de apuestas de partidos de fútbol, se distribuyen aleatoriamente; en promedio, las cuotas ofrecen un reflejo muy confiable de que esto suceda. En este contexto, las cuotas de cierre son las mejores y pueden usarse para predecir qué ganancias puede obtener un apostador.

No obstante, hay otros grupos de pronóstico que ofrecen predicciones sobre los resultados de los partidos de fútbol. Uno de los más conocidos es Fivethirtyeight.com, un blog de pronósticos deportivos, económicos y políticos creado por un estadista norteamericano, ex jugador de póquer y autor de La señal y el ruido, Nate Silver. Nate se hizo famoso calculando con éxito los resultados de 49 de los 50 estados en la elección presidencial estadounidense de 2008 y de los 50 estados cuatros años más tarde.

Desde la perspectiva de un apostador o fanático de los deportes, los pronósticos de partidos de FiveThirtyEight son particularmente útiles dado que ofrecen de manera explícita las probabilidades de local, empate y visitante. Al invertir esto, podemos obtener inmediatamente las cuotas equitativas implicadas. El objetivo de cualquier apostador de valor es descubrir las cuotas equitativas más precisas que las de las casas de apuestas. Si lo logran, simplemente deben apostar a las cuotas de las casas de apuestas cuando son mayores. Si el apostador obtiene una ganancia a largo plazo, es un signo seguro de que tiene cuotas más precisas que las casas de apuestas. En este artículo he colaborado con @PlusEVAnalytics para descubrir si FiveThirtyEight puede hacer el trabajo.

Modelo de predicción de fútbol de FiveThirtyEight

FiveThirtyEight comenzó a publicar predicciones de partidos de fútbol en enero de 2017, aunque su base de datos de resultados se remonta a agosto de 2016. Su metodología se basa en la "versión sustancialmente revisada del Índice Potencial de Fútbol (SPI) de ESPN" concebida originalmente por Nate Silver, que utiliza la expectativa de goles (xG) y el análisis estadístico de Poisson para generar una matriz de posibles resultados de partidos, donde se calculan las probabilidades de local, empate y visitante.

FiveThirtyEight piensa que sus predicciones de fútbol son bastante buenas, aduciendo que son más valiosas que las conjeturas sin cualificación. A este respecto, estoy seguro de que tiene razón, pero ¿son mejores que las probabilidades implícitas de Pinnacle? Averigüémoslo.

¿Se puede obtener una ganancia con la predicción de FiveThirtyEight?

Mediante la combinación de la base de datos histórica de cuotas de cierre de Pinnacle y las probabilidades tácitas disponibles en FiveThirtyEight, reuní una muestra de 16 635 partidos disputados en las ligas de fútbol europeas entre el 12 de agosto de 2016 y el 31 de marzo de 2019 para un total de 49 905 pares de cuotas de local, empate y visitante.

En 20 093 ocasiones, las cuotas de cierre de Pinnacle fueron mayores que las implicadas en los pronósticos de probabilidades de FiveThirtyEight. La superioridad promedio de las cuotas (4,12) fue del 16,2 %, lo que implica que si hubiéramos apostado dichas cuotas en apuestas niveladas, habríamos obtenido una ganancia del 16,2 % (asumiendo que las cuotas de FiveThirtyEight, en promedio, eran reflejos precisos o eficientes de las cuotas 'verdaderas'). De hecho, mostraron una pérdida del -6,0 %, peor que la pérdida del -4,3 % de apostar a los 49 905 precios (aunque no sea estadísticamente importante).

El primer gráfico a continuación muestra cómo fallaron las cuotas implícitas de FiveThirtyEight en la predicción de las ganancias reales de apostar a las cuotas de cierre de Pinnacle. Al dividir las cuotas de cierre de Pinnacle por las cuotas implícitas de FiveThirtyEight, obtenemos una ganancia prevista para dicha apuesta, asumiendo que la hipótesis de que las cuotas de FiveThirtyEight son eficientes es verdadera.

Agrupar las apuestas por ganancias previstas incrementales (con una resolución de 0,01) permite ver el fracaso de las ganancias esperadas en correlación con las ganancias de la apuesta real. Independientemente de la relación entre las cuotas de cierre de Pinnacle y las cuotas implícitas de FiveThirtyEight, la ganancia promedio es una pérdida del -6%. Parecería que las cuotas de FiveThirtyEight no ofrecen ningún valor predictivo en absoluto respecto de las cuotas de cierre de Pinnacle.

five-thirty-eight-in-article-1.png

¿Qué sucede si cambiamos las cosas? Pretendamos esta vez que FiveThirtyEight es la casa de apuestas y Pinnacle el modelo de pronóstico. Ahora la relación de las cuotas de FiveThirtyEight con las cuotas de cierre equitativas de Pinnacle (sin margen) se usa como medida de ganancia prevista.

Apostar las 'cuotas' de FiveThirtyEight en las 25 557 ocasiones excede las cuotas de cierre equitativas de Pinnacle con una ganancia real del 15,5%, muy cercana a la superioridad promedio del 15,9% (cuotas promedio de 4,49). El gráfico de dispersión confirma la fuerte correlación entre las ganancias previstas y reales para esta hipótesis inversa. La pendiente de la línea de tendencia es casi exactamente 1 y pasa por el origen (observa la ecuación y = mx + c en el gráfico), lo que implica que las cuotas de cierre de Pinnacle, en promedio, son altamente eficientes a diferencia de FiveThirtyEight.

five-thirty-eight-in-article-2.png

Manzanas y naranjas

En abril, cuando publiqué estos descubrimientos en mi enlace de Twitter, señalé acertadamente que comparamos manzanas con naranjas. Las probabilidades de pronóstico de FiveThirtyEight se producen antes del calendario de partidos y el cálculo de la probabilidad final se publica después de finalizado el penúltimo partido del equipo. Puede suceder muchos días antes del calendario en cuestión. Las predicciones serán tan buenas como la información disponible en el momento.

Las cuotas de cierre de Pinnacle, en contraste, reflejan toda la información disponible en el mercado en el momento del inicio real del partido. Esto incluye otros factores, como lesiones de jugadores, cambios en la selección del equipo, las condiciones atmosféricas y el estado de la cancha; cosas que FiveThirtyEight no incluye.

Para realizar una comparación del modelo totalmente equitativa con las cuotas de cierre de Pinnacle, FiveThirtyEight debería publicar los pronósticos de probabilidades al mismo tiempo; es decir, al inicio del partido. Y eso no sucederá. Alternativamente, podemos usar las cuotas de Pinnacle cuando FiveThirtyEight publica sus probabilidades de pronóstico final para un partido. Por desgracia, no cuento con datos con marca de tiempo para las cuotas de Pinnacle; y si lo hiciera, imagino que la publicación de las cuotas de apertura sucedería después de la publicación de los pronósticos finales de FiveThirtyEight.

Aún así, usar las cuotas de apertura de Pinnacle ofrecerá potencialmente una comparación del modelo más equitativa que las cuotas de cierre; veamos los resultados. En las 18 952 ocasiones en que las cuotas de apertura de Pinnacle fueron mayores que las de FiveThirtyEight (promedio de 3,97), la superioridad promedio de dichas cuotas fue del 14,2 %. Mostraron una pérdida del -4,1 %, algo mejor (aunque no sea estadísticamente importante) que la pérdida del -4,4 % de apostar a los 49 905 precios. Una vez más, hay poca correlación entre las ganancias previstas y reales.

five-thirty-eight-in-article-3.jpg

Al igual que antes, cuando comparamos los modelos a la inversa (con las cuotas de apertura de Pinnacle como referencia 'verdadera'), vimos una mejor correlación, no tan precisa como la de las cuotas de cierre, pero cercana a la paridad. Apostar las 'cuotas' de FiveThirtyEight en las 25 775 ocasiones excede las cuotas equitativas de Pinnacle con una ganancia real del 12,8 %, razonablemente cercana a la superioridad promedio del 14,8% (cuotas promedio de 4,54).

La señal y el ruido

Después de publicar los datos de las cuotas de apertura en Twitter, mi coautor para este artículo; @PlusEVAnalytics, señaló: "Si se preguntan si FiveThirtyEight es superior a Pinnacle, tendrán una respuesta obvia".

Tal vez lo somos y lo que hemos descubierto aquí es evidente. Probablemente aún sea verdad que las probabilidades de pronóstico de FiveThirtyEight son deficientes desde el punto de vista informativo respecto de Pinnacle debido a la sincronización y a que el principal modelo comercial de Pinnacle es ofrecer cuotas precisas, mientras que FiveThirtyEight solo busca entretener. FiveThirtyEight no necesita hacer dinero con los pronósticos; al menos no directamente. Es más, para ser justos, FiveThirtyEight admite que sus pronósticos no están diseñados con las apuestas en mente.

Sin embargo, @PlusEVAnalytics propuso un interesante experimento de reflexión. Mediante la combinación de dos modelos de pronóstico para conformar uno potencialmente mejor que las cuotas de Pinnacle solamente, podemos desentrañar si hubo alguna señal en los remanentes de los pronósticos de FiveThirtyEight respecto de las señales de las cuotas de Pinnacle.

El análisis hasta ahora se ha enmarcado como una propuesta "disyuntiva": ¿cuál de las dos predicciones es la fuente fidedigna más precisa? Los resultados son tan concluyentes como poco sorprendentes. Ahora añadamos un pequeño giro parafraseando la pregunta de la siguiente manera:

La probabilidad "final" de cualquier resultado determinado = Z * (probabilidad de FiveThirtyEight de dicho resultado) + (1 – Z) * (probabilidad de Pinnacle de dicho resultado) para Z, 0 ≤ Z ≤ 1.

¿Qué valor de Z maximiza el valor predictivo de estas probabilidades finales?

Este modelo es lo suficientemente flexible para acomodar la construcción de las probabilidades finales con todas las proyecciones de FiveThirtyEight (Z = 1), todas las proyecciones de Pinnacle (Z = 0) y todo lo que hay entremedio (Z entre 0 y 1).

¿Cómo determinamos el mejor valor de Z? Hay varias formas posibles, pero la que usaremos aquí es la estimación de máxima probabilidad (MLE). El propósito de la MLE es descubrir el valor de uno o más parámetros desconocidos que proporcionan la mejor "adecuación" a un conjunto de datos observados. ¿Cómo medimos qué tan buena es la adecuación? Observando la probabilidad, supeditada al valor del parámetro desconocido, de lo que hemos observado exactamente.

Nuestro modelo, definido anteriormente, tiene un solo parámetro: Z. Cualquier valor dado de Z nos permitirá calcular un conjunto de probabilidades finales de local, empate y visitante en función del valor de Z para cada partido en el conjunto de datos. Para cada partido, la probabilidad de observar lo que observamos es nuestra probabilidad final de local, empate y visitante, si el resultado del partido es una victoria local, un empate o una victoria de visitante. Por ejemplo, para las probabilidades de local, empate y visitante de 0,5, 0,3 y 0,2, si el resultado es un empate, la probabilidad de observar lo observado es de 0,3.

Debido a que todos los partidos son eventos independientes, la probabilidad de observar el conjunto exacto de los resultados observados es el producto de las probabilidades de cada partido individual. Este producto es nuestro objetivo; es lo que tratamos de maximizar ajustando el valor de Z.

Desafortunadamente, el producto de 16 635 probabilidades es infinitésimamente pequeño; una ganancia acumulada de 16 635 partidos. Esto genera un problema computacional cuando se resuelve la MLE con una herramienta de software, como Excel, que no puede manejar números pequeños más allá de cierto umbral; cualquier número menor se redondea a cero.

Para solucionar este problema, podemos maximizar el logaritmo de la probabilidad. Dado que el valor absoluto de la probabilidad es irrelevante para el procedimiento de MLE (lo que importa es cómo la probabilidad cambia cuando ajustamos nuestros parámetros), maximizar el llamado "logaritmo de máxima verosimilitud" es matemáticamente equivalente.

Además de contar con el logaritmo de las probabilidades del partido final, ahora tenemos la suma de los logaritmos de máxima verosimilitud en lugar de sus productos. Ejecutar este análisis en el conjunto de datos nos da los siguientes resultados:

  • Al usar las cuotas de cierre de Pinnacle, el logaritmo de máxima verosimilitud se maximiza cuando Z = 0. En otras palabras, FiveThirtyEight no contribuye eficazmente nada al modelo de pronóstico "final" si se tienen en cuenta los pronósticos de FiveThirtyEight y Pinnacle.

  • Al usar las cuotas de apertura de Pinnacle, el logaritmo de máxima verosimilitud se maximiza cuando Z = 0,04. En otras palabras, FiveThirtyEight contribuye un 4 % al modelo "final".

La sabiduría de los modelos

Es el segundo de estos dos resultados el que interesa. Si debemos elegir entre uno y otro, las líneas de apertura de Pinnacle brindan un valor predictivo objetivamente superior a las predicciones de FiveThirtyEight. Pero aquí está el cambio…

Un promedio ponderado del 4% x la predicción de FiveThirtyEight + 96 % x la línea de apertura de Pinnacle brinda un mejor valor predictivo que cualquiera de las dos predicciones individualmente.

¿Qué valor brinda a los apostadores? Casi ninguno. El 4 % es muy poco para ser de utilidad y ni siquiera es estadísticamente importante. ¿Pero qué sucede si el valor de Z es mayor? ¿O si en lugar de dos predicciones hay muchas y cada una tiene su propio valor de Z? Esta es una variación de la teoría de "sabiduría popular" que sostiene que una combinación de predicciones puede ser más valiosa que dichas predicciones por separado.

En esencia, esto es lo que hace que las cuotas de Pinnacle sean tan precisas (en promedio). Tienen las líneas de fijación de los corredores más sofisticados y experimentados. También permiten que otros apostadores expertos jueguen en lugar de rechazar su práctica, lo que contribuye a ajustar las líneas para ser más precisas o acertadas. Las cuotas de cierre de Pinnacle representan eficazmente la "sabiduría de los modelos de pronóstico" y sus cuotas reflejan las probabilidades de los resultados "finales". Por eso probablemente FiveThirtyEight nunca tuvo chance contra ellas.

Recursos para apostar: facultando sus apuestas

La sección Recursos para apostar de Pinnacle es una de las recopilaciones más exhaustivas de consejos expertos sobre apuestas que encontrará en Internet. Dirigida a todos los niveles de experiencia, nuestro objetivo consiste simplemente en facultar a los apostantes para que estén mejor informados.