ene 10, 2020
ene 10, 2020

Segunda parte: Evaluación del talento del apostador mediante el factor de Bayes

Análisis de los resultados obtenidos por apostadores mediante el factor de Bayes

El factor de Bayes y la hipótesis de valor de línea de cierre

Las limitaciones del factor de Bayes

Segunda parte: Evaluación del talento del apostador mediante el factor de Bayes
En la primera parte de este artículo, Joseph Buchdahl presentó la idea de emplear el factor de Bayes para evaluar el talento del apostador. Ahora usará historias de apuestas reales para demostrar cómo podemos evaluar si los resultados se deben a la suerte o al talento. Sigue leyendo para averiguarlo. 

En la primera parte de este artículo, mostré que el factor de Bayes es una medición que puede usarse para comparar la validez relativa de dos hipótesis estadísticas. Lógicamente, esto tiene su utilidad para el análisis de apuestas.

Ahora, en la segunda parte, evaluaré tres ejemplos de cómo se puede usar el factor de Bayes en este contexto y, en particular, cómo podemos evaluar si un apostador que gana lo hace por talento o suerte.

Análisis de los resultados obtenidos por apostadores mediante el factor de Bayes

La manera más obvia de determinar si un apostador tiene talento quizás sea comparar los resultados que él espera obtener gracias a su método de pronóstico y lo que la casa de apuestas espera que el apostador logre. Desde ya, la casa de apuestas espera, o al menos desea, que cada apostador pierda un porcentaje definido por el margen. En los mercados populares de Pinnacle, esto suele rondar un -2,5%.

Con el factor de Bayes, podemos estimar la probabilidad de que un apostador que se considera capaz de tener un rendimiento superior lo logre por su talento.

Al usar la función NORMDIST de Excel como vimos en la primera parte, en el siguiente gráfico vemos las relaciones de probabilidad (RP) y los factores de Bayes (FB) de un apostador de hándicap asiático o margen de puntos que hace 1000 apuestas con cuota de 1,95 y una expectativa de +5% (H1). Con un margen de -2,5%, la cuota justa implícita y la probabilidad de acierto de cada apuesta son de 2,00 y 50% respectivamente (H0). 

En el gráfico vemos que la RP y el FB varían con los resultados observados.

bayes-factor-in-article-2.jpg

Si el apostador logra un resultado de +5% y esperaba eso, FB = 13,7 y RP = 19,3. Según Jeffreys, esto sería evidencia importante, aunque no decisiva, de que el apostador tiene talento y no suerte. Comparemos esto con un valor p de 0,75% (o de 1 en 133).

Claramente, un análisis con el factor de Bayes genera conclusiones más conservadoras que un análisis con el valor p, y con razón. Muchas veces los apostadores se confunden con los valores p bajos y piensan que son evidencia de talento, cuando en realidad simplemente indican la probabilidad de que algo suceda de forma aleatoria sin talento.

Si uno le gana a la línea de cierre justa por un 5%, la ganancia esperada es del 5%, y estudios de grandes muestras de cuotas de partidos de fútbol han revelado que se suele ganar un 5%.

Para tener evidencia decisiva de un talento del +5%, el apostador debería ganar alrededor del 7,4% tras 1000 apuestas, pero si lograra ese rendimiento quizás nos convendría usar una versión diferente de H1 (por ejemplo, H1 = 7,4%) y podríamos compararla con el H1 = +5% original o, de hecho, con H0 = -2,5%. Cabe recordar que el análisis con el factor de Bayes solo compara la probabilidad relativa de dos hipótesis, pero no compara a ninguna de las dos con "la verdad".

Para obtener una evidencia decisiva (FB = 100) de que un resultado observado alcanzará la ventaja esperada de +5%, con un margen de la casa de apuesta de -2,5%, harían falta 1675 apuestas. Para eso, el valor p sería del 0,08% o de 1 en 1250. Cada vez más estadísticos recomiendan un umbral de valor p mucho más exigente para asignar importancia estadística a un resultado. Nassim Taleb, autor de ¿Existe la suerte? y El cisne negro, por ejemplo, propone un valor p mínimo de 0,1%. En este ejemplo, eso se correspondería bastante con un factor de Bayes de alrededor de 100.

En el siguiente gráfico, vemos cómo RP y FB varían con el tamaño de la muestra de apuestas de este escenario, donde H0 = -2,5%, H1 = +5% y el rendimiento observado coincide exactamente con H1. FB suele ser inferior a RP cuando H1 y la observación no difieren mucho, por el uso de una distribución de probabilidad para describir H1; esto reduce la certeza y la confianza en el uso de un valor específico de H1 en una prueba de relación de probabilidad pura.

Cuando H1 se aleja de lo observado, FB puede ser superior a RP, como se aprecia claramente en el gráfico anterior y como vimos en el ejemplo de la moneda de la primera parte.

bayes-factor-in-article-3.jpg

Al cambiar la cuota, desde luego, cambian muchísimo los números. Con una cuota de 5,00, un rendimiento observado de +5% con H1 = +5% y H0 = -2,5% en 1000 apuestas tiene un factor de Bayes de apenas 2,89. Cuanto mayor sea la cuota, más varianza y menos certeza hay.

Ahora sería imposible descartar la suerte, aunque con un valor p de 4,57% algunos observadores quizás lo harían. Necesitamos alrededor de 3500 apuestas para llegar a BF = 100. El valor p equivalente de nuevo ronda el 0,08% o 1 en 1250. Con una cuota de 7, necesitamos 10 400 apuestas para tener una evidencia decisiva de H1, y de nuevo el valor p es de 0,08% (1 en 1250). Taleb y Jeffreys evidentemente están de acuerdo.

Confirmación de la bondad de ajuste mediante el factor de Bayes

También podemos usar el factor de Bayes como una especia de prueba de la bondad de ajuste. En dicha prueba, cuando los resultados reales se acercan mucho a los esperados (previstos) el modelo está cumpliendo con su función.

Desde agosto de 2015, publico recomendaciones de apuestas rentables siguiendo un método de sabiduría de las multitudes que emplea la sabiduría (la eficiencia) de las cuotas de fútbol de Pinnacle como referencia para determinar las probabilidades "verdaderas" de los resultados.

La hipótesis de este método es que la relación entre las cuotas de otra casa de apuestas y las cuotas de Pinnacle sin tomar el margen indica el valor esperado. Por ejemplo, si bet365 ofrece una cuota de 2,5 para la victoria de Liverpool sobre Manchester City y Pinnacle ofrece un precio justo de 2,4 tras eliminar el margen, el valor esperado de la apuesta es 2,5/2,4 = 4,17%. Al hacer esto con una muestra grande de apuestas, el valor esperado es simplemente el valor esperado promedio de dichas apuestas.

Al conocer específicamente el valor esperado del historial de apuestas (H0), podemos compararlo directamente con el rendimiento real (H1) tras cada apuesta. Cuanto más se acerquen los resultados esperados y los reales, más probable es que el método funcione. El factor de Bayes nos permite hacer ese tipo de comparaciones de las bondades de ajuste. Cuanto más se acerque el valor a uno, mejor es la relación entre la expectativa y la realidad.

En el gráfico cronológico a continuación, vemos la evolución de las relaciones de probabilidad y los factores de Bayes tras cada apuesta de la serie.

El rendimiento bajo par en las primeras 1000 apuestas indicaba que un análisis con factor de Bayes no podía descartar alguna falla en mi modelo, ya que había evidencia moderada de que el rendimiento esperado (H0) era significativamente diferente al rendimiento real (H1). Luego el rendimiento regresó a la media prevista, y RP y FB casi nunca se alejaron mucho de uno. Tras 9681 partidos, el rendimiento esperado era de 4,18% y el real era de 4,02%.

bayes-factor-in-article-4.jpg

Evaluación con el factor de Bayes de la hipótesis de valor de línea de cierre

Los lectores familiarizados con mi trabajo saben que me gusta la hipótesis de valor de línea de cierre (VLC), según la cual la línea o cuota de cierre (previa al margen), en particular en los mercados futbolísticos de 1X2, es la mejor medición posible de probabilidad y predice de manera excelente el rendimiento de las apuestas.

Muchas veces los apostadores se confunden con los valores p bajos y piensan que son evidencia de talento, cuando en realidad simplemente indican la probabilidad de que algo suceda de forma aleatoria sin talento.

Si uno le gana a la línea de cierre justa por un 5%, la ganancia esperada es del 5%, y estudios de grandes muestras de cuotas de partidos de fútbol han revelado que se suele ganar un 5%.

De todas formas, estoy abierto a la posibilidad de que esta hipótesis no siempre sea correcta. De hecho, en septiembre de 2019 exploré la leve ineficiencia de un mercado de apuestas de partidos de tenis y analicé el rendimiento de @nishikoripicks, un tipster de tenis con resultados de +8,6% a pesar de una expectativa de VLC de -0,3%. Semejante discrepancia indica claramente que puede haber algo mal con la hipótesis de VLC, al menos en el tenis. Podemos usar el factor de Bayes para estudiar qué indica esto exactamente.

De nuevo, con el método que describí en la primera parte, calculé la relación de probabilidad y el factor de Bayes tras cada apuesta del historial de @nishikoripicks y registré esto en el siguiente gráfico.

En este caso, se supone que evH0 es el valor de línea de cierre esperado acumulado. En cada apuesta, el valor de línea de cierre esperado se calcula mediante la relación entre la cuota recomendada por @nishikoripicks y la cuota de cierre sin el margen de Pinnacle. Por ejemplo, si él apostó a 2,5 y el precio de cierre sin el margen fue de 2,45, su valor de línea de cierre esperado sería (2,5/2,45) – 1 = 2,041%.

El valor de línea de cierre esperado acumulado es entonces el promedio de todas las apuestas previas. Se supuso que evH1 era equivalente al rendimiento actual tras cada apuesta y, por ende, se actualizó del mismo modo para cada apuesta al igual que evH0. En otras palabras, el rendimiento actual de @nishikoripicks tras cada apuesta se consideró la mejor medida de su valor esperado real.

bayes-factor-in-article-5.jpg

Si bien el factor de Bayes suele ser más conservador que la relación de probabilidad (como ya mencionamos cuando los datos observados coinciden con H1), a grandes rasgos son similares. Tras alrededor de 2000 apuestas, hay una diferencia decisiva y sostenida entre los dos modelos en cuanto al rendimiento esperado de @nishikoripicks. 

Los resultados finales son FB = 1912 y RP = 2704. Si suponemos que el rendimiento real de @nishikoripicks es una medida confiable de su rendimiento esperado, esto implica que la hipótesis de valor de línea de cierre muy probablemente esté equivocada en este caso. 

Desde luego, este análisis con el factor de Bayes no nos dice que el rendimiento real de @nishikoripicks sea una medida confiable de su rendimiento esperado, sino que solo lo suponemos para este análisis. Solo nos dice que es decididamente mejor que la hipótesis de valor de línea de cierre.

Sin embargo, podría ser que haya tenido más suerte de lo esperado; quizás su rendimiento esperado verdadero sea del 5%. De ser ese el caso, una comparación de los dos modelos, H1 = +5% y H0 = -0,3% arrojaría un FB de apenas 11,8.

Es más, existe la posibilidad de que Pinnacle no responda a la actividad de mercado de @nishikoripicks por motivos que no tengan que ver con la ineficiencia del mercado. Mientras no sepamos los volúmenes que apuestan él o sus clientes y tampoco si esos clientes apuestan en Pinnacle, queda la posibilidad de que las líneas no respondan de la manera esperada (es decir, con cambios del 8,6% + margen) simplemente porque la actividad no es la necesaria para generar esos cambios. 

@nishikoripicks no logró mover las líneas de acuerdo con la hipótesis de valor de línea de cierre, pero otro apostador que analicé para mi artículo sobre el uso de la línea de cierre para evaluar el talento sí mueve las cuotas de manera extraña y bastante de acuerdo con lo esperado por la hipótesis.

En 2019, esta persona hizo 2223 apuestas a partidos de tenis, con un valor de línea de cierre esperado de 2,96% y un resultado real de 4,37% (aunque su retorno real fue algo inferior por las diferentes cantidades apostadas). Si H1 = 4,37% y H0 = 2,96%, entonces RP = 1,22 y FB = 0,86, lo cual implica que ningún modelo es superior al otro.

Si incluimos los otros deportes también, estas son sus cifras de 2019 hasta la fecha: apuestas = 14 333; rentabilidad esperada = 2,92%, rentabilidad real = 3,51%, RP = 1,25 y FB = 0,88.

Dado que es totalmente imposible que los movimientos en las cuotas que genera este apostador sean pura casualidad, las cifras parecen validar la hipótesis de valor de línea de cierre. Si bien @nishikoripicks reduce levemente las cuotas (alrededor del 3%), queda la duda de por qué esta reducción no es muy superior y acorde a su rendimiento real.

Las limitaciones del factor de Bayes

Para mí, una limitación importante del factor de Bayes es que es muy similar a un valor p frecuentista, ya que se basa en la probabilidad de que se obtengan esos datos si la hipótesis o el modelo funciona. El gran logro de la estadística bayesiana es que identifica lo inverso: la probabilidad de que la hipótesis sea verdadera a partir de los datos que tenemos.

Quizás esté siendo algo injusto con el factor de Bayes. De hecho, a continuación se presenta una expresión más completa basada en la probabilidad de que las hipótesis sean verdaderas.

bayes-skill-formula9.png

P(H0) y P(H1) son las probabilidades previas de que las dos hipótesis sean verdaderas, mientras que P(H1|D) y P(H0|D) son las probabilidades posteriores de que H1 y H0 sean verdaderas dados los datos observados.

Cuando P(H1) = P(H0), el factor de Bayes es específicamente la relación entre las probabilidades posteriores y la probabilidad de que un modelo sea más verdadero que el otro.

Sin embargo, el problema de la estadística bayesiana es que muchas veces no sabemos cuáles son las probabilidades previas de que los modelos sean verdaderos. ¿Cuál es la probabilidad previa de que la hipótesis de valor de línea de cierre sea verdadera? ¿Es igual a la probabilidad previa de que el rendimiento real de @nishikoripicks sea una medida válida de sus expectativas? 

Mientras sigan existiendo dudas sobre las probabilidades previas, el análisis bayesiano siempre será limitado. No obstante, la esencia de la estadística bayesiana es la duda y la incertidumbre, ya que se basa en que "la verdad" no es absoluta, sino probabilística, y siempre se actualiza con los nuevos datos. Cuantos más datos tenemos, más nos acercamos a "la verdad".

¿Qué hemos aprendido sobre el factor de Bayes y el talento de los apostadores?

Este par de artículos revela cómo puede usarse el factor de Bayes para evaluar hipótesis de un apostador sobre su rendimiento: por ejemplo, la cuestión del talento vs. la suerte, por qué el rendimiento es ese y si el rendimiento refleja las expectativas. Se trata de una herramienta más para que el apostador identifique si tiene talento o no.

Para la mayoría de los historiales de apostadores, la relación de probabilidad funciona bastante bien como sustituto para el factor de Bayes, que es de cálculo más complejo.

Recursos para apostar: facultando sus apuestas

La sección Recursos para apostar de Pinnacle es una de las recopilaciones más exhaustivas de consejos expertos sobre apuestas que encontrará en Internet. Dirigida a todos los niveles de experiencia, nuestro objetivo consiste simplemente en facultar a los apostantes para que estén mejor informados.