close
ene 5, 2018
ene 5, 2018

El problema de la minería de datos en las apuestas deportivas

¿En qué consiste la minería de datos y el dragado de datos?

Análisis de la sencilla estrategia de Apostar al empate

Por qué los apostantes necesitan “contar los monos”

El problema de la minería de datos en las apuestas deportivas

Utilizar los datos como parte de una estrategia de apuestas es una práctica habitual. Sin embargo, por muy impresionantes que algunos resultados puedan parecer, la parte importante es el proceso de producir tales resultados. ¿Cuáles son los problemas de la minería de datos en las apuestas deportivas? Sigue leyendo para averiguarlo.

En los últimos meses me he encontrado con gran cantidad de sitios web, blogs y publicaciones en foros que afirman haber descubierto sistemas de apuesta rentables que consisten simplemente en aplicar retrospectivamente algunos criterios de selección aparentemente arbitrarios a un amplio conjunto de datos compuesto por resultados históricos y cuotas de apuesta.

En este artículo investigo los escollos de buscar una ventaja rentable a través de la minería de datos: para los apostantes deportivos, la correlación sin causalidad supone un problema.

Minería de datos y dragado de datos

La minería de datos implica el proceso de analizar amplios conjuntos de datos para descubrir patrones e información. Más concretamente, la labor del dragado de datos consiste en la utilización de la minería de datos para descubrir patrones en esos datos que se puedan presentar como estadísticamente significativos.

No podemos readaptar una explicación apoyándonos en un resultado, dado que esto supone poner patas arriba la causalidad.

Las apuestas deportivas se prestan fácilmente a la minería y el dragado de datos. Hay varios sitios web que producen grandes volúmenes de cuotas de apuestas y resultados de fútbol históricos, que están disponibles para buscar y probar retrospectivamente sistemas de apuesta rentables.

Sin embargo, la mayor limitación de utilizar estos sistemas como herramienta de análisis de datos es que normalmente no se plantean las hipótesis a priori que explican por qué pueden haberse producido esos patrones.

Causalidad sin correlación 

Ya he comentado los inconvenientes de confundir correlación y causalidad, precisión con exactitud y validez. Para que un sistema de apuestas sea válido y haga de verdad lo que se supone que debe hacer, en primer lugar necesitamos tener alguna idea acerca de qué causa su éxito.

A menos que establezcas la causalidad que existe detrás de la correlación, no sabrás qué factores pueden explicar tu correlación; la correlación sin causalidad es irrelevante.

¿Valor oculto en la liga de fútbol English League Two?

En mi feed de Twitter de hace unas semanas, me llamaron la atención los excepcionales beneficios que se podrían haber obtenido apostando a ciegas por todas las victorias visitantes en la English League 2 desde la temporada 2012/13 a la 2016/17 (ambas incluidas), casi 3.000 apuestas por valor de un 4,3 % de las cuotas de cierre de Pinnacle y de casi un 10 % de los mejores precios del mercado.

En solo una de esas cinco temporadas se produjo una pérdida en comparación con los precios de cierre de Pinnacle, y se trató de una pérdida pequeña. El gráfico de beneficios tiene este aspecto.

article-data-mining-3-in-article.jpg

Esto sugiere que el mercado estaba subestimando a los equipos visitantes en esta división, es decir, que tenían un precio demasiado alto. Sin embargo, no se trata de una aberración a corto plazo, sino que más bien parece un error constante y sistemático en la forma en que los apostantes subestimaron la probabilidad de las victorias visitantes en la English League 2, mucho más allá de los límites del margen de beneficios de la casa de apuestas. Pero, ¿de verdad podemos creer que hay algo causal en lo que hemos descubierto en este ejemplo?

Apostar al empate: parece tan sencillo

Otra estrategia que he visto publicada recientemente se denomina Apostar al empate. Afirma haber obtenido un beneficio cercano al 16 % a partir de más de 2.500 apuestas al probarla retrospectivamente con los resultados de fútbol y las cuotas de apuesta de los partidos ofrecidas en Pinnacle desde 2012.

Los criterios de selección son sencillos: ninguno de los equipos debe haber empatado en los tres partidos anteriores y las cuotas deben estar en un rango comprendido entre 3,20 y 3,56. Al evaluar la significación estadística de este beneficio, descubrimos que este registro es verdaderamente excepcional. Podríamos esperar que un nivel de rentabilidad de esa magnitud con esas cuotas se produjera quizás una vez entre un millón, como máximo, suponiendo que el patrón sea únicamente aleatorio.

También cabe preguntarse por qué se han elegido estos criterios en particular. ¿Por qué no los últimos cuatro, cinco o seis partidos? ¿Por qué no cuotas comprendidas entre 3,07 y 3,41, o entre 3,13 y 3,72? Está claro que, casi con toda seguridad, estos criterios no se eligieron antes de llevar a cabo la minería de datos; simplemente se descubrió que habrían producido el resultado rentable que produjeron. Y no podemos readaptar una explicación apoyándonos en un resultado, dado que esto supone poner patas arriba la causalidad.

A menos que establezcas la causalidad que existe detrás de la correlación, no sabrás qué factores pueden explicar tu correlación.

En defensa de esta estrategia podría decirse “una vez en un millón: seguro que eso quiere decir que esto no es aleatorio, ¿cierto?” Sí, es cierto. Sin embargo, si tuviésemos un millón de estrategias para evaluar y descubriésemos que una de ellas es tan significativa estadísticamente como esta, ¿qué nos indica esta situación? Como narra Nassim Taleb en ¿Existe la suerte?, acerca de la fantasía de unos monos intentando recrear la poesía de Homero en una máquina de escribir: 

“Si participaran cinco monos en el juego, me sentiría bastante impresionado por el que escribiera La Ilíada, hasta el punto de sospechar que era una reencarnación del antiguo poeta. Si el número de monos fuera de mil millones elevado a mil millones, me sentiría menos impresionado...”

Como señala Taleb, no son muchas las personas que se molesten en contar todos los monos, y si lo hicieran, prácticamente ninguna crearía patrones interesantes de los que mereciera la pena hablar. El sesgo de supervivencia garantiza que solo nos fijemos en los ganadores.

Por qué los apostantes necesitan “contar los monos”

Si no vamos a plantear hipótesis a priori antes de llevar a cabo el dragado de datos para encontrar patrones rentables, en su lugar deberíamos probar un gran número de sistemas de apuesta para averiguar con qué frecuencia descubrimos la significación estadística Como ya respondí a este debate en mi feed de Twitter: “Hagamos un gráfico con la distribución de los beneficios a partir de 10.000 muestras de apuestas realizadas a ciegas y escogidas según 10.000 criterios diferentes y veamos qué aspecto tiene”.

Bueno, no pude encontrar 10.000 muestras de apuestas realizadas a ciegas y con un tamaño adecuado, eso implicaría muchísimos datos, sino 1.686 muestras de 100 apuestas o más. Cada muestra representaba una temporada de apuestas a ciegas a un resultado concreto (victoria local, empate o victoria visitante) en una única liga de fútbol durante una temporada.

En primer lugar, eliminé el margen de beneficio de Pinnacle para calcular los precios “verdaderos” de cada resultado. A continuación, calculé los beneficios teóricos de cada muestra y su estadístico t, mi indicador preferido para averiguar en qué medida es improbable que dichos beneficios surjan por casualidad. Estos resultados se muestran en la siguiente distribución. Las puntuaciones t positivas representan muestras rentables y las negativas representan pérdidas; cuanto mayor sea el número, más improbable será.

article-data-mining-2-in-article.jpg

Quienes estén familiarizados con la distribución normal (curva en forma de campana), la reconocerán como prueba de aleatoriedad. Es decir, el resultado de estas muestras de apuestas realizadas a ciegas está estrechamente relacionado con lo que esperaríamos que ocurriese si todo dependiese únicamente del azar.

En términos generales, resulta evidente que nada de lo que ocurre, o muy poco, es sistemático. Lo más probable es que esas temporadas rentables de la English League 2 se trataran de resultados afortunados descubiertos al juguetear con los datos y tropezar con algo que parecía un patrón rentable causado por un comportamiento sistemáticamente irracional de los apostantes o de la casa de apuestas.

Los beneficios de las cuotas “verdaderas” para las cinco temporadas consideradas en conjunto tendrían una puntuación t de +2,4, lo que supone una probabilidad aproximada de 1 entre 100 (valor p) de que ocurriese por azar. Desde un punto de vista estadístico, ese valor es significativo y si publicáramos un artículo académico sobre ello de manera aislada estaríamos incitados a considerarlo como algo real. Pero al analizar la situación en general sabemos casi con toda seguridad que no lo es, sino que se trata de pura suerte.

Si nos disponemos a elaborar un sistema de apuestas a través del dragado de datos hasta que encontremos criterios que sean rentables, nos arriesgamos a no poder establecer explicaciones causales para lo que descubramos.

De hecho, una muestra de la temporada 2007/08 de la English League 2 obtuvo todavía mejores resultados. Los 242 partidos para los que disponía de datos desde diciembre hasta mayo mostraron un beneficio teórico superior al 29 % (o del 35 % sin consideramos las cuotas “verdaderas”, una vez eliminado el margen). Si se debiera al azar, podría esperarse que un resultado así ocurriese aproximadamente una de cada mil veces. Fue el mejor resultado de las 1.686 muestras. 

En total, 837 de ellas, aproximadamente la mitad, fueron rentables con cuotas “verdaderas”, tal como se esperaba. En esta muestra de las muestras, normalmente esperaríamos que la mejor mostrara un valor p aproximado de 1 entre 1.686. Esperaríamos que aproximadamente 16 de las muestras (es decir, alrededor del 1 %) tuviesen valores p inferiores a 1 entre 100. Asimismo, esperaríamos que aproximadamente 168 de las muestras (es decir, alrededor del 10 %) tuviesen valores p inferiores a 1 entre 10. Cualquier resultado diferente podría hacer que nos preguntáramos, con razón, si alguna de ellas estaba influenciada por otro factor que no fuera la suerte.

De hecho, hubo 15 (0,9 %) y 158 (9,4 %) respectivamente, muy cercanas a la expectativa. El siguiente gráfico compara la expectativa teórica del porcentaje de muestras rentables con valores p inferiores a un límite concreto (1 entre 10 = 10 %, 1 entre 5 = 20 % y así sucesivamente) con el porcentaje real que se ha producido. La equivalencia casi perfecta resulta sorprendente.

Básicamente, el gráfico es otra forma de decir que casi todo lo que estamos analizando se ha producido debido única y exclusivamente al azar. Cierto, una probabilidad de 1 entre 1000 es impresionante, pero si tuviésemos más de 1.000 muestras entre las que elegir, no sería algo inesperado, y por consiguiente no se trata de una prueba fehaciente de algo causal. 

article-data-mining-1-in-article.jpg

¿Qué pueden aprender los apostantes de la minería y el dragado de datos?

Quizás no resulte sorprendente que la distribución de la probabilidad por división y temporada de fútbol sea aleatoria. Difícilmente sea la manera más sofisticada de elaborar un sistema de apuestas. Pero el dato significativo es este: si nos disponemos a elaborar un sistema de apuestas a través del dragado de datos hasta que encontremos criterios que sean rentables, nos arriesgamos a no poder establecer explicaciones causales para lo que descubramos. 

A menos que tengamos un motivo que explique por qué se produjo ese beneficio, puede que el sistema sea completamente inútil. La correlación sin causalidad es simplemente una regresión a la media. Para un apostante deportivo, eso significa perder dinero a largo plazo.

Podría decirse que no hay nada malo en aprovecharse de la suerte para obtener beneficios; después de todo, en eso consisten las apuestas. Sin embargo, al hacerlo no deberíamos engañarnos a nosotros mismos suponiendo que nuestro éxito es consecuencia de otra cosa.

Recursos para apostar: facultando sus apuestas

La sección Recursos para apostar de Pinnacle es una de las recopilaciones más exhaustivas de consejos expertos sobre apuestas que encontrará en Internet. Dirigida a todos los niveles de experiencia, nuestro objetivo consiste simplemente en facultar a los apostantes para que estén mejor informados.