gen 5, 2018
gen 5, 2018

Il problema del data mining nelle scommesse sportive

Cos'è il data mining e l'analisi senza ipotesi a priori?

Analisi della semplice strategia di scommettere contro i pareggi

Perché gli scommettitori devono osservare il comportamento di tutte le scimmie

Il problema del data mining nelle scommesse sportive

L'utilizzo di dati per una strategia di scommessa è una pratica comune. Tuttavia, per quanto possano sembrare sorprendenti i risultati, la parte importante è il processo che porta a produrre questo genere di risultati. Quali sono i problemi del data mining nelle scommesse sportive? Scoprilo continuando a leggere.

Negli ultimi mesi mi sono imbattuto in numerosi siti Web, blog e interventi su forum in cui utenti affermano di aver scoperto sistemi di scommesse redditizi con la semplice applicazione retroattiva di alcuni criteri apparentemente arbitrari a un grande insieme di risultati passati e quote per le scommesse.

In questo articolo analizzo le insidie che si nascondono nella ricerca di un vantaggio redditizio tramite il data mining; per uno scommettitore sportivo la correlazione senza causalità porta ad avere problemi.

Data mining e analisi senza ipotesi a priori

Il data mining è il processo di analisi di un grande insieme di dati per scoprire dei modelli e delle informazioni. In maniera più specifica il compito dell'analisi senza ipotesi a priori è l'utilizzo del data mining per scoprire dei modelli in quei dati che possono essere presentati come significativi da un punto di vista statistico.

Non possiamo modellare una spiegazione basandoci su un risultato poiché in questo caso non si considera la causalità.

Le scommesse sportive si prestano facilmente al data mining e all'analisi senza ipotesi a priori. Sono diversi i siti Web che rendono disponibili una grande quantità di risultati e quote delle partite di calcio allo scopo di fare ricerche e verificare in maniera retroattiva sistemi di scommesse proficui.

La maggior limitazione all'utilizzo di questo metodo come uno strumento di analisi dei dati, tuttavia, è che solitamente non si presentano ipotesi a priori che cercano di spiegare perché questi modelli possono essersi verificati.

Correlazione senza causalità

Ho già discusso delle insidie nascoste nel confondere la correlazione con la causalità, la precisione con l'esattezza e la validità. Affinché un sistema di scommesse sia valido e faccia quello che dovrebbe fare, innanzitutto, dobbiamo avere alcune idee sul quello che gli permette di essere efficace.

A meno che non si stabilisca la causalità su cui poggia la correlazione, non si avrà idea di quello che ne causa la rottura, la correlazione senza causalità non ha alcun senso.

Valore nascosto nella League Two inglese di calcio?

Nel mio feed di Twitter qualche settimana fa ho concentrato la mia attenzione sui sorprendenti profitti che si sarebbero potuti avere scommettendo alla cieca su tutte le vittorie in trasferta nel campionato League 2 inglese dal 2012/13 al 2016/17, vale a dire quasi 3.000 scommesse, con un profitto del 4,3% con le quote di chiusura di Pinnacle e quasi del 10% con le migliori quote offerte dal mercato.

Con le quote di chiusura di Pinnacle solamente in una stagione si è registrata una perdita di lieve entità. Ecco una rappresentazione della tabella dei profitti.

article-data-mining-3-in-article.jpg

L'idea è che il mercato sottovalutava le squadre che giocavano in trasferta in questo campionato e quindi le quote erano più alte del dovuto. Non si tratta di un'anomalia di breve durata, tuttavia, sembrerebbe essere un errore continuo e sistematico nel modo in cui gli scommettitori sottovalutano le probabilità di una vittoria in trasferta nel campionato League 2 inglese, ben oltre i limiti del margine di profitto imposto dal bookmaker. Ma possiamo pensare veramente che ci sia qualcosa di causale in quello che abbiamo scoperto?

Scommettere contro i pareggi: sembra semplice

Un'altra strategia che ho visto pubblicata recentemente è la Backing the Draw (scommettere contro i pareggi) Si dice che abbia avuto un profitto di quasi il 16% sul volume giocato in 2.500 scommesse quando è stata testata in maniera retroattiva sui risultati di calcio e le quote partita di Pinnacle fino al 2012.

I criteri di selezione sono semplici: nessuna delle due squadre deve aver pareggiato nelle ultime tre giornate e le quote devono essere comprese tra 3,20 e 3,56. Verificando la valenza statistica di questo profitto si nota che i dati sono davvero eccezionali. Potremmo aspettarci che possa avvenire un tale livello di profittabilità da quelle quote solamente una volta su un milione o anche meno, dando per scontato che il modello sia assolutamente casuale.

Qualcuno potrebbe chiedersi perché sono stati scelti questi criteri particolari. Perché non usare dati di quattro, cinque o sei partite? Perché non giocare su quote da 3,07 a 3,41 o da 3,13 a 3,72? Ovviamente, questi criteri non sono, quasi certamente, stati scelti prima di estrarre i dati; sono quelli che hanno prodotto il risultato redditizio. E non possiamo modellare una spiegazione basandoci su un risultato poiché in questo caso non si considera la causalità.

A meno che non si stabilisca la causalità su cui poggia la correlazione non si avrà idea di quello che causa la rottura della correlazione.

A difesa di questa strategia si potrebbe dire: "Uno su un milione: di certo significa che non può essere qualcosa di casuale, giusto?" Vero. Tuttavia, se abbiamo milioni di strategie da verificare e ne troviamo una significativa dal punto di vista statistico, come in questo caso, cosa possiamo dedurne? Come racconta Nassim Taleb, in Fooled by Randomness, riguardo al voler provare a far ricreare il poema di Omero ad alcune scimmie con una macchina da scrivere:

“Se prendessimo cinque scimmie sarei piuttosto colpito se una di loro scrivesse l'Iliade, al punto da sospettare che sia la reincarnazione del poeta classico. Mentre se ci fosse un campione di un miliardo elevato a un miliardo di scimmie sarei meno impressionato...”

Come dice Taleb non sono molte le persone che si mettono a guardare il comportamento di tutte le scimmie e nel caso lo facessero quasi nessuna creerebbe modelli di cui vale la pena parlare. La Survivorship bias garantisce che le nostre attenzioni si concentrino solamente sui vincitori.

Perché gli scommettitori devono osservare il comportamento di tutte le scimmie

Se non proponiamo ipotesi a priori prima di utilizzare i nostri dati alla ricerca di modelli redditizi, quello che facciamo non è altro che testare un gran numero di sistemi di scommessa per vedere con che frequenza troviamo una rilevanza statistica. La mia risposta in questa discussione sul mio feed di Twitter è stata: "Tracciamo la distribuzione dei profitti di 10.000 campioni di scommesse alla cieca selezionate secondo 10.000 diversi criteri e vediamo che cosa ne ricaviamo".

Non sono stato in grado di trovare un campione di 10.000 scommesse alla cieca di dimensioni adatte, avrei dovuto usare troppi dati, ma piuttosto 1.686 con 100 o più scommesse. Ogni campione rappresenta una stagione di scommesse alla cieca su un particolare risultato, vittorie in casa o in trasferta, pareggio, per un singolo campionato in una stagione.

Avendo tolto il margine di profitto di Pinnacle per calcolare le quote "reali" di ogni risultato, ho calcolato i profitti teorici per ogni campione e le loro statistiche-t, la mia misura preferita per vedere quanto sia improbabile che un profitto possa avvenire per caso. Ecco quello che ha mostrato la distribuzione. I punteggi-t positivi rappresentano i campioni redditizi, quelli negativi sono in perdita, più grande è il numero e più è improbabile.

article-data-mining-2-in-article.jpg

Chi ha familiarità con la distribuzione normale (curva a forma di campana) riconoscerà il grafico come un segno di casualità. Questo vuol dire che le prestazioni di questi campioni di scommesse alla cieca corrispondono molto a quello che potremmo aspettarci che succeda se tutto fosse soggetto solamente al caso.

Se si considerano nel loro insieme c'è poco o nulla che accade in maniera sistematica. Queste stagioni redditizie in League 2 sono molto probabilmente frutto della fortuna e sono state scoperte utilizzando in maniera erronea i dati e imbattendosi in qualcosa che poteva sembrare un modello proficuo causato da scommettitori sistematicamente irrazionali o dal comportamento del bookmaker.

Il profitto con le quote "reali" nelle cinque stagioni messe assieme avrebbe un punteggio-t di +2,4, questo implica che c'è una possibilità su 100 (valore-p) che possa accadere per caso. Statisticamente questo è un dato significativo e se dovessimo pubblicare un articolo accademico soltanto su questo dato saremmo spinti a definirlo come qualcosa di reale. Ma sappiamo che, grazie all'analisi di un insieme di dati più grande, quasi certamente non è il caso, si tratta semplicemente di fortuna.

Se fossimo motivati a creare un sistema per le scommesse tramite l'utilizzo dei dati fino a quando non troviamo criteri redditizi, rischieremmo di non riuscire a stabilire spiegazioni causali riguardo a quello che abbiamo trovato.

Se si prende come campione la stagione 2007/08 di League 2 inglese i dati sono migliori. Le 242 partite per cui ho trovato dati da dicembre a maggio mostrano un profitto teorico di oltre il 29% (o il 35% con quote "reali" in cui è stato rimosso il margine). Una prestazione del genere la si può avere per caso una volta su mille. Questa è la migliore prestazione dei 1.686 campioni. 

In totale, 837, quasi la metà, dei campioni sono risultati redditizi con quote "reali", proprio come avevamo previsto. In questo campione dei campioni, naturalmente, ci aspetteremmo che il migliore mostri un valore-p di circa 1 su 1686. Ci aspetteremmo che circa 16 campioni (o l'1%) avesse un valore-p inferiore a 1 su 100. Analogamente ci aspetteremmo che circa 168 campioni (o il 10%) avesse un valore-p inferiore a 1 su 10. Nel caso in cui i dati fossero diversi, potremmo chiederci se qualcuno possa essere stato influenzato da fattori che non siano attribuibili alla fortuna.

Infatti, abbiamo trovato rispettivamente 15 (0,9%) e 158 (9,4%) dei casi, molto vicino alle aspettative. La seguente tabella mette a confronto le aspettative teoriche delle percentuali dei campioni redditizi con i valori-p inferiori a un particolare limite (1 su 10= 10%, 1 su 5= 20% e così via) con le reali percentuali. L'equivalenza quasi perfetta è sorprendente.

In sostanza, la tabella è un altro modo per dire che quasi tutte le cose che osserviamo hanno origine solo e unicamente come frutto del caso. È vero che una profittabilità di 1 su 1000 è impressionante, ma se abbiamo oltre 1.000 campioni tra cui scegliere, non è qualcosa di imprevedibile e quindi non ci sono prove evidenti che sia qualcosa di causale. 

article-data-mining-1-in-article.jpg

Cosa possono imparare gli scommettitori dal data mining e dall'analisi senza ipotesi a priori?

Forse non è così sorprendente che la distribuzione di profittabilità derivata dai campionati di calcio stagionali sia casuale. È difficile che sia il metodo più sofisticato per creare un sistema di scommesse. Ma la cosa più significativa è che se fossimo motivati a creare un sistema per le scommesse tramite l'utilizzo dei dati fino a quando non troviamo criteri redditizi, rischieremmo di non riuscire a stabilire spiegazioni causali riguardo a quello che abbiamo trovato. 

Se non abbiamo una ragione per spiegare perché si è verificato un determinato profitto potrebbe trattarsi solo di carta straccia. La correlazione senza la causalità regredisce verso la media. Per uno scommettitore sportivo questo significa perdere denaro sul lungo termine.

Si può dire che non ci sia nulla di sbagliato nello sfruttare la fortuna per ottenere un profitto, dopotutto questo è quello su cui si basano le scommesse. Tuttavia, quando lo facciamo non dobbiamo illuderci pensando che i nostri successi siano una conseguenza di qualcos'altro.

Risorse per le scommesse - Migliora le tue scommesse

La sezione Risorse per le scommesse di Pinnacle è una delle raccolte disponibili online più complete di consigli di esperti sulle scommesse. Organizzata per tutti i livelli di esperienza, il nostro obiettivo è semplicemente quello di permettere agli scommettitori di diventare più esperti.