Come usare il bootstrap in caso di dati limitati

Come usare il bootstrap in caso di dati limitati
Cosa fare se ci troviamo all'inizio della stagione e non ci sono ancora dati sufficienti a trarre conclusioni affidabili? In questo articolo Dominic spiega con due esempi come usare il bootstrap per minimizzare gli effetti di un qualsiasi errore parametrico dovuto a campioni di dimensioni ridotte.

Un metodo fondamentale per ricavare le attese per un incontro di football è usare la distribuzione di Poisson, come descrito in un articolo precedente. Scoprite di più su come prevedere una scommessa vincente sul calcio usando la distribuzione di Poisson qui.

In pratica, il sistema assegna alla squadra in casa una media prevista di reti sulla base del suo attacco e delle capacità difensive della squadra ospite.  Inoltre, assegna una media prevista di reti anche alla squadra in trasferta.

A inizio stagione, però, avremo dei problemi nell'usare questo metodo, dal momento che non disponiamo di sufficienti partite da prendere come campione. Inoltre, nel caso in cui si presenti un evento "estremo" (come una partita con molte reti o una serie di partite a reti inviolate), questo influenzerebbe molto i nostri calcoli.

Incorreremmo quindi in un enorme errore parametrico. Potete trovare altre informazioni su come costruire un modello per le scommesse sportive qui.

Un metodo per misurare la grandezza di un errore parametrico è usare tecniche di bootstrap. Il boostrap si riferisce a una soluzione in cui possiamo inventare le misure campione.

Nel momento in cui sto scrivendo questo articolo, la maggior parte delle squadre di Premier League ha giocato ciascuna meno di 5 partite in casa e 5 in trasferta.

Come esempio, consiglio due metodi.

Metodo 1: L'approccio diretto

Questo metodo prevede la creazione di un campione con sostituzione, ovvero creare campioni di dimensioni simili potendo scegliere lo stesso valore più di una volta.

Prendendo per esempio le partite in casa del Leicester City, fino ad ora hanno segnato 3, 2, 2 e 1 rete rispettivamente contro Aston Villa, West Ham, Arsenal e Crystal Palace. Questo campione comunica una media di 2 reti a partita. 

Ora proviamo a creare un altro campione casuale di quattro reti usando questi valori. Questo metodo è simile alla creazione di valori casuali per la simulazione Monte Carlo. Le serie extra di campioni potrebbero quindi essere:

  •       Campione 1: 2,2,2,1
  •       Campione 2: 1,1,3,2
  •       Campione 3: 3,3,2,2
  •       Campione 4: 1,2,1,1

Possiamo notare che i due goal hanno il doppio di possibilità di essere estratti ad ogni estrazione rispetto a uno o tre goal, e che potremmo avere una media differente in ciascun caso: non è sempre necessariamente due.

In questo caso, la media per campione è rispettivamente 1,75, 1,75, 2,5 e 1,25. Noi pensiamo che la media sia 2, ma i nostri valori mostrano che può andare da 1,25 a 2.5.

Possiamo anche ampliare calcolando un numero significativo di campioni di bootstrap diversi e quindi osservare la deviazione standard dei risultati.

Metodo 2: Il caos

Per le partite del Leicester avremmo potuto generare un "punteggio previsto". Questo può essere generato proprio come il metodo di Poisson, ma usando i dati della stagione precedente.

Prendiamo per esempio l'incontro con l'Aston Villa. La media di reti segnate in casa nella stagione 2014/15  di Premier League era 1,474. Il Leicester ha segnato 28 goal in 19 partite in casa, mentre l'Aston Villa ne ha subiti 32 in 19 partite in trasferta.

Ciò significa che la "Potenza offensiva" del Leicester è 1, proprio come una qualsiasi squadra in casa. L'Aston Villa, invece, hasubito una media di 1,684 reti.

Dividendo questo valore per 1,474, otteniamo 114,29%: ciò significa che l'Aston Villa ha subito il 14% di reti in più di una normale squadra che gioca in trasferta. Quindi, ci si può aspettare che il Leicester segni una media di  1 x 1,1429 x 1,474 = 1,684 reti in casa contro l'Aston Villa. 

Ripetendo lo stesso processo per tutti i loro incontri, otteniamo il numero previsto di reti segnate per partita che vediamo nella tabella qui sotto. Vediamo che il Leicester ha superato le aspettative segnando più reti del previsto, tranne che contro il Crystal Palace.

Queste sono mostrate nella fila Differenza, che in termini tecnici chiameremo residuo.

Squadra Aston Villa West Ham Arsenal Crystal Palace
Reti previste 1,684 1,526 1,158 1,263
Reti effettive 3 2 2 1
Differenza 1,316 0,474 0,842 -0,263

Similmente al metodo 1, ora abbiamo un campione con sostituzione per alcuni residui. Alcuni possibili campioni con residui sono:

  •       Campione 1: 1,316, 1,316, 0,474, 0,474
  •       Campione 2: 0,474, -0,263, -0,263, 0,474

Ora aggiungiamo questi campioni con residui ai punteggi previsti per avere altri campioni di reti in casa:

  •       Campione 1: 3,000, 2,842, 1,632, 1,737
  •       Campione 2: 2,158, 1,263, 0,895, 1,737

Ogni campione avrà la sua media e potremo usarlo per calcolare il numero medio di reti segnate dalla squadra in casa sotto differenti parametri.

Conclusioni

Questo tipo di calcolo non è sicuramente elementare, ma non necessita di conoscenze di programmazione approfondite. Basta creare un foglio di calcolo e testare una gamma di possibili parametri. Ricordate però che dovrete anche analizzare i residui per il numero previsto di reti segnate dalla squadra in trasferta, se sceglieste di usare il secondo metodo descritto. 

strategy-openaccount.jpg

Risorse per le scommesse - Migliora le tue scommesse

La sezione Risorse per le scommesse di Pinnacle è una delle raccolte disponibili online più complete di consigli di esperti sulle scommesse. Organizzata per tutti i livelli di esperienza, il nostro obiettivo è semplicemente quello di permettere agli scommettitori di diventare più esperti.