nov 2, 2015
nov 2, 2015

Slik løser du problemet med begrensede datasett ved simulering

Slik løser du problemet med begrensede datasett ved simulering
Hva gjør du helt i starten av sesongen, når det ikke finnes nok data til å trekke pålitelige slutninger? I denne artikkelen forklarer Dominic hvordan du kan bruke simuleringer til å minimere effektene av parameterfeil grunnet for små utvalg, med to eksempler.

En viktig metode for å beregne forventede kamputfall for fotball er Poisson-fordelingen, som vi har forklart i en annen Pinnacle-artikkel. Finn ut hvordan du bruker Poisson-fordelingen til å forutsi vinnere i fotball her.

Metoden beregner forventet målgjennomsnitt for hjemmelaget basert på egenskapene til angrepsspillerne deres og forsvarsspillerne til bortelaget.  Den gir også et forventet målgjennomsnitt for bortelaget.

Men i starten av sesongen kan det være vanskelig å bruke denne metoden, da det ikke har blitt spilt nok kamper til å gi grunnlag for beregningen. Og hvis det blir spilt en ekstrem kamp, f.eks. en kamp med uvanlig mange mål, eller en serie kamper uten mål, har dette stor effekt på beregningene.

Det vil gi store avvik i parametrene. Du finner mer informasjon om hvordan du lager en modell for sportsveddemål her.

Simulering er en mulig metode for å redusere mengden parameterfeil. I praksis betyr det at vi simulerer utvalg for å få større datagrunnlag.

I skrivende stund har de fleste lag i Premier League spilt mindre enn 5 bortekamper og 5 hjemmekamper hver.

Jeg kan anbefale to metoder som eksempel.

Metode 1: den enkle metoden

Denne metoden dreier seg om å utvide utvalgsstørrelsen med simuleringer, altså å lage lignende utvalg ved å kunne velge samme verdi mer enn én gang.

Hvis vi bruker Leicester Citys hjemmekamper som eksempel: til dags dato har de skåret 3, 2, 2 og 1 mot henholdsvis Aston Villa, West Ham, Arsenal og Crystal Palace. I dette utvalget har hjemmelaget 2 mål per kamp i gjennomsnitt. 

Så lager vi et nytt simulert utvalg med fire kampresultater basert på disse verdiene. Denne metoden minner om det vi gjør når vi oppretter tilfeldige verdier med Monte Carlo-simuleringen. De ekstra utvalgene kan derfor være:

  •       Utvalg 1: 2,2,2,1
  •       Utvalg 2: 1,1,3,2
  •       Utvalg 3: 3,3,2,2
  •       Utvalg 4: 1,2,1,1

Vær oppmerksom på at det skal være dobbelt så stor sjanse for å trekke ut 2 mål som 1 eller 3 mål i hver runde. Vi kan også ha forskjellig gjennomsnitt hver gang, snittet er ikke alltid 2.

I dette eksempelet er snittet per utvalg henholdsvis 1,75, 1,75, 2,5 og 1,25. Vi tror at snittet er 2, men verdiene viser at det ligger mellom 1,25 og 2,5.

Vi kan også videreføre dette ved å beregne et stort antall forskjellige simulerte utvalg og finnestandardavviket til resultatene.

Metode 2: fristil

For kampene til Leicester kunne vi ha generert et «forventet resultat». Vi beregner dette på samme måte som med Poisson-metoden, men med data fra forrige sesong.

Vi kan for eksempel gå gjennom kampene mot Aston Villa. Gjennomsnittlig antall mål skåret i hjemmekamper i 2014/15  i Premier League var 1,474. Leicester skåret 28 mål på 19 hjemmekamper mens Aston Villa kun slapp inn 32 på 19 bortekamper.

Det betyr at Leicesters «angrepsstyrke» var 1, altså gjennomsnittet for et hjemmelag. Aston Villa slapp på sin side inn 1,684 mål i snitt.

Hvis vi deler dette på 1,474, får vi 114,29, altså slapp Aston Villa inn 14 % flere mål enn gjennomsnittet når de spilte bortekamper. Basert på det kan man forvente at Leicester skårer 1*1,1429*1,474 = 1,684 mål i en hjemmekamp mot Aston Villa. 

Tabellen nedenfor viser forventet antall skårede mål per kamp, beregnet ved å gjenta prosessen ovenfor for alle kampene deres. Her ser vi at Leicester har skåret flere mål enn forventet i alle kampene, bortsett fra da de spilte mot Crystal Palace.

Dette vises i raden Differanse.

Lag Aston Villa West Ham Arsenal Crystal Palace
Forventet antall mål 1,684 1,526 1,158 1,263
Faktiske mål 3 2 2 1
Differanse 1,316 0,474 0,842 -0,263

Slik bruker vi en tilsvarende metode som tidligere til å lage et større utvalg ved å bruke differansene. Dermed får vi noen mulige simulerte differanser:

  •       Utvalg 1: 1,316, 1,316, 0,474, 0,474
  •       Utvalg 2: 0,474, -0,263, -0,263, 0,474

Så legger vi til disse simulerte differansene til de forventede resultatene, for å få større datasett.

  •       Utvalg 1: 3,000, 2,842, 1,632, 1,737
  •       Utvalg 2: 2,158, 1,263, 0,895, 1,737

Det skal beregnes gjennomsnitt for alle utvalgene. Dette kan vi bruke til å beregne gjennomsnittlig antall mål som hjemmelaget skårer basert på forskjellige parametre.

Konklusjon

Dette er ikke akkurat en lynrask beregning, men det krever ikke avansert kunnskap i matematikk. Man kan lage et regneark og teste forskjellige mulige parametre. Men husk at hvis du velger denne andre metoden, må du også analysere differansene for de forventede skåringene til bortelaget. 

strategy-openaccount.jpg

Tipperessurser – Bli en bedre spiller

Pinnacles Tipperessurser er en av nettets mest omfattende samlinger av ekspertråd for tipping. Passer for alle erfaringsnivåer, og formålet er ganske enkelt å gi kundene våre støtten de trenger for å bli bedre spillere.