close
jan 5, 2018
jan 5, 2018

Problemet med datautvinning innen sportstipping

Hva er datautvinning og datatråling?

En analyse av strategien å satse på uavgjort

Hvorfor tippespillere må "telle apene"

Problemet med datautvinning innen sportstipping

Det er vanlig praksis å bruke data som del av en tippestrategi. Men til tross for at noen av resultatene kan imponere, er det prosessen man bruker for å få dem, som er viktig. Hva er problemene med datautvinning innen sportstipping? Les videre for å finne det ut.

I løpet av de siste månedene har jeg funnet en rekke nettsider, blogger og foruminnlegg der noen hevder at de har funnet lønnsomme tippesystemer bare ved å ta i bruk, retrospektivt, et par tilsynelatende tilfeldige utvalgskriterier på et stort sett med historiske resultater og odds.

I denne artikkelen ser jeg på fallgruvene ved det å bruke datautvinning til å søke etter lønnsomme fordeler: I sportstipping kan man gå på en smell hvis man bare ser på korrelasjon og glemmer årsakssammenhengen.

Datautvinning og datatråling

Datautvinning er en prosess der man analyserer store datasett for å finne mønstre og nyttig informasjon. Datatråling er det å bruke datautvinning til å finne mønstre i disse dataene som kan presenteres som statistisk signifikante.

Man kan ikke retrospektivt tildele en forklaring etter resultatet, dette er nemlig å snu årsakssammenhengen på hodet.

Sportstipping er et område der det er lett å bruke datautvinning og datatråling. Det finnes mange nettsteder som publiserer store mengder resultat- og oddshistorikk for fotball. Disse dataene kan brukes som database for å teste lønnsomme tippesystemer.

Det største problemet med å bruke dette som verktøy for dataanalyse er at det vanligvis ikke lages hypoteser på forhånd som skal forklare hvorfor disse mønstrene har oppstått.

Korrelasjon uten årsakssammenheng 

Jeg har tidligere diskutert fallgruvene ved å blande sammen korrelasjon med årsakssammenheng, samt presisjon med nøyaktighet og validitet. For at et tippesystem skal fungere og virkelig få til det det er meningen at det skal gjøre, må man vite hvorfor det er vellykket til å begynne med.

Med mindre du klarer å finne årsakssammenhengen som korrelasjonen skal være basert på, vil du ikke kunne vite hva som får korrelasjonen til å bryte sammen. Korrelasjon er meningsløst uten årsakssammenheng.

Skjulte verdier i engelsk League Two-fotball?

For noen uker siden leste jeg i Twitter-feeden min hvor bra fortjeneste man kunne ha fått ved å satse blindt på alle borteseire i den engelske League 2 fra 2012/13 til og med 2016/17 – nesten 3000 spill til sammen – med 4,3 % fortjeneste basert på sluttoddsen til Pinnacle og nesten 10 % fra de beste prisene i markedet.

Det var bare i én av disse sesongene at det gikk dårligere enn sluttprisene til Pinnacle, og marginen var ikke stor. Fortjenestediagrammet ser slik ut:

article-data-mining-3-in-article.jpg

Det ble foreslått at markedet undervurderte bortelagene i denne divisjonen, altså at de var overpriset. Dette er likevel ikke noe kortvarig avvik, det virker faktisk som om det er en konsistent og systematisk feil i hvordan tippespillere vurderer sannsynligheten for borteseire i den engelske League 2, langt over grensene for bookmakerens fortjenestemargin. Men kan man egentlig tro at det finnes årsakssammenheng i det man ser her?

Satse på uavgjort: Det høres lett ut

En annen strategi jeg har lest om i det siste er å satse på uavgjort. Det hevdes at denne strategien ga 16 % fortjeneste fra over 2500 spill, basert på testing av fotballstatistikk for resultater og Pinnacle-tippeodds siden 2012.

Utvalget er basert på enkle kriterier: Ingen av lagene kan ha spilt uavgjort de siste tre kampene og oddsen må være mellom 3,20 og 3,56. Hvis man tester den statistiske signifikansen til denne fortjenesten, ser man at den virkelig er eksepsjonell. Man kan forvente at det vil oppstå en så god fortjeneste fra disse oddsene bare én av én million ganger, hvis man antar at mønsteret bare er tilfeldig.

Det er kanskje lurt å spørre hvordan disse kriteriene ble valgt ut. Hvorfor ikke de siste fire, fem eller seks kampene? Hvorfor ikke oddsene 3,07 til 3,41, eller 3,13 til 3,72? Svaret er selvsagt at disse kriteriene nesten garantert ikke ble valgt før dataene ble utvunnet, man fant rett og slett bare ut etterpå at de var så lønnsomme som de er. Man kan ikke retrospektivt tildele en forklaring etter resultatet, dette er nemlig å snu årsakssammenhengen på hodet.

Med mindre du klarer å finne årsakssammenhengen som korrelasjonen skal være basert på, vil du ikke kunne vite hva som får korrelasjonen til å bryte sammen.

For å forsvare denne strategien kan man kanskje påstå at "én av én million, det kan jo ikke være tilfeldig, eller hva?" Joda, det stemmer. Hvis man derimot har én million strategier som skal testes og finner ut at én av dem er så statistisk signifikant som dette, hvilke slutninger kan man da trekke basert på det? Som Nassim Taleb sier i boken Fooled by Randomness, der han tar opp teorien om at aper på skrivemaskin før eller senere vil skrive Homers Iliaden:

"Hvis det var fem aper med i eksperimentet, ville jeg blitt ganske imponert over den som endte opp med å skrive Iliaden. Jeg ville faktisk lurt på om det var en reinkarnasjon av den gamle dikteren. Hvis antallet aper var en milliard opphøyd i en milliard, ville jeg ikke blitt fullt så imponert."

Som Taleb påpeker er det mange som ikke gidder å telle alle apene, og hvis man ser på alle, ser man at omtrent ingen av dem viser mønstre som det er verdt å bry seg om. Overlevelsesbias gjør at man bare får se vinnerne.

Hvorfor tippespillere må "telle apene"

Hvis man ikke fremmer hypoteser på forhånd før man fisker etter lønnsomme mønstre i dataene, bør man heller teste mange tippesystemer for å se hvor ofte man finner statistisk signifikans. Som jeg svarte på diskusjonen om dette på Twitter: "La oss plotte inn fordelingen av resultater fra 10 000 utvalg av "blinde" spill, valgt ut basert på 10 000 forskjellige kriterier, og se hvordan dette ser ut."

Dessverre fant jeg ikke 10 000 utvalg av "blinde" spill av riktig størrelse – det ville vært enormt mye data – men endte opp med 1686 utvalg med minst 100 spill i hvert utvalg. Hvert utvalg var én hel sesong med blind tipping på et spesifik resultat, enten hjemmeseier, borteseier eller uavgjort, for én enkelt fotballiga over én enkelt sesong.

Først trakk jeg fra fortjenestemarginen til Pinnacle for å beregne de sanne prisene for hvert resultat. Deretter beregnet jeg den teoretiske fortjenesten for hvert utvalg, samt t-resultatet, min foretrukne måte å beregne hvor sannsynlig det er at fortjenesten kan oppstå tilfeldig. Disse er plottet inn i fordelingen under. Positive t-resultater angir lønnsomme utvalg, negative t-resultater angir tap. Jo større tallet er, desto mindre sannsynlig er det.

article-data-mining-2-in-article.jpg

De av dere som kjenner til normalfordelingen (en bjelleformet kurve) vet at dette er et tegn på tilfeldighet. Det betyr altså at resultatene fra disse prøvene passer godt sammen med det man hadde forventet å finne hvis alt sammen kun skyldtes tilfeldighet.

Helhetlig sett virker det ikke som det finnes noen systematisk effekt her i det hele tatt. De lønnsomme sesongene i den engelske League 2 var sannsynligvis bare tilfeldige, gode resultater som ble funnet ved at man trålet rundt i dataene til man fant noe som så ut som et lønnsomt mønster som oppsto fordi tippespillerne eller bookmakerne utviste systematisk, irrasjonell adferd.

De sanne oddsene for de fem sesongene sammenlagt ville hatt +2,4 i t-score, noe som antyder at sannsynligheten (s-verdien) for at dette skyldtes flaks er omtrent 1 til 100. Dette er statistisk signifikant, så hvis man hadde jobbet med en akademisk artikkel om kun denne saken, ville det vært fristende å tro at det var genuine resultater. Dessverre vet vi, etter å ha analysert helhetsbildet, at dette er lite sannsynlig, det er rett og slett ren flaks.

Hvis man prøver å finne et tippesystem ved å tråle seg frem til man finner lønnsomme kriterier, risikerer man faktisk at man ikke finner den reelle årsaken til de resultatene man sitter igjen med.

Det var faktisk et utvalg fra 2007/08-sesongen av League 2 som hadde enda bedre resultater. For de 242 kampene jeg har data på, fra desember til og med mai, var den teoretiske fortjenesten på over 29 % (eller 35 % hvis man ser på de sanne oddsene, ekskludert marginen). Man kan forvente å se at denne typen resultater oppstår ved en tilfeldighet omtrent 1 av 1000 ganger. Det var de beste resultatene av alle de 1686 utvalgene. 

Totalt sett var 837 av dem, altså omtrent halvparten, lønnsomme basert på sanne odds, akkurat som forventet. I et datasett med så mange utvalg er det naturlig å forvente at det beste av dem har en s-verdi på omtrent 1 til 1686 Sannsynligvis vil omtrent 16 av utvalgene (altså omtrent 1 %) ha s-verdier som er lavere enn 1 til 100. Man kan også forvente at omtrent 168 av utvalgene (altså omtrent 10 %) har s-verdier som er lavere enn 1 til 10. Hvis man finner andre resultater enn dette, er det naturlig å tro at det er noe annet enn flaks som har skylden.

De faktiske resultatene var henholdsvis 15 (0,9 %) og 158 (9,4 %), ganske nærme hva vi forventet. Diagrammet under sammenligner teoretisk forventning for prosentandelen lønnsomme utvalg som har s-verdier under en viss terskel (1 til 10 = 10 %, 1 til 5 = 20 % og så videre), med den faktiske prosentverdien som oppstår. Det er nesten utrolig hvor like resultatene er.

For å si det enkelt, så viser dette diagrammet at nesten alt vi ser av resultater kun skyldes flaks og ingenting annet. Joda, det er imponerende med lønnsomhet på 1 til 1000-nivå, men når vi finner dette blant 1000 utvalg, er det ikke uventet i det hele tatt og derfor heller ikke tydelig bevis på at det finnes årsakssammenheng. 

article-data-mining-1-in-article.jpg

Hva kan tippespillere lære om datautvinning og datatråling?

Det er kanskje ikke så overraskende at lønnsomheten i fotball, basert på sesong og divisjon, er tilfeldig fordelt. Dette er ikke akkurat det mest sofistikerte tippesystemet. Men det som er viktig her, er at hvis man prøver å finne et tippesystem ved å tråle seg frem helt til man finner lønnsomme kriterier, risikerer man faktisk at man ikke finner den reelle årsaken til de resultatene man sitter igjen med. 

Med mindre vi vet hvorfor denne fortjenesten oppsto, kan det like godt være ren tilfeldighet. Korrelasjon uten årsakssammenheng vil alltid vise regresjon til middelverdien. For en sportstippespiller innebærer dette at man taper penger på lang sikt.

Man kan kanskje hevde at det ikke er noe i veien for å vinne basert på flaks, det er tross alt det tipping handler om. Men hvis dette er tilfellet, bør vi ikke lure oss selv ved å anta at suksessen skyldes noe annet enn nettopp flaks.

Tipperessurser – Bli en bedre spiller

Pinnacles Tipperessurser er en av nettets mest omfattende samlinger av ekspertråd for tipping. Passer for alle erfaringsnivåer, og formålet er ganske enkelt å gi kundene våre støtten de trenger for å bli bedre spillere.