jan 5, 2018
jan 5, 2018

Problemet med datautvinning inom sportodds

Vad är datautvinning och -muddring?

Analys av den enkla strategin att spela på kryss

Varför man måste "räkna aporna"

Problemet med datautvinning inom sportodds

Det är mycket vanligt att använda data som en del av en spelstrategi. Men oavsett hur imponerande vissa resultat kan verka är det avgörande att ta reda på hur resultaten uppstod. Vilka är problemen med datautvinning inom sportodds? Läs vidare för att få reda på det.

Under de senaste månaderna har jag stött på ett stort antal webbplatser, bloggar och foruminlägg som hävdar att de har upptäckt lönsamma spelsystem bara genom att retroaktivt tillämpa ett antal till synes godtyckliga urvalskriterier på en stor datamängd bestående av tidigare resultat och odds.

I den här artikeln undersöker jag vanliga misstag i jakten på lönsamhet via datautvinning; om man förlitar sig på korrelation utan kausalitet är man ute på hal is.

Datautvinning och -muddring

Datautvinning går ut på att analysera stora mängder data i hopp om att identifiera mönster och information. Mer specifikt handlar datamuddring om att använda datautvinning för att hitta mönster som förefaller vara statistiskt signifikanta.

Man kan inte retroaktivt tillämpa en förklaring på ett utfall eftersom det skulle vända bak och fram på orsak och verkan.

Sportodds lämpar sig väl för datautvinning och -muddring. På flera webbplatser finns det stora volymer av historiska fotbollsresultat och odds som man retroaktivt kan genomsöka och testa potentiellt lönsamma spelsystem på.

Det främsta hindret för att använda detta som ett dataanalysverktyg är emellertid att det oftast inte framläggs några apriori-hypoteser om varför dessa mönster kan ha inträffat.

Korrelation utan kausalitet 

Jag har tidigare gått igenom misstaget att förväxla korrelation med kausalitet, precision med träffsäkerhet och validitet. För att ett spelsystem ska vara giltigt och verkligen sköta sin uppgift måste man ha en uppfattning om vad som ligger bakom spelsystemets framgång.

Om man inte fastställer kausaliteten bakom korrelationen har man ingen aning om vad som kan få korrelation att bryta samman – korrelation utan kausalitet är helt enkelt meningslös.

Dolt värde i engelsk League Two-fotboll?

När jag gick igenom mitt Twitter-flöde för några veckor sedan la jag märke till en enastående avkastning som man kunde ha realiserat genom att blint satsa på alla bortasegrar i engelska League Two under säsongerna 2012/13 till 2016/17. Dessa närmare 3 000 odds avvek 4,3 % från Pinnacles stängningsodds och nästan 10 % från marknadens bästa odds.

Under bara en av dessa fem säsonger hade man gått med förlust om man spelat på Pinnacles stängningsodds, och den förlusten var liten. Vinstdiagrammet ser ut så här.

article-data-mining-3-in-article.jpg

Detta gav vid handen att marknaden undervärderade bortalagen i League Two, det vill säga att oddsen för bortasegrar var för höga. Detta var ingen kortvarig avvikelse. Snarare verkar det ha varit ett konsekvent och systematiskt fel i det sätt som spelarna hade uppskattat sannolikheten för bortasegrar i engelska League Two långt bortom gränserna för spelbolagets vinstmarginal. Men finns det verkligen någon kausalitet bakom detta?

Att spela på kryss – det låter så enkelt

En annan strategi jag sett nyligen går ut på att spela på kryss. Strategin påstås ha gett nära 16 % avkastning på 2 500 spel när den testades retroaktivt på tidigare fotbollsresultat och Pinnacles matchodds med start 2012.

Urvalskriterierna är enkla: inget av lagen bör ha spelat oavgjort i de tre föregående matcherna och oddsen bör ligga i intervallet 3,20 till 3,56. Den statistiska signifikansen för denna avkastning är enastående. Om slumpen styrde skulle en sådan avkastning bara inträffa en gång på miljonen eller ännu mer sällan.

Du kanske undrar varför just dessa kriterier har valts. Varför inte de tidigare fyra, fem eller sex matcherna? Varför inte odds mellan 3,07 och 3,41 eller 3,13 och 3,72? Dessa kriterier valdes sannolikt först efter att datan utvunnits. Det var helt enkelt dessa kriterier som visade sig producera det allra lönsammaste resultatet. Och man kan inte retroaktivt tillämpa en förklaring på ett utfall eftersom det skulle vända bak och fram på orsak och verkan.

Om man inte fastställer kausaliteten bakom korrelationen har man ingen aning om vad som kan få korrelation att bryta samman.

Men om det lönsamma resultatet bara skulle inträffa en gång på miljonen, tyder det på att det inte är slumpen som styr? Det kan verka så. Men om vi har en miljon strategier att testa och en av dem visar sig vara statistiskt signifikant, vad innebär det egentligen? I sin bok Fooled by Randomness återger Nassim Taleb det hypotetiska scenariot med apor som försöker återskapa Homeros poesi på skrivmaskin:

“Om bara fem apor deltog skulle jag bli väldigt imponerad av apan som lyckades – faktum är att jag skulle misstänka att den apan var en reinkarnation av den antika poeten. Om det däremot fanns miljarders miljarder apor skulle jag bli mindre imponerad".

Som Taleb påpekar lägger inte många märke till det totala antalet apor. Knappt någon av aporna skulle vara i närheten av att framställa något signifikant. Överlevarbias ser till att man bara lägger märke till vinnarna.

Varför man måste "räkna aporna"

Om man inte presenterar hypoteser innan man muddrar data på jakt efter lönsamma mönster bör man istället testa ett stort antal spelsystem för att ta reda på hur ofta man finner statistisk signifikans. När jag deltog i den här diskussionen på Twitter sa jag så här: "låt oss pröva fördelningen av 10 000 urval av blinda spel enligt 10 000 olika kriterier".

Jag lyckades visserligen inte hitta 10 000 urval av blinda spel av lämplig storlek – det skulle involvera väldigt mycket data – men jag hittade 1 686 stycken med minst 100 insatser. Varje urval representerade en säsong av blinda spel på ett visst resultat (hemmaseger, kryss eller bortaseger) för en enskild fotbollsliga under en säsong.

Efter att först ha avlägsnat Pinnacles vinstmarginal för att beräkna de "sanna" oddsen för varje utfall beräknade jag sedan den teoretiska avkastningen för varje urval och deras t-värde. T-värdet är mitt föredragna mått på hur osannolikt det är att en sådan avkastning skulle kunna uppstå av ren slump. Dessa är fördelade i distributionen nedan. Positiva t-värden representerar lönsamma urval medan negativa t-värden representerar förlust. Ju större talet är desto mer osannolikt är det.

article-data-mining-2-in-article.jpg

Om du är bekant med normalfördelning (klockformad kurva) vet du nog redan att den är ett bevis på slumpmässighet. Resultatet av dessa urval av blinda spel överensstämmer i hög grad med vad vi förväntar oss att inträffa om allt styrdes av enbart slumpen.

Sett ur ett helhetsperspektiv finns det få eller inga bevis för att någonting systematiskt sker över huvud taget. De där lönsamma säsongerna i engelska League Two berodde förmodligen bara på tursamma segrar som identifierats genom att laborera med data. Man råkade helt enkelt stöta på något som föreföll vara ett lönsamt mönster orsakat av systematiskt irrationella spelare eller spelbolag.

De "sanna" oddsavkastningarna för de fem säsongerna skulle sammanlagt ha ett t-värde på +2,4 vilket innebär att sannolikheten (p-värdet) för att det skulle ha inträffat av ren slump är 1 på 100. Det är statistiskt signifikant, och om man skrev en akademisk uppsats skulle man kanske vara benägen att behandla det som någonting verkligt. Men genom att analysera saken ur ett helhetsperspektiv kan man vara nästan säker på att ren slump ligger bakom.

Om vi bestämmer oss för att utforma ett spelsystem via datamuddring tills vi hittar kriterier som är lönsamma riskerar vi att inte fastställa någon kausalitet för det vi hittar.

Faktum är att ett urval från säsongen 2007–2008 för engelska League Two gav ännu bättre resultat. De 242 matcher som jag har data för från december till maj visade en teoretisk avkastning på över 29 % (eller 35 % över de "sanna" oddsen om marginalen tagits bort). Sannolikheten för att slumpen skulle ligga bakom det är 1 på 1 000. Det var det bästa resultatet av de 1 686 urvalen. 

Totalt var 837 (cirka hälften) av dem lönsamma för "sanna" odds, precis som förväntat. Med sådana urval skulle vi naturligtvis förvänta oss att det bästa urvalet uppvisade ett p-värde på omkring 1 på 1 686. Vi förväntar oss att cirka 16 av urvalen (eller ca 1 %) har p-värden på mindre än 1 på 100. Vi förväntar oss också att cirka 168 urval (omkring 1 %) har p-värden på mindre än 1 på 10. I annat fall kanske vi med rätta skulle börja undra om några av urvalen påverkats av något annat än slump.

Faktum är de var 15 (0,9 %) respektive 158 (9,4 %), alltså ganska nära förväntan. I diagrammet nedan jämförs teoretisk förväntan för andelen lönsamma urval med p-värden under ett visst tröskelvärde (1 på 10 = 10 %, 1 på 5 = 20 % och så vidare) med den faktiska procentsatsen som uppstår. Den nästan perfekta ekvivalensen är slående.

I huvudsak är diagrammet ett annat sätt att säga att nästan allt vi tittar på har uppstått på grund av enbart slump. En lönsamhet som bara inträffar 1 gång på 1 000 är visserligen imponerande, men om vi har över 1 000 urval att välja bland är det inte så konstigt. Därför finns det inget starkt bevis för något orsakssamband. 

article-data-mining-1-in-article.jpg

Vad kan man lära sig om datautvinning och -muddring?

Det är kanske föga förvånande att fördelningen av lönsamhet mellan olika fotbollssäsonger och -divisioner är slumpmässig. Det är knappast det mest sofistikerade sättet att utforma ett spelsystem. Men den viktigaste lärdomen är att om vi bestämmer oss för att utforma ett spelsystem via datamuddring tills vi hittar kriterier som är lönsamma riskerar vi att inte fastställa någon kausalitet för det vi hittar. 

Om inte vi lyckas fastställa någon orsak till varför en lönsam avkastning inträffade kan den bero på ren slump. Korrelation utan kausalitet kommer helt enkelt att återgå till medelvärdet. Det innebär att den som spelar på sportodds förlorar pengar på lång sikt.

Man kan kanske hävda att det inte är något fel med att dra fördel av slumpen för att gå med vinst. Det är trots allt vad vadslagning i grund och botten handlar om. När man gör det bör man dock vara högst medveten om att framgången inte beror på något annat än slumpen.

Oddsresurser: Bli en bättre spelare

Pinnacles avdelning Oddsresurser är en av nätets mest omfattande artikelsamlingar med spelråd från experter. Vi tillgodoser behoven hos både nybörjare och proffs – vårt mål är helt enkelt att öka våra spelares kunskaper.