close
sep 19, 2017
sep 19, 2017

Fallgruvene ved sportstippesystemer: Korrelasjon kontra årsakssammenheng

Sportstippesystemer: Hva er regresjonsanalyse?

Bruk av systemer til å stille tippeprognoser

Fallgruvene ved regresjonsanalyse

Fallgruvene ved sportstippesystemer: Korrelasjon kontra årsakssammenheng

Det er viktig å ha et tippesystem når man vil sikre fortjeneste fra tipping på lang sikt. Tippespillere blander ofte sammen økonomistyring og tippesystemer, og når det gjelder resultater, blander de også ofte korrelasjon med årsakssammenheng. Hva er et tippesystem, og hvordan vet man forskjellen på korrelasjon og årsakssammenheng? Les videre for å finne det ut.

Hva er et tippesystem?

Til forskjell fra en innsatsmetode eller økonomistyringsstrategi, som er metoder for å velge størrelsen på innsatsene du plasserer, er et sportstippesystem en strukturert metodologi for prognoser som baseres på kvantitativ analyse av historiske data. Formålet er å motvirke bookmakerens fortjenestemargin og finne positiv forventet verdi.

Tippespillere blander ofte sammen økonomistyring og tippesystemer. Hvis du søker etter "tippesystemer" på Google, finner du stort sett strategier som Martingale, Labouchere og Fibonacci – men dette er faktisk ikke det samme.

Økonomistyring handler bare om å endre risikoen forbundet med innsatsene du plasserer. Det kan ikke forvandle en dårlig prognosemetode til en bra en på lang sikt. Et tippesystem derimot, har som formål å finne den sanne sannsynligheten for at hendelser finner sted i sport.

Sportstippesystemer: Regresjonsanalyse

Den mest brukte metoden for å lage et sportstippesystem er statistisk regresjonsanalyse. Dette høres kanskje overveldende ut for de som ikke er kjent med statistikksjargong, men det er rett og slett bare en metode for å finne forholdet mellom variabler.

Selv om regresjonsanalyse er et nyttig verktøy når man skal utvikle et nytt tippesystem, er den underliggende svakheten at det ikke klarer å skille mellom korrelasjon og årsakssammenheng.

Det enkleste av disse er enkel lineær regresjon, der man bare tar med to variabler i beregningen. Man kan for eksempel bruke antall mål et lag skårer (uavhengig variabel) og hvor ofte de vinner kamper (avhengig variabel). 

I den første boken min, Fixed Odds Sports Betting: Statistical Forecasting & Risk Management, undersøkte jeg en enkel regresjonsmodell basert på relativ målforskjell på to lag for de siste seks kampene deres.

Med et stort utvalg kamper (i dette tilfellet 8 sesonger, fra 1993 til 2001) er det mulig å lage et diagram over korrelasjonen mellom beregnet kamprating (hjemmelagets målforskjell på seks kamper minus bortelagets målforskjell på seks kamper) og frekvensen for hvert kampresultat. Fordelingen av kampratinger (den uavhengige variabelen) kontra frekvensen for hjemmeseier (den avhengige variabelen) vises under.

correlation-and-causation-inarticle.jpg

Selv om de enkelte datapunktene er relativt godt spredt, er det en tydelig lineær trend i forholdet mellom de to variablene: Jo bedre hjemmelaget er i forhold til bortelaget, hvis man ser på målforskjellen for de siste seks kampene, desto mer sannsynlig er det at hjemmelaget vinner kampen.

Regresjonslinjen vi har tegnet over diagrammet, viser rett og slett et ideelt forhold mellom relativ måloverlegenhet og frekvensen for hjemmeseier, der den statistiske "støyen" fra flaks og uflaks er fjernet.

Vi kan beskrive denne linjen som en ligning. Siden dette er en enkel, lineær regresjonsmodell, får ligningen formen y = mx + c, der y er den avhengige variabelen (sannsynligheten for seier), x er den uavhengige variabelen, m er kampratingen, altså kurven eller gradienten til trendlinjen (og et mål på styrken til forholdet), og c er kontaktpunktet der linjen krysser y-aksen (altså der x = 0). I dette eksempelet er ligningen slik:

Hjemmeseier-% = (1,56 x kamprating) + 46,5

Når kampratingen er null (altså at målforskjellene til hjemme- og bortelaget er omtrent like), er sannsynligheten for seier 46,5 %. Dette virker svært logisk, siden omtrent 46 % av alle fotballkamper ender med hjemmeseier. Når hjemmelaget har netto målforskjell som er 10 høyere enn bortelagets målforskjell for de siste seks kampene, viser regresjonsmodellen at disse lagene vinner omtrent 62 % av gangene. Med 20 flere poeng stiger dette til 78 %. 

Regresjonsanalysen vår kan også vise hvor mye av variabiliteten i seiersfrekvensen som forklares av denne tippesystem-modellen. I dette tilfellet var det 86 %. Dette vises av hvor godt trendlinjen passer med dataene. Det innebærer nemlig at det er en sterk korrelasjon mellom de to variablene.

Bruke et system til å stille tippeprognoser

For å forvandle regresjonsmodellen vår til et funksjonelt tippesystem må vi stille prognoser for fremtidige kamper og bruke dem til å finne spill som har positiv forventet verdi.

Økonomistyring handler bare om å endre risikoen forbundet med innsatsene du plasserer. Det kan ikke forvandle en dårlig prognosemetode til en bra en på lang sikt.

Som med de fleste metodologier for modellering er standardantagelsen at fortiden er nøkkelen til fremtiden. Hvis tidligere kamper med kamprating på +10 endte med hjemmeseier 62 % av gangene, er antagelsen at et hjemmelag med 10 poengs måloverlegenhet over motstanderen har omtrent 62 % sjanse til å vinne kampen. 

Deretter trenger vi bare å konvertere disse sannsynlighetsverdiene til sanne odds, så kan vi finne forventet verdi hos en bookmaker som tilbyr lengre odds. Ved å bruke denne modellen på engelsk ligafotball i sesongen 2001/02 klarte jeg å oppnå fortjeneste på 2,1 % etter 526 spill med de beste tilgjengelige oddsene for hjemmeseier. Hvis jeg hadde satset blindt på alle hjemmekamper i den sesongen, hadde jeg tapt 3,7 %.

Korrelasjon kontra årsakssammenheng

Med bare én sesong og mindre enn 500 spill totalt å basere seg på kan man ikke garantere at fortjenesten kan gjentas år etter år. Det kan kanskje virke som et utvalg som er stort nok til å bevise at et tippesystem er pålitelig, men de som leser Tipperessurser jevnlig vet at dette ikke er tilfellet.

Pinnacles artikkel om de små talls lov er en påminnelse om at selv med over 1000 prøver i utvalget kan det oppstå falske lønnsomhetsmønstre som faktisk ikke er basert på årsakssammenheng, men kun er tilfeldige. Dessverre endte det opp med tap hver gang når man brukte dette systemet på de neste fem sesongene.

Selv om denne enkle regresjonsmodellen for måloverlegenhet fungerte godt for å finne hvilke hjemmelag som hadde størst vinnersjanse, kunne den ikke garantere å finne lag som hadde større vinnersjanser enn det som var antydet av bookmakernes odds.

Dessverre blander mange sportstippespillere sammen presisjon, nøyaktighet og validitet når de studerer tippehistorikken sin, og de blander også sammen korrelasjon og årsakssammenheng i samme slengen.

Modellen min var kanskje god til å stille prognoser, men dessverre var den ikke bedre til å stille prognoser enn de modellene som bookmakerne baserer oddsene sine på, og heller ikke bedre enn modellene som andre tippespillere brukte før de satset penger og bidro til å påvirke disse oddsene.

Hvis modellen min bare ga de samme resultatene som bookmakernes modeller, vil ikke lønnsomheten være bærekraftig og resultatene skyldes kun tilfeldighet. Det ser ut som det ikke var basert på en faktisk korrelasjon. Prognosene jeg fikk fra modellen min var ikke årsaken til fortjenesten, siden de ikke var mer presise enn andre modeller som gjorde det samme.

Presisjon kontra nøyaktighet

Det sier seg selv at man ikke får et spesielt sofistikert tippesystem til jakten på forventet verdi hvis man bare baserer seg på en lineær regresjonsmodell med to variabler. Multippel regresjon, der man bruker flere uavhengige eller avhengige variabler, gir muligheten til å stille mer presise prognoser. Det er likevel viktig at man passer seg så man ikke ofrer nøyaktigheten i jakten på presisjon.

En presis modell er en modell der målingene ligger tett på hverandre, for eksempel slik man ser i trendlinjen i den enkle lineære regresjonsmodellen jeg viste ovenfor. Dessverre betyr ikke presisjon at det garantert blir nøyaktig. Presisjon er et mål på hvor nærme man er den sanne verdien. Presisjon er forbundet med tilfeldige feil, mens nøyaktighet er forbundet med systemiske feil (også kjent som bias). 

For at et tippesystem skal være effektivt, altså at det faktisk kan gjøre det som det er meningen at det skal gjøre (konsekvent å finne lønnsom forventet verdi), så må det være både presist og nøyaktig. Validitet innebærer både pålitelighet og persistens, altså både at vi tror at årsaken faktisk er den sanne årsaken og at målingene våre gjentatte ganger peker mot den samme konklusjonen.

Dessverre blander mange sportstippespillere sammen presisjon, nøyaktighet og validitet når de studerer tippehistorikken sin, og de blander også sammen korrelasjon og årsakssammenheng i samme slengen. Mange gjør den feilen at de tror det er tippesystemet som er årsaken til fortjenestene deres, når det i virkeligheten egentlig bare skyldes flaks.

Fallgruvene ved regresjonsanalyse

Selv om regresjonsanalyse er et nyttig verktøy når man skal utvikle et nytt tippesystem, er den underliggende svakheten at det ikke klarer å skille mellom korrelasjon og årsakssammenheng. Regresjonsanalyse kan effektivt identifisere sammenhengen mellom variabler, for eksempel antall mål som skåres og slippes inn kontra sannsynligheten for å vinne kampen, men kan ikke bestemme om den ene faktoren er årsaken til den andre.

Regresjonsanalyse kan vise oss at når Barcelona taper, skårer ikke Lionel Messi noen mål. Vi kan ikke fastslå at det at Lionel Messi ikke skårer er årsaken til at Barcelona taper kampen.

Hvis vi ikke finner årsakssammenheng og validitet i tippesystemet vårt, må vi være klar over at det ikke nødvendigvis er bedre enn de systemene alle andre bruker. I et system der relativ dyktighet er viktig, som i sportstipping, vinner vi ikke penger bare ved å forutse fremtiden, vi må forutse fremtiden bedre enn alle andre.

Tipperessurser – Bli en bedre spiller

Pinnacles Tipperessurser er en av nettets mest omfattende samlinger av ekspertråd for tipping. Passer for alle erfaringsnivåer, og formålet er ganske enkelt å gi kundene våre støtten de trenger for å bli bedre spillere.