jan 26, 2019
jan 26, 2019

Slik modellerer du statistiske områder for tippeavkastning

Matematikken bak fordelinger av tippeavkastning

Hva kan vi lære av standardavviket for avkastning?

Hvor lenge kan man holde det gående som kunnskapsløs tippespiller?

Slik modellerer du statistiske områder for tippeavkastning

Tippespillere blir ofte helt oppslukt av tanken på hva de tipper på, hvor mye de satser og hva de kan vinne (skjønt kanskje ikke i akkurat den rekkefølgen). Det er viktig å tenke på hvor mye du kan vinne på et enkeltspill, men tippespillere må tenke på avkastningen basert på et større utvalg spill. Hvordan modellerer man statistiske områder for tippeavkastning? Les videre for å finne det ut.

I en nylig diskusjon på Twitter gikk jeg gjennom avkastningen til en velkjent hesteløp-tippetipser. Basert på 1015 daglige «naps» (de høyest rangerte tipsene deres hver dag) fant jeg ut at avkastningen deres ved jevne innsatser var −4,3 %.

«Dette er en rimelig god utvalgsstørrelse for å teste hvor lønnsom vedkommende er totalt sett»,

sa jeg, uten å tenke for mye på det. Tusen tips er tross alt en bra utvalgsstørrelse, eller hva? Senest i forrige måned diskuterte jeg nok en gang hvordan tilfeldigheter kan påvirke resultatene for så store utvalg som dette.

Uansett, har vi ikke rimelig godt grunnlag for å mene at tippetipseren det gjelder, sannsynligvis ikke leverer de «beste hesteløptipsene på nettet», som det påstås?

En av følgerne mine på Twitter kommenterte «Ikke at jeg er uenig, men kan man egentlig fastslå noe på grunnlag av bare 1000 spill?»

Etter et øyeblikks ettertanke fastslo jeg at man sannsynligvis ikke kan det. Jeg skrev et svar.

«Du har faktisk et poeng. Gjennomsnittsoddsene for vinner-napsene er 2,62. La oss anta at de resterende to tredjedelene var tapende (som det ikke ble vist odds for) og hadde noe lengre odds (grunnen til at de tapte), slik at totalen blir omtrent 3,00.

Forventet standardavvik for avkastningen i et utvalg på 1015 spill er omtrent 0,045 (4,5 %). Vi antar at den langsiktige forventningen er –4,5 %. Dette er ganske nært på. La oss heller anta at forventningen var at de endte på null. Dette ville vært omtrent ett standardavvik unna. Uflaks, men godt innenfor det som kan kalles naturlig variasjon.

Tenk deg nå at forventningen var +4,5 %. Det er omtrent to standardavvik unna virkeligheten, eller omtrent 2,5 % sannsynlighet. De kunne likevel hevdet at den langsiktige forventningen var +4,5 %, men at de bare hadde hatt uflaks. For enda høyere forventet avkastning blir det vanskeligere og vanskeligere å påstå at det som skjedde på 1015 spill, bare er uflaks.» 

Hvordan fant jeg verdien 4,5 % for forventet standardavvik i avkastningen? Formålet med denne artikkelen er å forklare akkurat det, samt hvordan det kan hjelpe oss med å evaluere de faktiske tipperesultatene våre opp mot eventuelle forventninger vi har.

Matematikken bak fordelinger av tippeavkastning

Spill er binære hendelser: Man enten vinner eller taper I november 2018 gikk jeg gjennom hvordan den binomiske fordelingen kan brukes til å finne informasjon om den potensielle fordelingen av gevinster og tap for en serie spill som er utsatt for tilfeldighetenes påvirkning. For et utvalg på n spill der hvert spill har verdien p i reell vinnersjanse, finner vi standardavviket, eller spredningen, for mulige gevinstprosenter i utvalget med følgende formel:

modelling-returns-formula 1.png

Hvis vi for eksempel har 100 spill der vinnersjansen for hvert spill er 50 %, kan vi forvente å vinne 50 % av spillene, og standardavviket er 5 %. Det innebærer at omtrent to tredjedeler av alle resultatene vil ligge mellom 45 % og 55 %, og at omtrent 95 % av resultatene vil ligge mellom 40 % og 60 %. 

Men glem gevinster og tap, hva med fortjenesten? Vi må bare justere formelen over litt ved å ta med tippeoddsene også. Nå som hvert spill har o i odds, finner vi standardavviket for mulige avkastninger slik: 

modelling-returns-formula2.png

Vi kan anta at den reelle vinnersjansen i dette eksempelet var 60 % for 50/50-odds fra bookmakeren, et meget generøst myntkast. Standardavviket for potensielle avkastninger fra 100 spill hadde blitt 9,798 %, eller omtrent 20 % i forventet avkastning.

For rettferdige odds, o = 1/p, endres formelen ovenfor slik:

modelling-returns-formula3.png

Dette spesialtilfellet gjelder egentlig bare når en tippespiller forventes å ende på null (avkastning = 0 %), er differansen mellom o og 1/p vanligvis liten, både for amatørtippespillere som sliter med bookmakerens margin eller dyktige tippespillere som har klart å slå den, så man kan faktisk bruke det for enkelthets skyld. Dette illustreres i figuren nedenfor.

modelling-returns-in-article 1.jpg

Hvis vi bruker den forenklede formelen i dette eksempelet, får vi alltid 10 % standardavvik, uansett hva hvor stor p er. Men det er faktisk ganske tett på det reelle standardavviket for vinnersjanser mellom 40 % og 60 %. Ingen tippespillere, i hvert fall ikke hos Pinnacle, bør utsettes for så lave vinnersjanser som 40 % for 50/50-spill. 

Pinnacles marginer ligger som oftest mellom 1 % og 3 %. Hvis oddsen er 2,00 og marginen er 2 %, gir det en vinnersjanse på omtrent 49 %. (Det reelle standardavviket for 100 spill hadde vært 9,998 %.) De beste handikap-tippespillerne i verden ligger på omtrent 55 % til 56 % vinnersjanse. (Standardavviket for avkastningen for 100 spill hadde vært 9,928 %.) 

Hva kan vi lære av standardavviket for avkastning?

La oss gå tilbake til eksempelet jeg introduserte til å begynne med, for å se hvilken informasjon standardavviket for avkastning kan gi oss. Hvis vi antar at gjennomsnittlig spillodds (o) var 3,00 for de 1015 50/50-spillene (n) og at den reelle vinnersjansen var 32 % (p), noe som antydes av forventningen på –4,3 %, gir ligningen over oss 4,39 % som standardavvik for avkastningen (eller 4,44 % hvis vi bruker den forenklede formelen). 

Fordelingen av mulige tippeavkastninger rundt forventningen ser ut som nedenfor. Du kan enkelt lage disse selv i Excel med NORMDIST-funksjonen. I teorien er disse fordelingene binomiske og derfor også diskrete, men for utvalg på over 30 er den (kontinuerlige) normalfordelingen en meget pålitelig tilnærming, og gjør det mye enklere å tegne opp disse diagrammene i Excel. 

modelling-returns-in-article2.jpg

Området under den blå kurven blir 100 % sammenlagt. I dette scenarioet har vi antatt at den reelle avkastningen matcher forventningen. Men siden oddsene faktisk er ganske lange, er det en relativt stor spredning i de mulige resultatene, slik at selv det mest sannsynlige resultatet, –4,3 %, vil oppstå under 10 % av gangene. 

Hadde Twitter-følgeren min rett da han satte spørsmålstegn ved min opprinnelige observasjon? Jeg vil faktisk påstå at svaret er ja. Dette er helt åpenlyst ikke en statistikk som kan påstås å stamme fra de beste hesteløp-tippetipsene, men det er ikke like åpenlyst at det er snakk om negativ forventet verdi. 13,65 % av de mulige avkastningene i dette scenarioet er lønnsomme, godt innenfor grensene for hva som er statistisk akseptabelt. Det kan hende at tippetipseren har bedre forventning enn –4,3 %, men bare har hatt uflaks.

La oss heller anta, som jeg foreslo tidligere, at tippetipserens forventning var å ende på null. Nå ser fordelingen slik ut: 16,13 % av avkastningene i dette scenarioet er lavere enn det faktiske resultatet, alt for høyt til å utelukke muligheten for at det dreier seg om uflaks.

modelling-returns-in-article3.jpg

Hva om forventningen var +4,3 %? Da får vi følgende fordeling. 2,76 % av resultatene er fremdeles dårligere enn den faktiske statistikken. Det er ikke så mye, men er det nok til å fullstendig utelukke uflaksen? Det er mer enn 1 av 40 tippetipsere, så for 4000 tippetipsere, kommer det til å skje.

modelling-returns-in-article4.jpg

Til slutt kan vi anta at denne tippetipseren påstår at han virkelig tilbød de beste hesteløptipsene på internett, og at det var mer vanlig at de kunne vise til 10 % avkastning. De potensielle avkastningene fordeles som følger.

modelling-returns-in-article5.jpg

Nesten 2 % er ulønnsomme, men færre enn 1 av 1000 er dårligere enn de observerte 4,3 %. I så fall er det nok på tide å anklage denne tippetipseren for å lide av tilbøyelighet til overdreven selvtillit.

Hvis vi vet hva de gjennomsnittlige oddsene er, hva avkastningen er og hvor mange spill det gjelder, kan vi beregne det forventede standardavviket for potensielle avkastninger og plotte omtrent alle fordelinger vi ønsker. Som jeg har gjort her er det mulig å sammenligne hva vi faktisk har oppnådd med en rekke forslag til hva vi tror det er mulig å oppnå.

Det er nok bare en liten sjanse for at den reelle avkastningen kan oppstå, gitt vår mening om hva vi tror burde skje (f.eks. mindre enn 1 % eller selv 0,1 %). Så vi bør nok vurdere å evaluere forventningene våre på nytt.

Endre tippeoddsene

Hvordan varierer fordelingen i potensielle tippeavkastninger seg for forskjellige tippeodds? Ta en titt nedenfor. Disse er for scenarioer der forventningen er at man ender på null.

modelling-returns-in-article6.jpg

Ikke overraskende ser vi at jo lengre oddsene er, desto større varians, eller spredning, blir det i resultatene. For scenarioene med forventet nullverdi er variansen (eller kvadratroten av standardavviket) selvsagt direkte proporsjonalt med oddsene minus 1.

Tipping til lengre odds betyr at du har større sjanser for å gjøre det bedre enn forventet, rett og slett på grunn av flaks (fordelingens haler er tykkere ved større avkastninger). Dessverre er det omvendte selvsagt også gyldig, siden fordelingene er symmetriske.

Endre lengden på tippehistorikken

Vi kan nå også se hvordan størrelsen på tippehistorikken påvirker fordelingen vår. Formelen over forteller oss at standardavviket for avkastningen er omvendt proporsjonal med kvadratroten av antallet spill. Derfor vi en nullverdi-forventning for 100 50/50-spill (10 %) ha ti ganger så stor spredning for en tilsvarende historikk med 10 000 spill (1 %). Vi har illustrert noen av de andre nedenfor. 

modelling-returns-in-article7.jpg

Det at fordelingen blir smalere og høyere i takt med at tippehistorikken blir lengre, er i bunn og grunn en visuell fremstilling av de store talls lov. Jo større utvalget er, desto mer sannsynlig er det at det vi har oppnådd, skyldes den reelle forventede verdien.

Hvor lenge kan man holde det gående som kunnskapsløs tippespiller?

Som et siste tankeeksperiment kan vi vurdere hvor lang tid det kan ta før en uerfaren handikap-tippespiller hos Pinnacle, som har –2,5 % i forventning, klarer å forstå at han ikke er dyktig. Man kan få litt informasjon hvis man vet standardavviket for avkastning.

Diagrammet nedenfor viser sannsynligheten for at handikap-tippespilleren fremdeles har fortjeneste etter en serie spill til forskjellige odds.

Sannsynligheten for å ha fortjeneste etter n spill med o i odds

Sannsynligheten for å ha fortjeneste etter n spill med o i odds

Tippeodds (o)

Antall spill (n)

1,5

2

3

5

10

100

36,34 %

40,13 %

42.94 %

44,98 %

46,64 %

500

21,73 %

28,80 %

34,54 %

38,89 %

42,53 %

1000

13,46 %

21,45 %

28,68 %

34,49 %

39,49 %

5000

0,67 %

3,85 %

10,42 %

18,61 %

27,56 %

10 000

0,02 %

0,62 %

3,76 %

10,35 %

19,97 %

Hos bookmakere med små marginer, kan man komme langt bare med littegrann flaks, spesielt når oddsene er lengre. Hvis du har uflaks derimot, blir lengre odds en snarvei til konkurs.

Her er et lignende diagram, men denne gang med sannsynligheten for å tape 10 %. Dette er rett og slett en konsekvens av de større variansene (og bredere fordelingene av potensielle avkastninger).

Sannsynligheten for å tape 10 % etter n spill med o i odds

Sannsynligheten for å tape 10 % etter n spill med o i odds

Tippeodds (o)

Antall spill (n)

1,5

2

3

5

10

100

14,73 %

22,66 %

29,68 %

35,25 %

40,02 %

500

0,95 %

4,67 %

11,63 %

19,86 %

28,59 %

1000

0,05 %

0,88 %

4,57 %

11,56 %

21,20 %

5000

0,00 %

0,00 %

0,01 %

0,37 %

3,69 %

10 000

0,00 %

0,00 %

0,00 %

0,01 %

0,57 %

Hvor godt fungerer formelen med tippehistorikker fra virkeligheten?

Til slutt kan det kanskje hende du lurer på hvor bra formelen min fungerer til beregning av standardavviket for avkastning når man spiller på forskjellige odds. Så langt har jeg basert meg på antagelsen om at alle spillene inngås til samme odds. I virkeligheten spiller selvsagt de fleste tippespillere med forskjellige odds. Går det an å rett og slett bare ta en gjennomsnittsverdi for tippeoddsene og likevel få et pålitelig tall for standardavviket for avkastning? 

Hos bookmakere med små marginer, kan man komme langt bare med littegrann flaks, spesielt når oddsene er lengre. Hvis du har uflaks, blir lengre odds en snarvei til konkurs.

For historikken til tippetipseren vi så på i starten av artikkelen har jeg fylt inn beregnede/kunstige odds der det manglet (for de tapende tipsene, som aldri ble publisert) og fått 3,00 i gjennomsnittsodds. Den reelle spredningen for oddsene var ganske stor, fra de korteste på 8/11 (1,73) og helt opptil 14/1 (15,0).

Med Excels generator for tilfeldige tall simulerte jeg resultater der forventningen for hvert spill var −4,3 %, og så kjørte jeg en Monte Carlo-simulering med 100 000 repetisjoner, slik at jeg satt igjen med 100 000 forskjellige avkastninger for utvalget på 1015 spill. Den gjennomsnittlige avkastningen var –4,297 % og standardavviket for disse avkastningene var 4,373 %. Dette er i praksis den samme verdien som formelen min anslo, 4,389 % − med akseptabel feilmargin.

Noen av dere ser kanskje at det finnes likheter mellom denne metoden og t-testmetoden jeg bruker for å beregne hvor sannsynlig det er at en tippehistorikk kan skyldes tilfeldigheter. De to metodene er faktisk veldig like. Ja, det stemmer, selv med små utvalgsstørrelser (n > 30) er binomiske fordelinger, nominelle fordelinger og t-testfordelinger stort sett samme ting.

Forhåpentligvis gir denne artikkelen litt bedre innsikt de forskjellige forventningene en tippespiller har basert på preferanser og ytelse.

I tillegg til den eksisterende t-testkalkulatoren for testing av tippehistorikker, har jeg nå også lagt ut en avkastningsfordeling-kalkulator som du kan bruke til å teste din egen historikk.

Tipperessurser – Bli en bedre spiller

Pinnacles Tipperessurser er en av nettets mest omfattende samlinger av ekspertråd for tipping. Passer for alle erfaringsnivåer, og formålet er ganske enkelt å gi kundene våre støtten de trenger for å bli bedre spillere.