close
okt 18, 2017
okt 18, 2017

Vurdering av tippeevne: Bayesianske og frekventistiske metoder

Hvordan kan en tippespiller bedømme dyktighetsnivået sitt?

Forskjellen mellom en bayesiansk og frekventistisk tilnærming?

Hva med grader av tilfeldighet og forventet sannsynlighet for dyktighet?

Vurdering av tippeevne: Bayesianske og frekventistiske metoder

På et helt grunnleggende plan trenger man to ting for å tjene penger på tipping. Dyktighet og flaks. Mange tippespillere klarer ikke å erkjenne innflytelsen av sistnevnte, men også det førstnevnte blir ofte oversett. Denne artikkelen viser hvorfor det er viktig å forstå de forskjellige metodene for å vurdere dyktighet i tipping og hvordan resultatene kan variere avhengig av metoden din.

Sportstippespillere kan bruke Bayes teorem for å stille bedre prognoser. Vi kan også bruke det for å finne ut hvor sannsynlig det er at vi faktisk er flinke til å stille disse prognosene og finne positiv forventet verdi. Jeg har tidligere undersøkt hvordan man evaluerer kvaliteten av en tippehistorikk ved bruk av en frekventistisk fremgangsmåte. (t-test). I denne artikkelen sammenligner vi de to metodene.

Grader av tro

Innenfor sannsynlighetsteori beskriver Bayes teorem sjansene for at et utfall som er avhengig av et annet utfall, inntreffer. La oss for eksempel anta at jeg tror det er 50 % sjanse for at jeg er en dyktig tippespiller som klarer å finne verdi. Hvis jeg vinner mitt neste spill, hvordan vil dette påvirke min tiltro til denne påstanden? Med andre ord, på hvilken måte påvirkes sannsynligheten for at jeg er en dyktig tippespiller av at jeg faktisk vinner et spill? 

Bayes teorem tolker sannsynlighet som en "grad av tro" på en påstand eller hypotese, og formaliserer det matematiske forholdet mellom trosgraden før bevisføring (før-sannsynligheten) og trosgraden etter bevisførsel (etter-sannsynligheten). Den skrives slik:

{equation} - P(A|B) = P(A)*P(B|A)/P(B)

I vårt eksempel her:

S(A) = før-sannsynligheten om at jeg er en dyktig tippespiller

S(B) = før-sannsynligheten for at jeg vinner spillet

S(B|A) = sannsynligheten for at jeg vinner spillet, avhengig av at jeg er en dyktig tippespiller

S(A|B) = sannsynligheten for at jeg er en dyktig tippespiller, avhengig av om jeg vinner spillet

Vi prøver et eksempel. La oss anta at definisjonen på en dyktig tippespiller er en person som konsistent kan oppnå 110 % avkastning på en investering. For 50-50-spill blir dette 55 av 100 vinnere. Derfor er S(B|A), sannsynligheten for at jeg vinner veddemålet mitt avhengig av at jeg er en dyktig tippespiller, lik 50 %.

For en lite dyktig tippespiller er sannsynligheten for å vinne et rettferdig 50-50-spill, S(B), lik 50 %. Vi antar derimot at jeg tidligere mente at det var 50-50 sjanse for at jeg er dyktig {S(A) = 50 %}. S(B) for en slik tippespiller er 52,5 % (halvveis mellom 50 % og 55 %).

De beste handikap-tippespillerne i bransjen kan oppnå en seiersrate på rundt 57 %. Etter bookmakerens margin tilsvarer dette rundt 110 % fortjeneste på investeringen.

Hvis jeg vinner spillet, kan jeg sette inn disse tallene i Bayes teorem for å beregne etter-sannsynligheten – S(A|B) – som er 52,38 %. Hvis jeg vinner spillet, vil dette antyde at sannsynligheten for at jeg er dyktig er høyere enn det jeg trodde tidligere.

Bayes teorem kan brukes gjentatte ganger. Etter at jeg har vunnet mitt første spill og oppdatert sannsynligheten for å være en dyktig tippespiller, spiller jeg en gang til. Etter-sannsynligheten som ble beregnet i første steg, blir nå før-sannsynligheten.

Den nye etter-sannsynligheten for at jeg er en dyktig tippespiller avhenger nå av hvorvidt jeg vinner (eller taper) det neste spillet. Hvis jeg vinner, øker sannsynligheten igjen, hvis jeg taper, minsker den. Hvis jeg vinner i dette eksempelet, øker sannsynligheten for at jeg er en dyktig tippepiller til 54,75 %. 

Denne prosessen kan repeteres i det uendelige, med hver oppdatering av den resulterende sannsynligheten liggende et sted mellom 0 % og 100 %. Jeg har kjørt denne beregningen 1 000 ganger, altså 1 000 spill, og diagrammet nedenfor viser den resulterende tippehistorikken (blå linje) og de bayesianske sannsynlighetene for at jeg er en dyktig tippespiller etter hvert veddemål (rød linje).

assessing-skill-In-article-1.jpg

Ett særskilt problem med en bayesiansk tolkning av sannsynlighet er at det krever mye forkunnskap om eller tro på en hendelse eller situasjon. Men har vi egentlig det når vi vurderer sannsynligheten for at jeg er flink til å tippe? Valget mitt av 50 % i dette eksempelet var helt tilfeldig, kun basert på gjetning. La oss se hva som skjer om jeg nå forandrer den tidligere sannsynligheten til 1 % 

assessing-skill-In-article-2.jpg

I tillegg er det helt tilfeldig hva "dyktig" faktisk betyr i denne konteksten. Det kan hevdes at en tippespiller som klarer å oppnå 105 % avkastning på investeringene, er svært dyktig hvis han kan opprettholde dette over 10 000 veddemål – du kan lese om loven om små tall for å finne ut hvorfor stikkprøvestørrelsen har betydning. Det er også like uklart hvordan man skal definere S(B) for hvert steg, siden verdien S(A) oppdateres. 

I min bayesianske modell valgte jeg for enkelthets skyld et linært forhold, slik at hvis S(A) = 0 %/20 %/40 %/60 %/80 %/100 %, er S(B) = 50 %/51 %/52 %/53 %/54 %/55 %, men det er helt klart legitimt å sette spørsmål ved validiteten av dette. Kanskje enda viktigere er det at siden en person som i utgangspunktet har 52,5 % sannsynlighet for å vinne veddemål, er en dyktig tippespiller (bare ikke like dyktig som en med 55 %), så måler vi her graden av, ikke sannsynligheten for, dyktighet. 

Uansett gir denne grafiske representasjonen av evolusjonen til bayesiansk sannsynlighet en viss intuitiv målestokk for sannsynligheten for (eller styrken av) en tippespillers evne til å ha konsistent fortjeneste og hvordan det kan endre seg over tid.

Grader av tilfeldighet

Mens den bayesianske fremgangsmåten fokuserer på sannsynligheten av en hypotese (at jeg er en dyktig tippespiller) gitt et fast datasett (fortjeneste og tap), fokuserer den frekventistiske fremgangsmåten på sannsynligheten (eller frekvensen) av dataene, gitt hypotesen. Denne gangen er hypotesen låst – det er enten sant (100 % sannsynlighet) eller usant (0 % sannsynlighet) at jeg er dyktig – mens dataene antas å være tilfeldige. 

Med utgangspunkt i 1 % sannsynlighet for at man er dyktig, vil dette ha bare ha steget til 20 % etter 1 000 veddemål.

Vanligvis starter den frekventistiske fremgangsmåten med en nullhypotese, i dette tilfelle at jeg ikke er dyktig og at resultatene kun skyldes flaks. Deretter forsøker den å kalkulere sannsynligheten (vanligvis kalt p-verdien) ved bruk av statistikk, for å vise at dataene som vi har observert, i mitt tilfelle min egen taps- og fortjenestehistorikk, kunne ha forekommet hvis vi antar at nullhypotesen er sann.

Til slutt sammenlignes denne sannsynligheten med en akseptabel betydningsverdi (noen ganger kalt α-verdien) slik at hvis p < α (vanlgvis 5 % or 1 %), blir nullhypotesen forkastet til fordel for en som er gyldig.

Statistikken jeg har gått igjennom tidligere på Pinnacle's Betting Resources, er t-verdien, som kalles dette fordi den er basert på studentenes t-test for statistisk signifikans. Hvis vi antar at veddemålsoddsen er rettferdig, kan t-verdien avrundes slik: 

hvor n = antall veddemål, r = avkastning på investeringen (uttrykt som desimaltall) og o = den gjenomsnittlige oddsen i desimalform. T-scoren konverteres til en p-verdi via statistikktabeller eller en nettbasert kalkulator. I Excel kan man bruke TDIST-funksjonen. La oss se på hvordan dette utfolder seg med vårt eksempel på veddemålshistorikk.

Diagrammet nedenfor sammenlikner det opprinnelige tidsforløpet til utviklingen til den bayesianske sannsynligheten – at jeg er en dyktig tippespiller, med 50 % før-sannsynlighet for at jeg er det (rød linje) – med utviklingen til den frekventistiske p-verdien – sannsynligheten for at resultatene mine kunne ha oppstått helt tilfeldig, under antagelsen at jeg ikke har noen evner i det hele tatt (grønn linje), ved bruk av en tohalet t-test av ett utvalg.

assessing-skill-In-article-3.jpg

På en generell, kvalitativ måte er disse to linjene speilbilder av hverandre, men dette skyldes nok heller flaks enn noe annet. Det er likevel viktig å få med seg at p-verdien måler sannsynligheten for at man ikke er dyktig, og at 1-p derfor tilsvarer sannsynligheten for at man er dyktig.

Om ikke annet burde både bayesianske og frekventistiske analyser minne tippespilleren på at konsistent fortjeneste i tipping må opprettholdes på lang sikt.

Hvis det er 5 % sannsynlig at vår fortjeneste- og tapshistorikk skyldes tilfeldigheter, betyr ikke dette at det er 95 % sannsynlig at den skyldes dyktighet. Det betyr simpelthen at hvis vi antar at nullhypotesen – at seire og tap i veddemål kun skyldes tilfeldigheter – er sann, så kan vi forevente at resultatene vi har observert vil forekomme 5 % av tiden.

Svakheten til den frekventistiske fremgangsmåten er at den går ut ifra at sannheter er absolutte. Den bayesianske fremgangsmåten derimot, betrakter sannhet som probabilistisk, provisorisk og alltid mulig å forfalske. Til tross for denne svakheten er frekventistisk hypotesetesting et like nyttig verktøy for analyser av tippehistorikk og til å finne ut om det er sannsynlig at resultatene skyldes noe annet enn flaks.

Hvordan ser de frekventistiske og bayesianske modellene ut i forhold til hverandre hvis den sistnevnte har en før-sannsynlighet på bare 1 % (i stedet for 50 %) for at jeg er dyktig?

assessing-skill-In-article-4.jpg

Denne gangen er det tydelig at t-testen gir en bedre indikasjon på min dyktighet som tippespiller enn den bayesianske fremgangsmåten, som er mye mer konservativ.

Dette viser enda tydeligere hvor sårbar den bayesianske sannsynligheten er for den opprinnelige antagelsen. Etter nesten 700 veddemål kan kanskje t-testen vise at det bare er 3 % sannsynlighet for at tippehistorikken er tilfeldig, men Bayes teorem ville antydet at det fortsatt er mindre enn 10 % sjanse for at vi er dyktige nok til å kunne levere 110 % avkastning på investeringene i et langsiktig perspektiv.

Siden jeg er den risikosky tippespilleren jeg er, foretrekker jeg det opprinnelige, mer konservative synet på dyktighet. Hvis jeg ikke har svært god grunn til å tro det motsatte, burde jeg alltid starte med å anta at jeg har liten eller ingen dyktighet i det hele tatt.

Forventede sannsynligheter for dyktighet

Analysen over er kun ett tilfeldig eksempel på en tidsserie for veddemål med en hypotese om 110 % avkastning på investering. For enkelthets skyld har jeg med vilje valgt en tippehistorikk som lot meg illustrere de idéene jeg har diskutert.

For å få et bedre overblikk av forventningen, altså hva vi i gjennomsnitt kan forvente å se, bør vi kjøre modellen mange ganger. De av dere som har kjennskap til Pinnacles Tipperessurser vet at vi kan gjøre dette med en Monte Carlo-simulering.

Det første diagrammet nedenfor viser resultatet av 10 000 repetisjoner av en Monte Carlo-simulering for utviklingen til den bayesianske sannsynligheten for at jeg er en dyktig tippespiller, for ti hypotetiske seiersrater: 51 % til og med 60 %, med intervaller på 1 % (tilsvarer 102 % til 120 % forventet verdi med intervaller på 2 %, med utgangspunkt i rettferdige odds).

Linjene dannes ved å beregne middelverdien for bayesiansk sannsynlighet etter hvert av de 1000 spillene, som til dette formålet gir en bedre representasjon enn middelverdien (der lave og høye verdier kan forvrenge fortolkningen). 

Den opprinnelige troen på evnene mine {p(A)} antas å være 1 %. Det er ikke overraskende at jo høyere min hypotetiske seiersrate (og forventede verdi) er, desto kjappere begynner troen på evnene mine å nærme seg 100 % sannsynlighet. (Jo mørkere kurven er, desto høyere er den hypotetiske seiersraten) 

assessing-skill-In-article-5.jpg

De beste handikap-tippespillerne i bransjen kan oppnå en seiersrate på rundt 57 %. Etter bookmakerens margin tilsvarer dette rundt 110 % fortjeneste på investeringen. Dette diagrammet viser at hvis du ønsker å bli dyktig, kreves det brorparten av 1 000 veddemål for å tilegne seg en sterk og meningsfull tro på dyktigheten din, selvfølgelig da forutsatt at du faktisk trodde du var dyktig til å begynne med. 

På den andre siden, hvis du opplever at du vinner på færre enn 54 % av spredningene, tar det mye lenger enn tid det før du med sikkerhet kan tro at du vet hva du driver med, selv om det fortsatt er lønnsomt. Med utgangspunkt i 1 % sannsynlighet for at man er dyktig, vil dette ha bare ha steget til 20 % etter 1 000 veddemål. 

Det siste diagrammet viser et liknende sett av idealiserte forventede p-verdier basert på de samme 1 000 spillene og ti hypotetiske seiersratene. Siden vi har en likning som lar oss anslå t-verdien for en hvilken som helst kombinasjon av spillantall, avkastning på investering og tippeodds, behøver vi ikke å kjøre en Monte Carlo-simulering. Igjen er den hypotetiske seiersraten høyere desto mørkere kurvene er (fra 51 % til og med 60 %).

assessing-skill-In-article-6.jpg

Med en seiersrate på 57 % nås en statistisk signifikant (p-verdi < 5 %) etter bare 200 spill, med en sterkere statistisk signifikant (p-verdi < 1 %) først etter rundt 335 spill. For å oppsummere, så forteller ikke denne informasjonen noe om hvor dyktige vi er til å tippe, den viser bare sannsynligheten for at resultatene skyldes tilfeldigheter, uten noen antakelser om dyktighetsnivået. 

I tillegg er disse nivåene av statistisk signifikans, i likhet med de opprinnelige bayesianske før-sannsynlighetene, kun basert på subjektive antagelser. Men i likhet med den bayesianske modllen burde statistisk testing basert på p-verdi kunne, med disse forbeholdene i sinne, tilby en nyttig metode for å hjelpe tippespilleren vurdere evnene derers til å finne en konsekvent lønnsom forventning.

Om ikke annet burde både bayesianske og frekventistiske analyser minne tippespilleren på at konsistent fortjeneste i tipping må opprettholdes på lang sikt. Anta aldri at noen få gevinster beviser at du vet hva du driver med.

Tipperessurser – Bli en bedre spiller

Pinnacles Tipperessurser er en av nettets mest omfattende samlinger av ekspertråd for tipping. Passer for alle erfaringsnivåer, og formålet er ganske enkelt å gi kundene våre støtten de trenger for å bli bedre spillere.