close
maalis 1, 2019
maalis 1, 2019

Golf-ennusteet: Data Golf -mallin esittely

Golf-ennusteet: Mistä aloittaa?

Golf-ennustemallin perusta

Selviytymisharhan vaikutus golfissa

Golf-ennusteet: Data Golf -mallin esittely

Golf on pahamaineisen vaikeasti ennustettava urheilulaji. Data Golf on käyttänyt vuosia golf-ennustemallinsa hiomiseen. Se käyttää tilastollista mallinnusta, joka auttaa kuvaamaan tarkemmin pelaajan suoritusta. Kuinka tilastoja käytetään golf-ennusteiden tekemisessä? Saat lisätietoja jatkamalla lukemista.

Aluksi golfin kaltaisen urheilulajin ennustaminen vaikuttaa monimutkaiselta: tyypillisesti 132–156 pelaajaa kilpailee maastoissa (eli golfkentillä), jotka voivat vaihdella huomattavasti turnauksesta toiseen. Jos tavoitteena on ennustaa tehokkaasti golfturnausten tuloksia, mistä pitäisi aloittaa?

Vastaus on, meidän mielestämme, tilastollisessa mallinnuksessa. Tilastollinen malli kuvaa prosessia, jossa luodaan sarja tietoja (esim. golfturnauksen pisteet).

Tässä artikkelissa kuvaamme yksinkertaisen golfpisteiden mallin ja analysoimme tärkeimpiä siitä vedettäviä päätelmiä golftietojen tulkinnassa.

Golf-ennusteet: Mistä aloittaa?

Golfturnauksissa merkityksellistä ei ole pelaajan pistemäärä itsessään vaan suhteessa kenttään. 72 lyöntiä turnauksessa, jossa kentän keskiarvo oli 74, tulkittaisiin 4 lyöntiä paremmaksi tulokseksi kuin 72 silloin, kun kentän keskiarvo oli 70. Tämä säätö on ongelmallinen, jos kahden turnauskentän golfaajat eivät ole samaa tasoa (tämän yksityiskohdan jätämme toistaiseksi huomiotta).

Kun kenttään suhteutetut pisteet (tästä lähtien vain ”pisteet”) on laskettu, seuraava vaihe on kuvata miten nämä pisteet luodaan (eli rakentaa malli).

Ensiksi teemme oletuksen, joka yksinkertaistaa ongelmaa huomattavasti: oletuksen, että eri golfaajien pisteet golfkentillä ovat itsenäisiä – eli että yhden golfaajan suoritus ei kerro meille mitään toisen suorituksesta.

Tämä muuttaa ongelman golfturnauksien ennustamisesta useaksi yksinkertaisemmaksi ongelmaksi: kunkin yksittäisen golfaajan pisteiden ennustamiseksi.

Seuraavaksi määritämme golfaajan kyvyn olevan hypoteettinen keskiarvopistemäärä loputtomasti toistetusta golfkierroksesta. Esimerkiksi Tiger Woodsin kyky Genesis Open -turnauksessa määrittyy hänen keskiarvopistemäärästään äärettömästä määrästä kierroksia Riviera Country Clubilla. Vaikka tätä arvoa ei olekaan koskaan mahdollista tietää, se on hyödyllinen konseptityökalu.

Kaikki golfturnauksen tulokset (esim. voittaminen, jatkokierrokselle pääseminen) ovat deterministinen funktio kunkin golfaajan kenttään suhteutetusta pistemäärästä.

Yksittäisen golfaajan pisteissä näkyy huomattavaa vaihtelua ajan mittaan. Tämä vaihtelu voidaan ajatella johtuvaksi kahdesta komponentista: golfaajan kykyjen muutoksesta sekä muusta vaikutuksesta, joka sisältää kaiken muun pisteisiin vaikuttavan. Jälkimmäistä voisi kutsua ”satunnaiseksi” vaihteluksi tai – filosofisesta ajattelutavasta riippuen – ”havaitsemattomien tekijöiden” aiheuttamaksi pistevaihteluksi. 

Minä tahansa päivänä golfaajan pisteet määritetään kykyjen ja havaitsemattomien tekijöiden vaikutuksen summana. Esimerkiksi Tiger Woodsin pistemäärä 65 Genesis Openin kolmannella kierroksella oli kuusi lyöntiä kentän keskiarvoa parempi: tämä kuvattaisiin mallissamme Woodsin kykyjen (sanotaan kaksi lyöntiä kentän keskiarvoa parempi) ja neljän lyönnin positiivisen satunnaisvaikutuksen summaksi.

Mallin täydentämistä varten teemme viimeisen yksinkertaistavan oletuksen: oletuksen, että golfaajan kyvyt pysyvät kiinteinä ajan mittaan. Jos golfaajan kyvyt pysyvät kiinteinä, se tarkoittaa, että ajan mittaan havaitut vaihtelut johtuvat mainitsemastamme ”satunnaisesta” vaihtelusta.

Golf-ennustemallin perusta

Se ei välttämättä ole ilmeistä, mutta olemme juuri määrittäneet kokonaan (joskin epämuodollisesti) tilastollisen mallin, joka kuvaa miten golfturnausten tulokset määrittyvät. Tässä on mallin kolme väitettä:

  1. Jokaisen golfaajan kyvyt pysyvät kiinteinä.
  2. Kunkin golfaajan kenttään suhteutettu pistemäärä minä tahansa päivänä on yhdistelmä hänen kykyjään ja satunnaisvaihtelua (eli myyttisiä ”havaitsemattomia tekijöitä”).
  3. Kenttään suhteutetut pisteet ovat itsenäisiä golfaajien välillä.

Kaikki golfturnauksen tulokset (esim. voittaminen, pärjääminen) ovat deterministinen funktio kunkin golfaajan kenttään suhteutetusta pistemäärästä. Täten tämä malli tarjoaa kuvauksen mistä tahansa haluamastamme golfturnauksen tuloksesta.

Tämä perusmalli toimii hyödyllisenä pohjana, kun mietimme golftuloksia. Tämän artikkelin loppuosa tutkii joitakin sen käytännöllisiä seurauksia.

Otoskoko on aina merkityksellinen

Looginen ensimmäinen askel tämän mallin käyttöönotossa on yritys arvioida golfaajien kykyjä. Oletetaan, että meillä on yksittäiselle golfaajalle historiallinen otos pisteitä. Jos otos on riittävän suuri, sen keskiarvo vastaisi golfaajan kykyjä. Millaista otoskokoa voidaan pitää riittävän suurena?

Empiirisesti tutkittuna golfaajan pisteissä on tyypillisesti noin 2,75 lyönnin standardipoikkeama. Jos oletetaan, että pisteillä on normaalijakauma, 68 % pisteistä on 2,75 lyönnin sisällä keskiarvosta ja 95 % on 5,5 lyönnin sisällä. Tilastollisen teorian mukaan voimme olla varsin varmoja, että 100 kierroksen otoksen keskiarvo on 0,275 lyönnin sisällä golfaajan kyvyistä.

Tärkein kompromissi on tunnistaa, että mitä harvemmissa ulottuvuuksissa golfaajan kykyjen annetaan vaihdella, sitä enemmän tietoja saadaan oleellisten määrien arvioimiseen.

Kontekstina on hyvä ajatella sitä faktaa, että 50. ja 100. maailmanrankingin golfaajan kauden kokonaiskeskiarvon ero on alle puoli lyöntiä. Tämä tuo meidät tämän mallin käytännöllisiin vaikutuksiin: jotta hyödyllisiä päätelmiä voidaan vetää golfaajien kyvystä, on luotettava suureen määrään historiallista tietoa.

Tällä mallilla erot golfaajien pisteissä minkä tahansa viikon, kuukauden tai jopa vuoden välillä on pääosin satunnaista vaihtelua. Jotta kahden 0,5 lyönnin sisällä toisistaan olevan golfaajan kyvyt voidaan erottaa luotettavasti, siihen vaaditaan vähintään 100 kierrosta. 

Ratkaisevasti tämä seuraus on mahdollinen ainoastaan mallimme oletuksien perusteella. Ja on mahdollista, että mallissa on virhe. Ehkä golfaajan kyvyt eivät pysykään kiinteinä ajan mittaan ja, yleisempänä esimerkkinä, ehkä ne eivät myöskään ole samat erilaisilla golfkentillä. Sen vuoksi tekijät, jotka laiskasti nimesimme ”havaitsemattomiksi tekijöiksi”, eivät välttämättä olekaan havaitsemattomia!

Kiinteät kyvyt vai kenttäkohtaiset kyvyt?

Kiinteillä kyvyillä golfaajien suoritusten erot eri kentillä oletetaan satunnaisen vaihtelun syyksi, mutta kenttäkohtaisia kykyjä käyttävässä mallissa suoritusero heijastaa vähintään osittain eroja kyvyissä. 

Tämä ei ole pelkästään semanttinen ero. Se, missä määrin golfaajien suorituksen vaihtelun uskotaan johtuvan todellisista eroista kyvyissä eri kentillä satunnaisvaihtelun sijaan, vaikuttaa suuresti siihen, miten heidän kykyjään arvioidaan (ja miten lopulta ennusteet luodaan).

Mitä suurempi satunnaisvaihtelun rooli, sitä suurempi otoskoko vaaditaan golfaajan kykyjen tarkkaan arvioimiseen. Jos kyvyt ovat kiinteät, kaikki vaihtelu golfaajan pisteissä on satunnaista, ja tällöin vaaditaan erittäin suuri otos pisteitä, jotta keskiarvosta saadaan vaihtelu luettua pois.

Maailmassa, jossa kenttäkohtaiset kyvyt vastaavat suuresta osasta havaitsemaamme vaihtelua, on mahdollista, että järkevien arvioiden saamiseen pelaajan kenttäkohtaisista kyvyistä vaaditaan vain muutaman kierroksen verran tietoja oleellisilta kentiltä. 

Mikä malli on lähempänä todellisuutta? Ilman tietojen muodollista analysointia voidaan alustavasti sanoa, että golfaajien pisteet muodostuvat prosessissa, joka on lähempänä ”kiinteät kyvyt” -mallia kuin ”usein vaihtelevat kyvyt” -mallia. 

Kenttäkohtaisten kykyjen esimerkistä tulee huomata, että golfaajan pisteissä on vain hieman vähemmän vaihtelua turnauksen sisällä (eli kierros kierrokselta samalla kentällä) kuin kokonaisuudessaan (eli kaikilla kentillä pelatuilla kierroksilla).

Tämä on selkeä todiste siitä, että muut tekijät kuin kentän soveltuminen pelaajalle ovat merkittävässä roolissa golfaajan pisteiden määrittämisessä. Aiempaan tapaan tästä seuraa se, että suuri otoskoko vaaditaan kenttäkohtaisten kykyjen selvittämiseen.

Selviytymisharhan vaikutus golfissa 

Valtavat vaihtelut golfaajien pisteissä on yleisesti ottaen erittäin vaikeaa selittää (tilastollisesta mielessä) havaittavissa olevilla tekijöillä (havaittavissa oleva tulisi tulkita merkityksessä ”havaittavissa ennen turnauksen alkua”). 

Onko ”kiinteät kyvyt” -malli toisaalta yhtenäinen joidenkin tiedoissa näkyvien hämmästyttävien kuvioiden kanssa? Esimerkiksi Tony Finau jäi jokin aika sitten neljännen peräkkäisen kerran jatkokierroksilta PGA Tourin Phoenix Openissa. Onko tämä pitävä todiste siitä, että Finaun kyvyt ovat heikommat TPC Scottsdalessa kuin muualla? Mahdollisesti, mutta tämänkaltaisia kuvioita esiintyisi, vaikka ”kiinteät kyvyt” -malli olisi totta.

Logiikka vastaa vedonlyöjien selviytymisharhaa. Vaikka onkin ehkä yksi mahdollisuus 500:sta, että Finaun kaliiperin golfaaja jäisi jatkokierroksilta neljä kertaa peräkkäin, kun mietitään kaikkia golfkenttien ja pelaajien (tuhansien pelaajien) yhdistelmiä, todennäköisyyden 1:500 tapahtumia on odotettavissa säännöllisesti useiden PGA Tour -kausien aikana. Yhteen tai kahteen esimerkkiin keskittyminen ja kaiken muun hylkääminen ei anna tarkkaa kuvaa kentän soveltumisesta pelaajalle.

Tämän yksinkertaisen golf-ennustemallin kehittäminen 

Tässä artikkelissa selitetty yksinkertainen malli on hyödyllinen, kun yritetään ymmärtää eri tapoja golfpisteiden analysoimiseen. Toisistaan poikkeavilta vaikuttavat filosofiat, kuten kiinteitä kykyjä ja kenttäkohtaisia kykyjä käyttävät mallit, voidaan analysoida samassa viitekehyksessä, jolloin niiden edut ja haitat selkeytyvät.

Tässä tapauksessa tärkein kompromissi on tunnistaa, että mitä harvemmissa ulottuvuuksissa golfaajan kykyjen annetaan vaihdella, sitä enemmän tietoja saadaan oleellisten määrien arvioimiseen. Esimerkiksi tietyn golfaajan kykyjen arvioimisen pohjaksi on yleensä vain 5–10 kierrosta kullakin PGA Tour -kentällä. 

Sitä vastoin kunkin golfaajan kiinteiden kykyjen arvioimiseen voidaan käyttää kaikkia heidän tietojaan. Kumpikaan filosofia ei itsessään ole toista parempi, ja kiinteän kyvyn malli pärjää sitä paremmin mitä suurempi satunnaisvaihtelun vaikutus golfpisteisiin on. 

Meidän lähestymistapamme golfpisteiden ymmärtämiseen on lähempänä kiinteiden kykyjen mallia. Vaikka malli onkin selkeästi ”virheellinen”, sen kyky järkeistää (ja lopulta ennustaa) golfpisteiden kuvioita on vaikuttava.

Tulevissa artikkeleissa tarjoamme todisteita, jotka tukevat tätä väitettä, mutta lisäksi tutkimme tapoja, joilla tätä yksinkertaista mallia voidaan parantaa. Jos hyväksyt kiinteiden kykyjen mallin järkeväksi todellisuuden arvioinniksi, sen tärkein käytännön opetus on se, että on todella helppoa joutua satunnaisuuden hämäämäksi golftietoja analysoidessa.  

Vedonlyöntiresurssit auttavat vedonlyönnissä

Pinnaclen Vedonlyöntiresurssit-osio on yksi netin kattavimmista asiantuntevan vedonlyöntineuvonnan kokoelmista. Tavoitteenamme on auttaa kaikentasoisia vedonlyöjiä parantamaan tietämystään.