joulu 20, 2017
joulu 20, 2017

Tiedonlouhinnan ongelma urheiluvedonlyönnissä

Mitä tiedonlouhinta ja kuvioiden etsintä on?

Yksinkertaisen tasapelin pelaamisen strategian analysointi

Miksi vedonlyöjien on ”laskettava apinat”?

Tiedonlouhinnan ongelma urheiluvedonlyönnissä

Tietojen käyttäminen osana vedonlyöntistrategiaa on yleinen käytäntö. Vaikka jotkut tulokset voivatkin näyttää vaikuttavilta, tärkein asia on prosessi, jolla ne on saavutettu. Mitkä ovat tiedonlouhinnan ongelmat urheiluvedonlyönnissä? Lue lisää tästä artikkelista.

Muutaman viime kuukauden aikana olen nähnyt lukuisia sivustoja, blogeja ja foorumikirjoituksia, joiden kirjoittajat väittävät löytäneensä tuottoisia vedonlyöntijärjestelmiä käyttämällä vain taannehtivasti muutamaa mielivaltaista valintakriteeriä suureen aiempien tulosten ja vedonlyöntikertoimien tietojoukkoon.

Tässä artikkelissa tutkin sudenkuoppia, joita liittyy edun etsimiseen tiedonlouhinnalla: urheiluvedonlyöjälle korrelaatio ilman kausaatiota merkitsee vaikeuksia.

Tiedonlouhinta ja kuvioiden etsintä

Tiedonlouhinnassa analysoidaan suuria tietojoukkoja toistuvien kuvioiden ja tietojen tunnistamiseksi. Kuvioiden etsinnässä (data dredging) etsitään tiedonlouhinnan avulla tiedoista kuvioita, jotka voidaan esittää tilastollisesti merkittävinä.

Selitystä ei voi kuitenkaan sovittaa jälkikäteen tuloksiin, sillä tämä kääntäisi syys-seuraussuhteen päälaelleen.

Urheiluvedonlyöntiin on helppo soveltaa tiedonlouhintaa ja kuvioiden etsintää. Eri sivustoissa on saatavilla suuria määriä aiempia jalkapallotuloksia ja vedonlyöntikertoimia, joiden avulla voi pyrkiä jälkikäteen etsimään tuottavia vedonlyöntijärjestelmiä ja testaamaan niitä.

Pääasiallisena rajoituksena tämän menetelmän käyttämisessä tietoanalyysin työkaluna on kuitenkin se, että yleensä ei esitetä etukäteen hypoteesia sille, mikä on tuottanut nämä kuviot.

Korrelaatio ilman kausaatiota 

Olen aiemmin käsitellyt korrelaation ja kausaation sekoittamisen sudenkuoppia sekä täsmällisyyden sekoittamista tarkkuuteen ja oikeellisuuteen. Jotta vedonlyöntijärjestelmä olisi kelvollinen ja tarkoituksenmukainen, meillä on oltava jokin käsitys siitä, mikä sen onnistumisen alun alkaen aiheuttaa.

Ellet pysty selvittämään korrelaation taustalla olevaa kausaatiota eli syy-seuraussuhdetta, et voi tietää, mitkä seikat voivat aiheuttaa korrelaation hajoamisen – korrelaatio ilman kausaatiota on merkitysetön.

Arvoa kätkettynä Englannin kakkosliigassa?

Twitter-syötteessäni muutama viikko sitten kiinnitin huomiota uskomattomiin tuloksiin, jotka olisi voinut saada lyömällä sokeasti vetoa kaikista vierasvoitoista Englannin kakkosliigassa (League 2) kausien 2012/13 ja 2016/17 välillä – lähes 3 000 vetoa. Tulos oli 4,3 % Pinnaclen sulkemiskertoimilla ja lähes 10 % parhailla markkinahinnoilla.

Vain yhdellä kyseisistä viidestä kaudesta tuli tappio Pinnaclen sulkemiskertoimilla, ja sekin oli pieni. Voittokaavio näyttää tältä.

{In-article 1}

Päätelmä oli, että markkinat aliarvioivat kyseisen divisioonan vierasjoukkueita eli niillä oli ylikerroin. Tämä ei myöskään ole mikään lyhytaikainen vääristymä, vaan vaikuttaisi pikemminkin säännönmukaiselta ja järjestelmälliseltä virheeltä tavassa, jolla vedonlyöjät ovat aliarvioineet vierasvoittojen todennäköisyyttä Englannin kakkosliigassa – paljon vedonvälittäjän katetta enemmän. Voimmeko kuitenkaan todella uskoa, että löydöksessämme olisi jokin syy-seuraussuhde?

Tasapelin pelaaminen: se kuulostaa niin yksinkertaiselta

Toinen strategia, jonka olen nähnyt äskettäin julkaistuna, on tasapelin pelaaminen. Siinä väitetään saadun lähes 16 %:n tuotto sijoitukselle yli 2 500 vedon aikana, kun strategiaa testattiin taannehtivasti jalkapallotuloksilla ja Pinnaclen ottelukertoimilla vuodesta 2012 lähtien.

Valintakriteerit olivat yksinkertaiset: kummallakaan joukkueella ei saanut olla tasapeliä edellisten kolmen ottelun aikana, ja kertoimien tuli olla välillä 3,20–3,56. Tämän tuoton tilastollisen merkittävyyden testaaminen osoittaa, että tilasto todella on poikkeuksellinen. Voisimme odottaa tällaista tuottavuutta näistä kertoimista kenties vain kerran miljoonasta, jos oletamme, että kuvio on syntynyt täysin satunnaisesti.

Voidaan hyvin kysyä, miksi on valittu juuri nämä kriteerit. Miksi ei edelliset neljä, viisi tai kuusi ottelua? Miksi eivät kertoimet 3,07–3,41 tai 3,13–3,72? Lähes varmasti näitä kriteereitä ei tietenkään valittu ennen tiedonlouhintaa; ne vain havaittiin tuottavan tämän voitollisen lopputuloksen. Eikä selitystä voi sovittaa jälkikäteen tuloksiin, sillä tämä kääntäisi syys-seuraussuhteen päälaelleen.

Ellet pysty selvittämään korrelaation taustalla olevaa kausaatiota eli syy-seuraussuhdetta, et voi tietää, mitkä seikat voivat aiheuttaa korrelaation hajoamisen.

Tämän strategian puolustuksesi voisit nyt sanoa: ”yksi miljoonasta – ei kai tämä voi olla mitenkään pelkkää satunnaisuutta?” Totta. Mitä se kuitenkaan kertoo, jos meillä on miljoona strategiaa testattavana ja löydämme yhden, joka on tilastollisesti näin merkittävä? Nassim Taleb kertoo kirjassaan Fooled by Randomness fantasiasta, jonka mukaan apinat pystyisivät kirjoittamaan Homeroksen eepokset kirjoituskoneella:

”Jos kirjoituskoneella olisi viisi apinaa, Iliaan kirjoittaja tekisi minuun vaikutuksen ja uskoisin varmasti hänen olevan muinaisen runoilijan reinkarnaatio. Jos apinoita olisi miljardi potenssiin miljardi, en olisi yhtä vaikuttunut...”

Niin kuin Taleb tähdentää, harva vaivautuu laskemaan kaikki apinat, ja jos vaivautuisi, tuskin mikään niistä tuottaisi niin mielenkiintoisia kuvioita, että ne olisivat keskustelemisen arvoisia. Selviytymisharha pitää huolen siitä, että voimme nähdä vain voittajat.

Miksi vedonlyöjien on ”laskettava apinat”?

Jos emme esitä ennakkohypoteeseja ennen tuottoisien kuvioiden etsimistä tiedoista, meidän tulisi sen sijaan testata suuri määrä vedonlyöntijärjestelmiä ja katsoa, kuinka usein löydämme tilastollisen merkittävyyden. Kuten vastasin tähän keskusteluun Twitter-syötteessäni: ”kuvataan tuottojen jakauma 10 000:sta sokkovetojen otoksesta 10 000 eri kriteerin mukaan ja katsotaan, miltä tulos näyttää.”

No, en pystynyt löytämään 10 000:ta sopivankokoista sokkovetojen otosta – se olisi ollut suuri tietomäärä – mutta löysin 1 686 vähintään 100 vedon otosta. Jokainen otos vastasi yhden jalkapalloliigan yhtä kokonaista kautta sokkovetoja tietystä tuloksesta – kotivoitosta, vierasvoitosta tai tasapelistä.

Kun olin ensin poistanut Pinnaclen katteen kunkin lopputuloksen ”todellisen” hinnan selvittämiseksi, laskin kunkin otoksen teoreettiset palautukset ja niiden t-arvot – suosikkimittarini sille, kuinka epätodennäköisesti tällaiset palautukset syntyisivät sattumalta. Nämä on kuvattu alla olevassa jakaumassa. Positiiviset t-arvot kuvaavat voitollisia otoksia ja negatiiviset tappiollisia. Mitä suurempi luku on, sitä epätodennäköisempi tapahtuma on.

{In-article 2}

Jos normaalijakauma (Gaussin kellokäyrä) on sinulle tuttu, tunnistat sen osoitukseksi satunnaisuudesta. Tämä tarkoittaa, että näiden sokkovetojen otosten käyttäytyminen on hyvin lähellä sitä, mitä olettaisimme tapahtuvan, jos kaikki johtuisi pelkästä sattumasta.

Kun asiaa tarkastellaan kokonaisuutena, mistään systemaattisesta on hyvin vähän todisteita. Englannin kakkosliigan tuottoisat kaudet olivat todennäköisimmin vain onnekkaita suorituksia, jotka löydettiin leikkimällä tietojen kanssa ja törmäämällä tuottoisalta kuviolta näyttävään asiaan, jonka olisi voinut aiheuttaa vedonlyöjien tai vedonvälittäjien järjestelmällisen epärationaalinen käyttäytyminen.

”Todellisten” kertoimien palautuksilla viideltä kaudelta yhteensä olisi t-arvona +2,4, josta voi johtaa todennäköisyydeksi (p-arvoksi) noin 1/100, että tämä tapahtuisi sattumalta. Tilastollisesti tämä on merkittävä, ja jos olisimme julkaisemassa kyseisestä otoksesta erikseen akateemista tutkimusta, meillä olisi kiusaus kutsua sitä todelliseksi ilmiöksi. Tiedämme kuitenkin ison kuvan analysoinnista, että se melko varmasti ei ole sitä, vaan puhdasta tuuria.

Jos laadimme vedonlyöntijärjestelmän etsimällä kuvioita, kunnes löydämme voitolliset kriteerit, emme kenties pysty selittämään löydöksiämme syy-seuraussuhteella.

Itse asiassa otos Englannin kakkosliigan kaudelta 2007/08 tuotti vielä paremmat tulokset. 242 ottelua joulukuusta toukokuuhun, joista minulla on tiedot, osoittivat teoreettiseksi tuotoksi yli 29 % (tai 35 % ”todellisilla” kertoimilla, joista on poistettu kate). Tällaisen voisi odottaa tapahtuvan sattumalta noin kerran tuhannesta. Se oli paras tulos 1 686 otoksesta. 

Yhteensä 837 eli noin puolet otoksista oli voitollisia ”todellisilla” kertoimilla, kuten sopi odottaakin. Tällaisilla otosten otoksella odottaisimme luonnostaan, että niistä parhaalla on p-arvona noin 1 / 1 686. Odottaisimme, että noin 16 otoksella (eli noin 1 %:lla) olisi pienempi p-arvo kuin 1/100. Vastaavasti odottaisimme, että noin 168 otoksella (eli noin 10 %:lla) olisi pienempi p-arvo kuin 1/10. Jos tilanne poikkeaisi tästä, voisimme hyvällä syyllä ihmetellä, olisiko jonkin niistä taustalla jotain muutakin kuin tuuria.

Todellisuudessa nämä määrät olivat 15 (0,9 %) ja 158 (9,4 %), eli varsin lähellä odotusarvoa. Seuraavassa kaaviossa vertaillaan sellaisten voitollisten otosten prosenttiosuuden odotusarvoa, joiden p-arvot alittavat tietyn rajan (1/10 = 10 %, 1/5 = 20 % ja niin edelleen), sekä tapahtunutta todellista prosenttiosuutta. Lähes täydellinen vastaavuus on hämmästyttävä.

Pohjimmiltaan kaavio on toinen tapa sanoa, että lähes kaikki tässä tarkastelemamme on seurausta pelkästä sattumasta. Toki kerran tuhannesta saavutettava tuottavuus on vaikuttava, mutta jos meillä on valittavissa 1 000 otosta, se ei ole mitenkään odottamaton eikä näin ollen osoitus mistään syy-seuraussuhteesta. 

{In-article 3} 

Mitä vedonlyöjät voivat oppia tiedonlouhinnasta ja kuvioiden etsinnästä?

Ei ole ehkä yllätys, että tuottavuusjakauma jalkapallodivisioonan ja kauden mukaan on satunnainen. Kyseessä on tuskin hienostunein tapa laatia vedonlyöntijärjestelmä. Tärkeä näkökohta on kuitenkin tämä: jos laadimme vedonlyöntijärjestelmän etsimällä kuvioita, kunne löydämme voitolliset kriteerit, emme kenties pysty selittämään löydöksiämme syy-seuraussuhteella. 

Ellei meillä ole esittää syytä tuotolle, se voi olla silkkaa roskaa. Korrelaatio ilman kausaatiota yksinkertaisesti regressoituu kohti keskiarvoa. Urheiluvedonlyöjälle tämä tarkoittaa rahan häviämistä pitkällä aikavälillä.

Joku voisi väittää, ettei siinä ole mitään väärää, että hyödyntää onnea saadakseen tuottoa, sillä siitähän vedonlyönnissä on kyse. Kun teemme niin, meidän ei kuitenkaan tule huijata itseämme ja olettaa, että menestyksemme on seurausta mistään muusta.

Vedonlyöntiresurssit auttavat vedonlyönnissä

Pinnaclen Vedonlyöntiresurssit-osio on yksi netin kattavimmista asiantuntevan vedonlyöntineuvonnan kokoelmista. Tavoitteenamme on auttaa kaikentasoisia vedonlyöjiä parantamaan tietämystään.