1 5, 2018
1 5, 2018

Problémy dolování z dat v sázení na sporty

Co je to dolování z dat a „bagrování“ z dat?

Analýza jednoduché strategie sázení na remízu

Proč musí sázkaři „počítat opice“?

Problémy dolování z dat v sázení na sporty

Využití dat v rámci sázkové strategie je dnes už běžné. Ale ať některé výsledky vypadají sebevíce působivě, je důležitý i postup, kterým bylo těchto výsledků dosaženo. Jaké problémy jsou spojeny s dolováním z dat v kontextu sportovního sázení? Čtěte dál a uvidíte.

Za posledních několik měsíců jsem narazil na hodně webových stránek, blogů a příspěvků na fórech, které tvrdí, že nalezly systém ziskového sázení jednoduše retrospektivním uplatněním několika zdánlivě náhodných výběrových kritérií na velké datové sady minulých výsledků a sázkových kurzů.

V tomto článku se věnuji rizikům hledání ziskové výhody pomocí dolování z dat: pro sázkaře na sporty znamená korelace bez příčiny problém.

Dolování z dat a „bagrování“ z dat

Dolování z dat (data mining) je analyzování velkých datových sad ve snaze najít v nich vzory a informace. „Bagrování“ z dat (data dredging) pak spočívá ve využití dolování z dat k tomu, abychom v použitých datech nalezli vzory, které lze označit za statisticky významné.

Nelze doplňovat vysvětlení k výsledku, protože bychom tím postavili kauzalitu na hlavu.

V sázení na sporty se využití dolování a bagrování z dat přímo nabízí. Na různých webech jsou dostupná velká množství fotbalových výsledků a kurzů z minulosti, takže z nich lze retrospektivně hledat a testovat ziskové sázkové systémy.

Hlavním omezením ve využívání těchto údajů jako analytického nástroje je však fakt, že zpravidla nejsou předem vysloveny hypotézy, které by vysvětlily, proč se takové vzory v datech objevují.

Korelace bez příčiny 

V minulosti jsem psal o rizicích záměny korelace s kauzalitou a přesnosti se správností a platností. Aby byl sázkový systém platný a skutečně dělal to, co se od něj očekává, musíme mít především představu o tom, co jeho úspěch způsobuje.

Pokud neurčíte příčinu stojící za určitou korelací, nebudete mít tušení, co může způsobit rozpad této korelace – zkrátka, korelace bez kauzality nemá smysl.

Skrytá hodnota v anglické druhé fotbalové lize?

Na mém Twitterovém účtu mě před několika týdny zaujala výborná návratnost, které bylo možno dosáhnout bezmyšlenkovitým sázením na výhry hostů v anglické druhé lize v letech 2012/13 až 2016/17 včetně – dohromady téměř 3000 sázek. Při použití závěrečných kurzů Pinnacle to bylo 4,3 % a v případě nejlepších kurzů dostupných na trhu téměř 10 %.

Jen v jedné z těchto pěti sezón by závěrečné kurzy Pinnacle vedly k prohře sázkaře, a navíc jen malé. Graf zisků vypadá takto.

article-data-mining-3-in-article.jpg

Autor došel k závěru, že trh v této divizi podceňoval týmy hrající v roli hostů. To znamená, že pro ně stanovoval příliš vysoké kurzy. Nešlo ale o krátkodobou odchylku; spíše se zdá, že šlo o soustavnou a systematickou chybu ve způsobu, jakým sázkaři chápou pravděpodobnost vítězství hostů v anglické druhé lize. Daleko to přesahuje hranice bookmakerovy marže. Lze však skutečně věřit, že je v tomto zjištění nějaká kauzalita?

Sázka na remízu: Zní to tak jednoduše

Další strategie, o které jsem nedávno viděl psát, je založena na sázení na remízy. Údajně s ní bylo možno dosáhnout téměř 16% návratnosti investic při více než 2500 sázkách, zpětně testovaných proti fotbalovým výsledkům a kurzům Pinnacle na tyto zápasy od roku 2012.

Výběrová kritéria byla prostá: Žádný tým nesměl v předchozích třech zápasech remizovat; kurz musel být v rozsahu 3,20 až 3,56. Testováním statistického významu tohoto zisku jsme zjistili, že jde vskutku o výjimečný výsledek. Takovou ziskovost lze při těchto kurzech očekávat snad jednou za milion případů či méně. Z toho lze odvodit, že jde o zcela náhodnou událost.

Dalo by se docela dobře zeptat, proč byla zvolena právě tato kritéria. Proč ne předchozí čtyři, pět nebo šest zápasů? Proč ne kurzy od 3,07 do 3,41 nebo od 3,13 do 3,72? Tato kritéria samozřejmě téměř určitě nebyla určena před dolováním z dat; jednoduše se ukázalo, že s jejich použitím lze dosáhnout ziskového výsledku. A nelze doplňovat vysvětlení k výsledku, protože bychom tím postavili kauzalitu na hlavu.

Pokud neurčíte příčinu stojící za určitou korelací, nebudete mít tušení, co může způsobit rozpad této korelace.

Na obranu této strategie byste mohli říci: „Šance byla jedna z milionu, to přece znamená, že to není náhodné, ne?“ Ano, pravda. Jenže pokud máme k ověření milion strategií a u jedné z nich zjistíme takovouto statistickou významnost, co nám to říká? Nassim Taleb v knize Fooled by Randomness (Oklamáni náhodností) popsal fantazii o opicích, které sedí u psacího stroje a snaží se znovu napsat Homérovu poezii:

„Pokud by ve hře bylo pět opic, udělal by na mě autor Iliady dost velký dojem, až bych možná získal podezření, že je reinkarnací starověkého básníka. Pokud by ale opic byla miliarda na miliardtou, už by to na mě takový dojem neudělalo...“

Jak poukazuje Taleb, málokdo se namáhá spočítat všechny opice Zkreslení přeživšího způsobuje, že vidíme pouze ty úspěšné.

Proč musí sázkaři „počítat opice“?

Pokud při hledání ziskových vzorů ještě před analyzováním dat nevyslovíme hypotézu, pak bychom namísto toho měli testovat velký počet sázkových systémů a zjistit, jak často jsou jejich výsledky statisticky významné. Jak jsem v této debatě odpověděl na svém twitterovém účtu, „pojďme vynést do grafu rozdělení výnosů z 10 000 vzorků slepých sázek vybraných podle 10 000 různých kritérií a uvidíme, jak bude vypadat.“

Nu, 10 000 vzorků slepých sázek vhodné velikosti jsem nenašel – znamenalo by to spoustu dat – alespoň 1686 o nejméně 100 sázkách však ano. Každý vzorek představoval sezónu slepého sázení na určitý výsledek (domácí, remíza nebo hosté) v jedné fotbalové lize po dobu jedné sezóny.

Nejprve jsem odečetl marži společnosti Pinnacle a vypočítal tak „spravedlivé“ kurzy všech výsledků. Pak jsem spočítal teoretické výnosy všech vzorků a jejich t-statistiku, což je mé oblíbené měřítko nepravděpodobnosti toho, že by takové výnosy mohly být náhodné. Jsou zakresleny v následujícím grafu rozdělení. Kladná t-skóre představují ziskové vzorky, záporná skóre prodělečné. Čím větší je číslo, tím méně pravděpodobné.

article-data-mining-2-in-article.jpg

Ti, kdo znají normální rozdělení (křivka zvonovitého tvaru) vědí, že jde o doklad náhodnosti. To znamená, že výkon těchto vzorků slepých sázek se dobře shoduje s tím, co lze očekávat, pokud by se všechno řídilo jen náhodou.

Vezmeme-li to jako celek, evidentně se zde děje jen málo systematického, možná vůbec nic. Ziskové sezóny v anglické druhé lize byly velmi pravděpodobně pouze šťastnými výsledky, nalezenými díky experimentování s daty. Při něm bylo jednoduše odhaleno něco, co vypadalo jako ziskový vzorec způsobený systematicky iracionálním chováním sázkaře nebo bookmakera.

Celková návratnost za těchto pět sezón při „spravedlivých“ kurzech by měla t-skóre +2,4, což implikuje pravděpodobnost (hodnota p) zhruba 1:100, že k tomu došlo náhodně. To je statisticky významné a pokud bychom o tom publikovali vědeckou práci a izolovali to od souvislostí, měli bychom nutkání nazvat to skutečností. My však víme, že podle analýzy širší situace to skutečnost téměř určitě není, jen slepá náhoda.

Pokud se rozhodneme vytvářet sázkový systém pomocí dolování z dat a neurčíme si předem zisková kritéria, riskujeme, že se nám nepodaří stanovit kauzální vysvětlení našich zjištění.

Vzorek ze sezóny 2007/08 anglické druhé ligy měl dokonce ještě lepší výsledky. 242 zápasy od prosince do května, o nichž mám údaje, ukazují teoretickou ziskovost více než 29 % (případně 35 % při použití „spravedlivých“ kurzů po odečtení marže). Náhoně lze takové výsledky očekávat ve zhruba 1 z 1000 případů. Byl to nejlepší výsledek ze 1686 vzorků. 

Celkem 837, tedy asi polovina, z nich byla při „spravedlivých“ kurzech zisková, přesně podle očekávání. U takového vzorku vzorků bychom přirozeně očekávali, že nejlepší z nich bude mít p-hodnotu kolem 1:1686. Očekávali bychom, že asi 16 vzorků (tedy asi 1 %) bude mít p-hodnotu menší než 1:100. Dále bychom očekávali, že asi 168 vzorků (asi 10 %) bude mít p-hodnotu menší než 1:10. Pokud by byly výsledky jiné, mohli bychom oprávněně přemýšlet, zda nebyl některý z nich ovlivněn něčím jiným než náhodou.

Ve skutečnosti bylo prvních z nich 15 (0,9 %) a druhých 158 (9,4 %), tedy velmi blízko očekáváním. Níže uvedený graf srovnává teoretické očekávání procent ziskových vzorků s p-hodnotami pod určitou hranicí (1:10 = 10 %, 1:5 = 20 % atd.) se skutečnými procenty. Skoro dokonalý soulad je evidentní.

Tento graf je v podstatě dalším způsobem, jak říci, že téměř vše, na co se díváme, nastalo pouze a jen díky náhodě. Ano, ziskovost 1:1000 je působivá, pokud si však můžeme vybírat z více než 1000 vzorků, není neočekávaná. Proto není pádným důkazem jakékoli kauzality. 

article-data-mining-1-in-article.jpg

Co se mohou sázkaři o dolování a „bagrování“ dat naučit?

Možná je trochu překvapivé [sic], že rozdělení ziskovosti v sezónní fotbalové divizi je náhodné. Sotva jde o zvláště sofistikovaný způsob vytváření sázkového systému. Důležitá pointa je nicméně tato: Pokud se rozhodneme vytvářet sázkový systém pomocí dolování z dat a neurčíme si předem zisková kritéria, riskujeme, že se nám nepodaří stanovit kauzální vysvětlení našich zjištění. 

Pokud neznáme důvod, proč bylo příslušného zisku dosaženo, může to být klidně naprostý nesmysl. Korelace, u níž neznáme příčinu, se jednoduše vrací k průměru. Pro sázkaře na sporty to znamená, že při dlouhodobém sázení prodělá.

Dalo by se tvrdit, že není nic špatného, pokud využijeme náhodu k dosažení zisku, na tom je koneckonců založeno celé sázení. Ale pokud to uděláme, neměli bychom klamat sami sebe předpokladem, že byl náš úspěch způsoben čímkoli jiným.

Informační zdroje o sázení – Abyste mohli lépe sázet

Informační zdroje o sázení společnosti Pinnacle jsou jednou z nejrozsáhlejších sbírek odborných článků a rad o sázení, jaké na internetu najdete. Zajímavé informace v ní najdou sázkaři bez ohledu na míru svých zkušeností. Naším cílem je zprostředkovat lidem znalosti, aby mohli lépe sázet.