close
Jan 5, 2018
Jan 5, 2018

Das Problem des Data-Mining bei Sportwetten

Was bedeuten Data-Mining und P-Hacking?

Analyse der einfachen Strategie zum Absichern von Unentschieden

Warum Wettende „Affen zählen“ müssen

Das Problem des Data-Mining bei Sportwetten

Die Nutzung von Daten im Rahmen einer Strategie für Wetten ist ein übliches Vorgehen. So eindrucksvoll einige Ergebnisse auch aussehen mögen, der Prozess, mit dem solche Ergebnisse erzielt werden, ist der eigentlich interessante Teil. Welche Probleme gibt es mit dem Data-Mining bei Sportwetten? Lesen Sie weiter, um mehr zu erfahren.

In den vergangenen Monaten bin ich auf eine beträchtliche Anzahl von Websites, Blogs und Forumposts gestoßen, in denen behauptet wird, ein profitables Wettsystem aufgedeckt zu haben, indem einfach nur einige recht willkürlich scheinende Auswahlkriterien auf große Datensets historischer Ergebnisse und Wettquoten angewendet wurden.

In diesem Artikel untersuche ich die Tücken, die Sportwettendene bei der Suche nach einem lukrativen Vorteil mithilfe von Data-Mining erwarten dürfen, denn Korrelation ohne Kausalität verspricht Ärger.

Data-Mining und Data-Dredging

Data-Mining umfasst den Prozess der Analyse großer Datensets, um Muster und Informationen aufzudecken. Genauer gesagt, besteht die Aufgabe des Data-Dredging in der Nutzung von Data-Mining zum Aufdecken von Mustern in den Daten, die als statistisch relevant angesehen werden können.

Wir können nicht nachträglich eine Erklärung an ein Ergebnisses anpassen, denn dadurch wird die Kausalität auf den Kopf gestellt.

Sportwetten eigenen sich gut für Data-Mining und Data-Dredging. Verschiedene Websites stellen große Mengen an historischen Fußballergebnissen und Wettquoten für die rückwirkende Suche nach profitablen Wettsystemen und deren Tests zur Verfügung.

Die wichtigste Hürde bei deren Nutzung als Datenanalysetool besteht jedoch darin, dass normalerweise keine Hypothesen zu der Frage aufgestellt werden, warum diese Muster möglicherweise aufgetreten sind.

Korrelation ohne Kausalität 

Ich habe bereits früher die Schwierigkeiten beim Verwechseln von Korrelation mit Kausalität, von Präzision mit Genauigkeit und Gültigkeit diskutiert. Damit ein Wettsystem gültig ist und wirklich das tut, was es soll, müssen wir ein Idee darüber haben, was in erster Linie die Ursache des Erfolgs ist.

Ohne Feststellung der Ursache hinter der Korrelation werden Sie auch nicht wissen, aus welchem Grund Ihre Korrelation möglicherweise wieder verschwindet – Korrelation ohne Kausalität ist bedeutungslos.

Versteckter Wert in der zweiten englischen Fußballiga?

Über meinen Twitter-Feed stieß ich vor einigen Wochen auf die überdurchschnittlichen Renditen, die man durch blindes Wetten auf alle Auswärtssiege in der zweiten englischen Liga von 2012/13 bis einschließlich 2016/17 mit annähernd 3.000 Einsätzen hätte erzielen können: 4,3 % mit den Pinnacle-Abschlussqoten und annähernd 10 % mit den besten Marktquoten.

In nur einer der fünf Spielzeiten hätte man mit der Pinnacle-Abschlussquote verloren, aber der Verlust wäre nur gering gewesen. Der Profit lässt sich wie folgt in einem Diagramm darstellen:

article-data-mining-3-in-article.jpg

Die These war, dass der Markt Auswärtsteams in dieser Liga unterschätzt und sie überteuert waren. Hier handelt es sich offenbar nicht um eine kurzfristige Anomalie, sondern es scheint sich um einen dauerhaften und systematischen Fehler der Art zu handeln, dass Wettende die Wahrscheinlichkeit von Auswärtssiegen in der English League 2 unterschätzt haben – weit über die Grenzen für die Gewinnmargen der Buchmacher. Aber können wir wirklich glauben, dass es eine Kausalität in dem gibt, was wir hier gefunden haben?

Absichern des Unentschiedes: Es klingt so einfach

Eine weitere Strategie, die kürzlich veröffentlich wurde, nennt sich „Absichern von Unentschieden“. Darin wird behauptet, dass bei Prüfung der Fußballergebnisse und der Pinnacle-Quoten von Spiele seit 2012 Renditen von fast 16 % (des Umsatzes) von über 2.500 Einsätzen erzielt wurde.

Die Auswahlkriterien waren einfach: keine der beiden Mannschaften sollte in den letzten drei Spielen ein Unentschieden erzielt haben, und die Quoten mussten im Bereich 3,20 bis 3,56 liegen. Beim Testen der statistischen Signifikanz dieses Gewinns zeigte sich, dass die Daten wirklich außergewöhnlich sind. Wir würden einen solchen Grad an Rentabilität aus diesen Quoten höchstens einmal in eine Million Fällen erwarten und daher annehmen, dass dieses Muster kein Zufall sein kann.

Man sollte sich allerdings fragen, warum genau diese Kriterien gewählt wurden. Warum nicht die vorherigen vier, fünf oder sechs Spiele? Warum nicht Quoten von 3,07 bis 3,41 oder 3,13 bis 3,72? Natürlich wurden die Kriterien mit großer Wahrscheinlichkeit erst ausgewählt, nachdem die Daten per Data-Mining untersucht worden waren. Mit diesen Kriterien wurde einfach das profitabelste Ergebnis produziert. Aber wir können nicht nachträglich eine Erklärung an ein Ergebnis anpassen, denn dadurch wird die Kausalität auf den Kopf gestellt.

Ohne Feststellung der Ursache hinter der Korrelation werden Sie auch nicht wissen, aus welchem Grund Ihre Korrelation möglicherweise wieder verschwindet.

Zur Verteidigung dieser Strategie könnten Sie nun auch erwidern: „Eins-zu-eine-Million – das kann keine Zufall sein, oder?“ Ja, stimmt. Wenn wir jedoch eine Million Strategien zu testen hätten, und wir finden dabei eine einzige, die statistisch so signifikant wie diese ist, was sagt uns das dann? Nassim Taleb erzählt in „Fooled by Randomness“ über eine Fantasie, dass Affen versuchen Homers Dichtung auf einer Schreibmaschine neu zu erschaffen:

„Wenn fünf Affen im Spiel wären, wäre ich ziemlich beeindruckt vom Verfasser der Ilias, ich würde ihn sogar für die Reinkarnation des alten Dichters halten. Wenn es eine Milliarde hoch eine Milliarde Affen wären, wäre ich weniger beeindruckt ...“

Taleb erläutert, dass sich nur wenige Menschen darum scheren würden, alle Affen zu zählen, und wenn sie nur ein paar zählen und dabei interessante Muster sehen, würden sie das als große Entdeckung ausgeben. Der Survivorship Bias sorgt dafür, dass wir nur die Gewinner sehen.

Warum Wettende „Affen zählen“ müssen

Wenn wir vor dem Durchforsten unserer Daten auf der Suche nach lukrativen Mustern keine Hypothese aufstellen möchten, dann sollten wir stattdessen aber eine große Anzahl von Wettsystemen testen, um festzustellen, wie häufig wir statistische Signifikanz finden. Wie ich schon in der Diskussion auf meinen Twitter-Feed geantwortet habe, „müssen wir die Verteilung von Gewinnen aus 10.000 Stichproben von Blindwetten, die nach 10.000 unterschiedlichen Kriterien ausgewählt wurden, grafisch darstellen und dann schauen, wie diese Grafik aussieht.“

Ich konnte keine 10.000 Stichproben von Blindwetten der passenden Größe finden, denn dazu wäre eine große Datenmenge notwendig, aber 1.686 Stichproben mit mindestens 100 Einsätzen. Jede Stichprobe steht für eine Saison von Blindwetten auf ein bestimmtes Ergebnis (Heimsieg, Unentschieden, Auswärtssieg) für eine einzige Fußballliga über eine einzige Spielzeit.

Zuerst habe ich die Gewinnmarge von Pinnacle entfernt, um den „echten“ Preis für jedes Ergebnis zu erhalten. Dann habe ich die theoretischen Renditen jeder Stichprobe und deren t-Wert berechnet – mein bevorzugter Messwert für die Unwahrscheinlichkeit, mit der diese Renditen durch Zufall auftreten können. Die Ergebnisse sind in dem Verteilungsdiagramm unten dargestellt. Positive t-Werte stehen für profitable Stichproben, negative Werte für verlustbringende Stichproben. Je größer die Anzahl, desto geringer ist die Wahrscheinlichkeit.

article-data-mining-2-in-article.jpg

Diejenigen unter Ihnen, die eine Normalverteilung (Glockenkurve) kennen, werden im Ergebnis den Beweis der Zufälligkeit erkennen. Die Performance dieser Stichproben von Blindwetten kommt dem nahe, was wir erwarten würden, wenn alles, was passiert, nur Zufall ist.

Betrachtet man das gesamte Bild gibt es nachweislich kaum oder gar nichts, was systematisch passiert. Diese profitablen Spielzeiten in English League 2 waren höchstwahrscheinlich bloß vom Glück bedingte Leistungen, die beim Herumspielen mit Daten und beim Stolpern über etwas aufgedeckt wurden, das so aussah wie ein profitables Muster, das durch systematisch irrationales Verhalten von Wettenden oder Buchmachern verursacht wurde.

Die „echten“ Quotenrenditen für die fünf Spielzeiten haben zusammengenommen einen t-Wert von +2,4, was ungefähr einer 1:100-Wahrscheinlichkeit (p-Wert) entspricht, dass das Ereignis zufällig eintritt. Statistisch gesehen ist dies signifikant, und wenn wir darüber für uns selbst einen wissenschaftlichen Aufsatz schreiben würden, wären wir geneigt, dies als Tatsache anzusehen. Aber aus der Analyse des Gesamtbildes wissen wir, dass es nahezu sicher nicht so ist – es ist nur blindes Glück.

Wenn wir darangehen, ein Wettsystem mithilfe von p-Hacking auszuarbeiten, bis wir profitable Kriterien finden, riskieren wir, dass wir keine Begründung für das haben werden, was wir finden.

Tatsächlich lieferte eine Stichprobe aus der Spielzeit 2007/08 der English League 2 ein noch besseres Ergebnis. Die 242 Matches, zu denen mit Daten für Dezember bis Mai vorlagen, lieferten einen theoretischen Gewinn von über 29 % (oder 35 % aus „echten“ Quoten ohne Buchmachermarge). Eine solche Performance kann durch Zufall in 1:1.000 Fällen erwartet werden. Das war das beste Ergebnis aus den 1.686 Stichproben. 

Insgesamt 837 oder ungefähr die Hälfte der Stichproben waren profitabel bezüglich der „echten“ Quoten – genau wie erwartet. In einer solchen Stichprobe von Stichproben können wir logischerweise erwarten, dass das beste Ergebnis einen p-Wert von etwa 1:1.686 aufweist. Wir würden erwarten, dass etwa 16 Stichproben (oder etwa 1 %) einen p-Wert von weniger als 1:100 haben. Genauso können wir erwarten, dass etwa 168 Stichproben (oder etwa 10 %) einen p-Wert von weniger als 1:10 haben. Alles andere (und wir könnten uns fragen, ob überhaupt eine davon) wurde durch etwas anderes als Glück beeinflusst.

Tatsächlich gab es 15 (0,9 %) bzw. 158 (9,4 %) Stichproben, was dem Erwartungswert ziemlich nahe kommt. Im Diagramm unten wird die theoretische Erwartung für den Prozentwert von profitablen Stichproben mit p-Werten unterhalb einer bestimmten Schwelle (1:10 = 10 %, 1:5 = 20 % usw.) mit den tatsächlich aufgetretenen Prozentwerten verglichen. Die fast perfekte Übereinstimmung ist bemerkenswert.

Im Grunde ist das Diagramm nur ein anderer Weg um zu zeigen, dass fast alles, was wir das sehen, Ergebnis von Zufall und nur von Zufall ist. Ja, eine Rentabilität von 1:1.000 ist beeindruckend. Aber wenn wir aus über 1.000 Stichproben wählen, kommt das nicht unerwartet. Und daher liefert der Wert keinen stichhaltigen Beweis für irgendeine Kausalität. 

article-data-mining-1-in-article.jpg 

Und was können Wettende aus Data-Mining und p-Hacking lernen?

Es ist vielleicht keine Überraschung, dass die Verteilung der Rentabilität nach Spielklasse und Spielzeit zufällig ist. Und es handelt sich hier auch nicht um die hochentwickeltsten Instrumente zum Erstellen eines Wettsystems. Entscheidend ist Folgendes: Wenn wir darangehen, ein Wettsystem mithilfe von p-Hacking auszuarbeiten, bis wir profitable Kriterien finden, riskieren wir, dass wir keine Begründung für das haben werden, was wir finden. 

Falls wir keinen Grund kennen, wie dieser Gewinn zustande kam, könnte alles bloss kompletter Unsinn sein. Korrelation ohne Kausalität läuft einfach nur auf eine Rückkehr zum Mittelwert hinaus. Für einen Sportwettenden bedeutet das über lange Zeit einen Verlust von Geld.

Man könnte zwar argumentieren, dass nichts Falsches darin liegt, Glück auszunutzen, um Gewinn zu machen, schließlich geht es beim Wetten genau darum. Wenn wir so herangehen, sollten wir uns aber nichts vormachen und glauben, dass unser Erfolg eine Konsequenz von irgendetwas anderem gewesen sei.

Wettressourcen – Für bessere Wetten

Die Wettressourcen von Pinnacle sind eine der umfangreichsten Sammlungen von Expertenratschlägen zum Thema Wetten im Internet. Sie richten sich an alle Erfahrungslevel mit dem Ziel, den Wettenden wertvolles Wissen zu vermitteln.