Jun 5, 2019
Jun 5, 2019

Pinnacle versus FiveThirtyEight: Ein Vergleich des Vorhersageerfolgs

Das Fußball-Vorhersagemodell von FiveThirtyEight

Lässt sich durch die Vorhersagen von FiveThirtyEight Profit machen?

Welchen Mehrwert hat dies für Wettkunden?

Pinnacle versus FiveThirtyEight: Ein Vergleich des Vorhersageerfolgs

FiveThirtyEight ist eine bekannte Bezugsquelle für Fußballvorhersagen, doch wie präzise sind seine Vorhersagen? Wie steht es im Vergleich zu den Wettquoten von Pinnacle da? Bedeutet es Mehrwert für Wettkunden? Lesen Sie weiter, um mehr zu erfahren.

Die Quoten eines Buchmachers sind im Grunde eine direkte Prognose der Wahrscheinlichkeit eines Sportresultats. Dezimal ausgedrückt, wird einfach der Kehrwert der Zahl gebildet, um den implizierten Prozentsatz zu erhalten (plus ein wenig Extraaufwand, um die Marge herauszurechnen). Eine Quote von 2,50 bedeutet beispielsweise (Marge bereits herausgerechnet) eine Ergebniswahrscheinlichkeit von 1/2,50, 0,4 oder 40 %.

Natürlich liegt ein Buchmacher nicht immer richtig. Seine Fehler sind Chancen für die Kunden, den erwarteten Mehrwert zu finden und einen langfristigen Profit zu erzielen. Der Leser wird jedoch mittlerweile mit meiner Botschaft vertraut sein, dass Pinnacles Fehler zumindest für den Fußballwettmarkt zufällig verteilt sind und dass die Quoten im Durchschnitt eine sehr zuverlässige Wiedergabe der Chancen dessen sind, was passieren kann. In diesem Zusammenhang sind Schlussquoten die Besten von allen. Mit ihnen lässt sich vorhersagen, mit wie viel Profit ein Wettkunde rechnen kann.

Es gebt jedoch auch andere Prognosegruppen, die Vorhersagen zu den Ergebnissen von Fußballspielen anbieten. Eine der bekanntesten ist Fivethirtyeight.com, der Politik-, Wirtschafts- und Sportprognosen-Blog des amerikanischen Statistikers, früheren Poker-Spielers und Autors von The Signal and the Noise: Nate Silver. Nate Silver hat sich einen Namen damit gemacht, dass er bei den US-Präsidenschaftswahlen 2008 die Ergebnisse von 49 von 50 Bundesstaaten und vier Jahre später alle 50 richtig vorhersagte.

Aus der Perspektive des Sportfans oder Wettkunden sind die Spieleprognosen von FiveThirtyEight besonders hilfreich, da sie explizit die Wahrscheinlichkeiten für Heim-, Unentschieden- und Auswärtsspiele anbieten. Durch die Kehrwertbildung kann man sofort ihre implizierten fairen Gewinnchancen erhalten. Das Ziel jedes Mehrwert-Wettkunden ist es, faire Gewinnchancen zu finden, die genauer als die des Buchmachers sind. Gelingt es ihnen, muss einfach mit den Quoten das Buchmachers gewettet werden, wenn diese unwahrscheinlicher sind. Erzielt der Wettkunde langfristigen Profit, ist dies ein sicheres Zeichen dafür, dass er genauere Quoten als der Buchmacher hat. In diesem Artikel habe ich mit @PlusEVAnalytics zusammengearbeitet, um herauszufinden, ob FiveThirtyEight seine Arbeit tut.

Das Fußball-Vorhersagemodell von FiveThirtyEight

FiveThirtyEight veröffentlicht seit Januar 2017 Fußballvorhersagen, obwohl seine Ergebnisdatenbank bis zum August 2016 zurückreicht. Seine Methodik basiert auf einer „deutlich überarbeiteten Version des ESPN Soccer Power Index (SPI)“, der ursprünglich von Nate Silver entwickelt wurde und mit erwarteten Toren (oder xG) und statistischer Poisson-Analyse eine Matrix möglicher Spielstände erzeugt, aus denen Heim-, Unentschieden- und Auswärtswahrscheinlichkeiten errechnet werden.

FiveThirtyEight hält seine Fußballvorhersagen für ziemlich gut und argumentiert, dass sie wertschöpfender als unqualifizierte Schätzungen sind. In der Hinsicht haben sie meiner Meinung nach recht, doch sind sie besser als die implizierten Wahrscheinlichkeiten von Pinnacle? Wir wollen es herausfinden.

Lässt sich durch die Vorhersagen von FiveThirtyEight Profit machen?

Ich habe eine ältere Schlussquotendatenbank von Pinnacle mit den von FiveThirtyEight veröffentlichten implizierten Wahrscheinlichkeiten kombiniert und eine Stichprobe aus 16.635 Spielen europäischer Fußballligen zusammengestellt, die zwischen dem 12. August 2016 und dem 31. März 2019 ausgetragen wurden, und daraus insgesamt 49.905 Heim-/Unentschieden-/Auswärts-Quotenpaarung erstellt.

In 20.093 Fällen waren Pinnacles Schlussquoten unwahrscheinlicher als die von FiveThirtyEights Wahrscheinlichkeitsprognosen implizierten. Die durchschnittliche Überlegenheit dieser Quoten (Durchschnitt: 4,12) lag bei 16,2 %. Das impliziert, dass wir, wenn wir auf diese Quoten gesetzt hätten, einen Profit von etwa 16,2 % hätten erzielen sollen, unter der Annahme, dass die Quoten von FiveThirtyEight im Durchschnitt eine genaue oder effiziente Wiedergabe der „echten“ Chancen sind. Tatsächlich zeigten sie einen Verlust von -6,0 %, schlechter als die -4,3 % beim Wetten aller 49.905 Paarungen (allerdings nicht statistisch signifikant).

Das erste unten stehende Diagramm zeigt, wie FiveThirtyEights implizierte Quoten die tatsächlichen Erlöse aus dem Wetten von Pinnacles Schlussquoten nicht vorhersagen konnten. Pinnacles Schlussquoten durch FiveThirtyEights implizierte Quoten zu dividieren, ergibt den erwarteten Erlös für diese Wette, unter der Annahme, dass die Hypothese, FiveThirtyEights Quoten seien effizient, wahr sei.

Wetten nach inkrementellem erwartetem Erlös (mit einer Auflösung von 0,01) zu gruppieren, zeigt, dass die erwarteten Erlöse überhaupt nicht mit tatsächlichen Wetterlösen korrelierbar sind. Unabhängig vom Verhältnis von Pinnacles Schlussquoten zu FiveThirtyEights implizierten Quoten liegt der Verlust des durchschnittlichen Erlöses bei etwa -6 %. Es scheint, als böten FiveThirtyEights Quoten keinerlei Vorhersagewert, bezogen auf Pinnacles Schlussquoten.

five-thirty-eight-in-article-1.png

Was passiert, wann man die Sache umdreht? Nehmen wir jetzt einmal an, FiveThirtyEight sei der Buchmacher und Pinnacle das Vorhersagemodell. Wir nehmen nun das Verhältnis von FiveThirtyEights Quoten zu Pinnacles fairen Schlussquoten (Marge herausgerechnet) als Maß des erwarteten Erlöses.

Wird bei 25.557 Gelegenheiten auf FiveThirtyEights „Quoten“ gesetzt, übertreffen sie Pinnacles faire Schlussquoten. Der tatsächliche Erlös liegt bei 15,5 %, sehr nah an der durchschnittlichen Überlegenheit von 15,9 % (Durchschnittsquote 4,49). Die Punktwolke bestätigt die starke Korrelation zwischen erwartetem und tatsächlichem Erlös für diese umgekehrte Hypothese. Die Steigung der Trendlinie ist fast genau 1 und geht durch den Ursprung. (Siehe Geradengleichung y = mx + c im Diagramm), was impliziert, dass die Schlussquoten von Pinnacle im Durchschnitt hoch effizient sind, nicht so aber die von FiveThirtyEight.

five-thirty-eight-in-article-2.png

Äpfel und Orangen

Als ich diese Erkenntnisse im April in meinem Twitter-Feed veröffentlichte, wurde ich zu Recht darauf hingewiesen, dass wir hier Äpfel mit Orangen verglichen. FiveThirtyEights Vorhersagewahrscheinlichkeiten werden vor den Spielen erstellt. Die endgültige Wahrscheinlichkeitsschätzung wird nach Ende des vorletzten Spiels eines Teams veröffentlicht. Das kann viele Tage vor dem fraglichen Spiel sein. Seine Vorhersagen können nur so gut wie die Informationen sein, die ihm zu dem Zeitpunkt zur Verfügung stehen.

Pinnacles Schlussquoten geben alle Informationen wieder, die am Markt bis zum tatsächlichen Spielbeginn verfügbar sind. Dazu zählen auch Faktoren wie verletzte Spieler, Änderungen bei der Teamzusammensetzung, Zustand des Fußballfelds, alles Dinge, die FiveThirtyEights Quoten nicht beinhalten (können).

Um einen gänzlich fairen Modellvergleich mit Pinnacles Schlussquoten durchzuführen, müsste FiveThirtyEight Wahrscheinlichkeitsprognosen zur selben Zeit veröffentlichen, also beim Anpfiff. Das wird nicht passieren. Alternativ könnten wir Pinnacles Quoten von dem Zeitpunkt verwenden, an dem FiveThirtyEight seine endgültige Prognosewahrscheinlichkeiten für ein Spiel herausgegeben hat. Leider habe ich keine Zeitstempeldaten für Pinnacles Quoten und auch wenn ich sie hätte, könnte ich mir vorstellen, dass die Eröffnungsquoten häufig nach FiveThirtyEights endgültigen Prognosen veröffentlicht werden.

Nichtsdestotrotz bietet die Verwendung von Pinnacles Eröffnungsquoten potenziell einen faireren Modellvergleich als seine Schlussquoten. Schauen wir uns einmal die Ergebnisse an. Für die 18.952 Gelegenheiten, an denen die Eröffnungsquoten von Pinnacle unwahrscheinlicher als die von FiveThirtyEight waren (Durchschnitt: 3,97), lag die durchschnittliche Überlegenheit dieser Quoten bei 14,2 %. Sie zeigten einen Verlust von -4,1 %, marginal besser (aber nicht statistisch signifikant) als der Verlust von -4,4 % beim Setzen auf alle 49.905 Paarungen. Auch hier gab es wenig Korrelation zwischen erwartetem und tatsächlichem Erlös.

five-thirty-eight-in-article-3.jpg

Wie schon zuvor zeigte sich, dass es bei der umgekehrten Durchführung des Modellvergleichs (Pinnacles Eröffnungsquoten als „Wahrheits“vergleichswert) eine viel bessere Korrelation gab, nicht so genau wie bei den Schlussquoten, aber dennoch nahe der Parität. Wird bei 25.557 Gelegenheiten auf FiveThirtyEights „Quoten“ gesetzt, übertreffen sie Pinnacles faire Schlussquoten. Der tatsächliche Erlös liegt bei 12,8 %, wieder einigermaßen nah an der durchschnittlichen Überlegenheit von 14,8 % (Durchschnittsquote 4,54).

Signal und Rauschen

Nach der Veröffentlichung der Daten zu den Eröffnungsquoten auf Twitter merkte @PlusEVAnalytics, mein Mitautor für diesen Artikel, an, „wenn man sich fragt, ob FiveThirtyEight Pinnacle überlegen ist, bekommt man die offensichtliche Antwort.“

Vielleicht sind wir es, und was wir hier herausgefunden haben, ist ziemlich offenkundig. Dennoch stimmt es wahrscheinlich, dass der Informationsgehalt der Prognosewahrscheinlichkeiten von FiveThirtyEight in Bezug zu denen von Pinnacle unzureichend ist, sowohl wegen des Zeitpunkts als auch der Tatsache, dass Pinnacles primäres Geschäftsmodell darin besteht, richtige Quoten zu erstellen, während FiveThirtyEight einfach unterhalten will. FiveThirtyEight muss mit seinen Prognosen kein Geld verdienen, zumindest nicht direkt. Fairerweise muss gesagt werden, dass FiveThirtyEight zugibt, dass seine Prognose nicht auf Wetten ausgelegt sind.

@PlusEVAnalytics hat jedoch ein interessantes Gedankenspiel vorgeschlagen. Kombiniert man die beiden Prognosemodelle zu einem potenziell besseren als nur Pinnacles Quoten, könnte man herausfinden, ob es in FiveThirtyEights Prognosen ein Signal gibt, das beim Signal in Pinnacles Quoten übrig bleibt.

Die bisherige Analyse wurde als „entweder - oder“-Vorschlag formuliert: Welche der beiden Vorhersagen ist eine genauere Quelle der Wahrscheinlichkeit? Die Ergebnisse sind so schlüssig wie wenig überraschend. Formulieren wir die Frage zur Abwechslung jetzt einmal wie folgt um:

„Ultimative“ Wahrscheinlichkeit jedes Ergebnisses = Z * (FiveThirtyEights Wahrscheinlichkeit dieses Ergebnisses) + (1–Z) * (Pinnacles Wahrscheinlichkeit dieses Ergebnisses), für jedes Z mit 0 ≤ Z ≤ 1.

Welcher Wert von Z maximiert den Vorhersagewert dieser ultimativen Wahrscheinlichkeiten?

Dieses Modell ist flexibel genug, um die Konstruktion der ultimativen Wahrscheinlichkeiten ausschließlich anhand FiveThirtyEights Hochrechnungen (mit Z = 1), ausschließlich anhand Pinnacles Hochrechnungen (Z = 0) und anhand aller dazwischenliegenden Werte (Z liegt zwischen 0 und 1) anzupassen.

Wie berechnet man den besten Wert für Z? Es gibt mehrere Möglichkeiten, aber die hier verwendete ist die Maximum-Likelihood-Schätzung (MLE). Mit MLE kann bzw. können der oder die Werte mind. eines unbekannten Parameters gefunden werden, der bzw. die am besten zu einer Menge von Beobachtungsdaten „passen“. Wie misst man die Passungsgüte? Durch Blick auf die Wahrscheinlichkeit, abhängig vom Wert des unbekannten Parameters, durch Beobachten genau dessen, was wir beobachtet haben.

Unser oben festgelegtes Modell besitzt einen einzelnen Parameter, Z. Mit jedem Wert von Z können wir basierend auf diesem Wert von Z für jedes Spiel in dieser Datenmenge eine Menge ultimativer Heim-/Unentschieden-/Auswärtswahrscheinlichkeiten errechnen. Für jedes Spiel ist die Wahrscheinlichkeit der Beobachtung dessen, was wir beobachtet haben, unsere ultimative Heim-/Unentschieden-/Auswärtswahrscheinlichkeit, wenn das Spielergebnis ein Heim-/Unentschieden-/Auswärtssieg war. Beispiel: Heim-/Unentschieden-/Auswärtswahrscheinlichkeit sind 0,5, 0,3 und 0,2. Ist das Ergebnis ein Unentschieden, liegt die Wahrscheinlichkeit der Beobachtung dessen, was wir beobachtet haben, bei 0,3.

Da alle Spiele unabhängige Ereignisse sind, ist die Wahrscheinlichkeit der Beobachtung der genauen Menge an Ergebnissen, die wir beobachtet haben, das Produkt der Wahrscheinlichkeiten jedes einzelnen Spiels. Dieses Produkt ist unser Ziel – das wollen wir durch Anpassung von Z maximieren.

Leider ist das Produkt aus 16.635 Wahrscheinlichkeiten verschwindend gering – denken Sie es sich als eine Parlay-Wette mit 16.635 Teilen. Löst man eine MLE mit einer Software wie Excel hat man ein technisches Rechenproblem, da das Tool nicht mit kleinen Zahlen unter einem bestimmten Schwellwert arbeiten kann und sie einfach auf null rundet.

Um das Problem zu umgehen, kann man stattdessen den Logarithmus der Wahrscheinlichkeit maximieren. Da der Absolutwert der Wahrscheinlichkeit irrelevant für den MLE-Vorgang ist – worauf es ankommt ist, wie sich diese Wahrscheinlichkeit ändert, wenn unsere Parameter angepasst werden – ist das mathematische Äquivalent die Maximierung der so genannten „Log-Likelihood“.

Neben dem Logarithmus der ultimativen Spielwahrscheinlichkeiten nehmen wir auch die Summe der Log-Likelihoods statt ihr Produkt. Diese Analyse an der Datenmenge ergibt folgende Ergebnisse:

  • Bei Verwendung von Pinnacles Schlussquoten wird die Log-Likelihood maximiert, wenn Z = 0. Mit anderen Worten: FiveThirtyEight trägt im Endeffekt nichts zur „ultimativen“ Prognosemodell bei, wenn nur FiveThirtyEights und Pinnacles Prognosen betrachtet werden.

  • Bei Verwendung von Pinnacles Eröffnungssquoten wird die Log-Likelihood maximiert, wenn Z = 0,04. Mit anderen Worten: FiveThirtyEight trägt etwa 4 % zum „ultimativen“ Modell bei.

Die Weisheit von Modellen

Das zweite der beiden Ergebnisse ist interessant. Ist man gezwungen, sich für das eine oder das andere zu entscheiden, bieten Pinnacles Eröffnungsquoten prädiktiven Wert, der objektiv den Vorhersagen von FiveThirtyEight weit überlegen ist. Doch hier ist die Krux …

Ein gewichteter Durchschnitt aus 4 % x FiveThirtyEights Vorhersage + 96 % x Pinnacles Eröffnungsquote bietet besseren prädiktiven Wert als nur eine der beiden Vorhersagen für sich genommen!

Welchen Mehrwert hat dies für Wettkunden? In praktischer Hinsicht nicht sehr viel. Die 4 % sind zu wenig, um viel zu bringen, und sind möglicherweise nicht einmal statistisch signifikant. Doch was wäre, wenn Z größer wäre? Und was wäre, wenn es statt zwei Vorhersagen viele gäbe, von denen jede ihr eigenes Z bekommt? Das ist eine Variante der „Weisheit der Masse“-Theorie, die besagt, dass eine Kombination aus Einzelvorhersagen wertvoller als die beste der Einzelvorhersagen sein kann.

Das ist im Prinzip, warum Pinnacles Quoten so genau sind (im Schnitt). Sie haben die erfahrensten und sachkundigsten Händler zum Festlegen der Quoten. Außerdem erlauben sie anderen scharfsinnigen Wettkunden, zu spielen, statt auf deren Kundschaft zu verzichten. Das trägt mit dazu bei, dass ihre Quoten immer genauer oder weiser werden. Pinnacles Schlussquoten stellen tatsächlich eine „Weisheit der Prognosemodelle“ dar und ihre Quoten geben die „ultimativen“ Ergebniswahrscheinlichkeiten wieder. Und das ist wahrscheinlich der Grund, warum FiveThirtyEight nie eine Chance gegen Pinnacle hatte.

Wettressourcen – Für bessere Wetten

Die Wettressourcen von Pinnacle sind eine der umfangreichsten Sammlungen von Expertenratschlägen zum Thema Wetten im Internet. Sie richten sich an alle Erfahrungslevel mit dem Ziel, den Wettenden wertvolles Wissen zu vermitteln.