衝撃と番狂わせ:2022ワールドカップはどれだけの驚きを与えたか?

2022ワールドカップはどれだけの驚きを与えたか?

モンテカルロ法の確率

2022ワールドカップのアンダードッグ

衝撃と番狂わせ:前編

衝撃と番狂わせ:2022ワールドカップはどれだけの驚きを与えたか?

2022ワールドカップは私たちにどれだけの衝撃を与えたでしょうか? 日本がドイツを破ったのはまったくの想定外でしたか? Joseph Buchdahlがデータを読み解き、主要大会での大きな番狂わせは私たちが思うほどの驚きなのかどうかを見極めます。

スポーツメタデータを取り扱うGracenote社によると、カタールで開催された2022ワールドカップは、64年ぶりに最も高い割合となる15試合が番狂わせな結果に終わった(とGracenote社が定義する)アンダードッグのための大会だったとしています。

カタール大会はワールドカップに64年ぶりの大きな衝撃をもたらした

しかし、驚くのはその数字です。そもそも私たちは、番狂わせを構成する要素をどのように決定づけているのでしょうか?

日本がスペインとドイツを破り、サウジアラビアがアルゼンチンを破ったのは、誰の目から見ても番狂わせだったのではないでしょうか。しかしその前提は、それぞれの試合でスペイン、ドイツ、アルゼンチンが勝つはずだという私たちの思い込みがどれだけ妥当なのかに左右されます。

直感的にそんなことは明白だと思うかもしれませんが、真の結果の確率を完璧に知るのが不可能なときは、常にエラーの可能性を警戒すべきなのです。

サッカーの結果が意外だと感じられるとき、それは(正確な予想モデルにより正しく認識された)アンダードッグにツキがあったからなのでしょうか、それともアンダードッグが実はアンダードッグではなく、予想モデルが間違っていたからなのでしょうか?

哲学的に言えばこれは興味深い難問であり、解くのは非常に困難です。ここでは、2種類の不確実性について考えていきます。

予想モデルの妥当性における不確実性またはエラーは、認識論的不確実性と呼ばれるもので、理論的には優れたモデリングを使うことで低減できると考えられています。

もうひとつは本質的なもので、偶然的不確実性として知られており、一般的にはチャンス、運、ランダム性と呼ばれています。

この不確実性は減らすことができません。認識論的不確実性と偶然的不確実性を区別するのはなかなか厄介です。Pinnacleに寄稿するこの2つの記事が、少しでもこれらの違いを理解する助けになることを願っています。前編となる本記事では、ワールドカップ全体における驚きの要因について詳しく見ていこうと思います。

後編では、ワールドカップを例に効率性のテストを行い、そこで得られた結果から、ブックメーカーによるベッティングオッズの正確性(または効率性)およびブックメーカーが構築する予想モデルの妥当性についてさらに詳しくお話をしていきます。

64試合の複合的確率

ワールドカップで行われた各試合について、90分間で起こり得る3つの結果のそれぞれの確率を予測する場合、起こり得る結果の組み合わせそれぞれに対する、64試合の複合的確率を構築することができます。しかし、どの結果の確率を使うべきなのでしょうか?

熱心なベッターのほとんどは、独自のメソッドを用いて確率を計算しているに違いありません。しかし、時間を節約できるメリットと、公開されている中でも信頼度の高い確率であるとわかっている点から、私はPinnacleのクロージングマッチベッティングオッズで暗示される確率を使用します。

私はこれまで、Pinnacleのクロージングオッズが真の確率結果を予想するのに最適な理由を、一度ならず詳細に論じてきました。

Pinnacleは当然オッズにマージンを乗せているので、まずその分を除外する必要があります。マージンの除外は計算機を使って計算します。

この複合的確率を用いれば、「2022ワールドカップの結果は全体としてどれだけの驚きを与えたのでしょうか?」という質問に答えることができるでしょう。

物語の誤謬

少し考えてみれば、ワールドカップの全64試合で一切の番狂わせが起こらない確率というのはほとんどゼロに近い、ということに気づくはずです。

本命チームのすべてが勝利する確率は11%

Pinnacleのクロージングオッズを使用して、90分間の試合後の結果を計算してみたところ、6.5×10‐17、または100万兆分の1をわずかに超える数字となりました。

それが実際に起こったとすれば、人類の歴史において最も驚くべき出来事のひとつになるはずです。

とはいえ、統計学者ではない多くの人々は、この数字をひどく退屈なワールドカップを裏付ける証拠と考えるくらいで、あまり気にも留めないのではないでしょうか。

64試合の複合的確率は他にも多くありますが、3の64乗、正確には3,433,683,820,292,512,484,657,849,089,281はさらに低い確率となっています。

それぞれに番狂わせが含まれ(本命と予想していた結果が起こらないことを番狂わせと定義する場合)、複合的確率が小さければ小さいほど、番狂わせの数は多くなります。

しかしひとつだけ、一切の番狂わせが起こらないパターンがあります。つまり、本命の結果が必ず起こる場合です。対照的に、番狂わせが起こるパターンは数多くあります。個々では、64試合の複合的確率は小さくなるかもしれませんが、全体として起こる確率はゼロよりも高くなります。

2つの結果が考えられる10試合を例に、各試合の本命が勝利する確率を80%、アンダードッグが勝利する確率を20%としたシンプルな二項式で考えてみましょう。

本命チームのすべてが勝利する確率はおよそ11%ですが、アンダードッグの3チームが勝利する確率は20%、さらにアンダードッグの4チームが勝利する確率は9%もあります。

なぜそれほど高い確率になるのでしょうか? 個々では、確率はわずか0.17%および0.04% (それぞれ任意のアンダードッグ3チームまたは4チームの組み合わせに対して)ですが、起こり得るパターンは数多くあり、アンダードッグ3チームで120通り、アンダードッグ4チームでは210通りにものぼります。

これはつまり、番狂わせが予想されるべきものであるということを示しています。しかし私たちの脳は、データを基に単純で時に欠陥のある物語を生み出すことで、番狂わせが実際よりも予測のつきにくいものと考えられている世の中と折り合いをつけようとします。

日本がスペインやドイツに負けても物語は生まれませんが、統計によればこのような意外な結果は実質上、統計的確実性であることがわかります。これが、物語の誤謬の一例です。

モンテカルロ法の確率分布

6.5x10‐17の確率を用いて64試合の複合的確率を確認する方法がひとつだけあります。すべてのアンダードッグが勝利する複合的確率は最も低く1.5x10‐51となり、こちらも起こり得るパターンは1つだけです。しかし、たとえば10‐25や10‐30といった複合的確率のパターンは何通りあるでしょうか?

この類の計算をアルゴリズム的に処理するのはあまりに複雑です。これをずっと簡単なものにするなら、モンテカルロシミュレーションを構築するといいでしょう。

定義されたPinnacleの暗示的確率に従って試合結果をランダム化することにより、ランダムに生成された64試合の複合的確率を作成できます。

これを何度も繰り返し、それぞれ定義された確率が何回起こるかを数えることで、尤度確率分布を定義できます。つまり、ワールドカップ64試合に起こり得る結果履歴の範囲および尤度を定義できるのです。

しかし、わずかな確率のバリューを取り扱うことはむしろ直感的に難しいものです。それでも私たちは、ほんの少しの変換を加えて対数を計算することで、認知的に扱えるものにできます。

たとえば0.001の対数(底10)は-3、0.000001の対数は-6、0.000000000001の対数は-12になります。実際、私の目的(底e)に対する自然対数(ln)を使用し、負号は切り捨てます。

私のモンテカルロシミュレーションには、ランダム化された64試合の複合的確率ひとつひとつの自然対数100,000バリューに対し、100,000回が含まれていました(負号は削除しています)。

これらをサブグループ化してから、以下の度数(または尤度)分布図に落とし込みます。

Shock-WC.png
この図のX軸は37.3 (全64試合で本命が勝利する)から117.1 (すべてのアンダードッグが勝利する)までを範囲としていますが、ご存じの通りそれらの尤度は不可能なほど小さいものです。

実際、必要なのは可能性の範囲を正しく理解するために、最も確率の高い結果を示すことだけです。図を見ると、64試合の複合的確率でX軸の45から75の間のどこかにバリューがあるものは非常に起こりやすいことがわかります。

これらは、それぞれおよそ3x10‐20と3x10‐33の複合的確率に対応しています。

複合的確率はX軸に沿って右に移動するにつれて低下します。平均的な、または最も多くみられる複合的な結果はX軸がおよそ60となり、7.5x10‐27の複合的確率に対応しています。

図では、黒の鉛直線によって実際のワールドカップの複合的結果を示す位置もわかるようになっています。X軸のバリューは63.5 (複合的確率は2.7x10‐28)となります。

これは、最も起こり得る複合的な結果の約28分の1となっています。

多く感じられるかもしれませんが、この図からはまた別の物語が読み取れます。これが尤度分布の中央(平均)からあまり離れていないことがわかるはずです。事実、ワールドカップで起こり得る複合的確率の約20%は実際に起こった場合の確率よりも小さくなっています。

統計的に、私たちはこれを驚きとは呼ばないでしょう。それには、鉛直線をX軸上の70以上の位置へ移動させたいとします。つまり、起こり得る複合的確率の1%未満はさらに起こる可能性が低いことを意味します。これはおよそ4x10‐31の複合的確率、または実際に起こった結果の700分の1に近い確率に対応します。

それには、カタールがオランダを破る、ポーランドがフランスを破る、韓国がブラジルを破るといったような結果を目にする必要があるのです。

今回のワールドカップは驚きを与えるものだったのか?

本記事で提示したデータを踏まえ、私たちは改めて最初の質問に対する答えを出せる立場に置かれています。

いいえ、驚くようなものではありませんでした。確かに、個々の試合では驚きの番狂わせがありましたが、多くの試合が行われる大会では予想できる結果であることを、私たちは知っています。番狂わせが一切起こらないほうが、はるかに驚くでしょう。

しかし、哲学的にこの「驚き」は何を意味するのでしょうか? これは、試合の結果に対する当初の予想に大きく左右されます。

極端な例を挙げると、私の予想モデルではイングランドを破る大本命はウェールズで、ポルトガルを破る大本命はガーナで、フランスを破る大本命はオーストラリアで、ドイツを破る大本命はコスタリカで、といった感じで64試合を予想しました。

議論の余地はあるかもしれませんが、実際の結果を見た私は非常に驚いたはずです。それは、私のモデルでアンダードッグとなったチームが幸運をつかんだからでしょうか、それとも私の予想モデルが間違っていたからでしょうか?

これはわかりやすいケースですが、通常この2つの違いはもっと微妙なものです。

Pinnacleの試合の確率予想は、実際の結果を完璧にとらえたものではありませんでした。それは不運だからでしょうか、それともモデルのエラーが理由でしょうか?

この場合、違いを見極めるのはかなり困難です。しかし、Pinnacleの予想と現実世界の出来事の間には統計的に大きな違いはないため、Pinnacleの予想モデルはそれほど悪いものではないと議論するための十分な根拠がある、とは言えるかもしれません。

別の言い方をすれば、ワールドカップ(Pinnacleの見解によれば)は統計的に言って、とりわけ驚くようなものではなかったのです。ワールドカップで最も可能性の高い結果(おそらく番狂わせが実際に起こった数よりも2~3試合少ないワールドカップ)よりは起こる可能性が低い結果となったものの、大きくかけ離れたものではなかったということです。

統計的に有意差があったとすれば、Pinnacleの見解に反論するのはもっと簡単になります。

したがって、予想と現実の差異が大きくなればなるほど、予想モデルが間違っているという統計的な可能性も大きくなる、というルールを定めることができるでしょう。Pinnacleのワールドカップ試合予想モデルは他のブックメーカーと比べてどうなのか? これが、このシリーズの後編のテーマとなります。

Pinnacleに登録してマーケットの中でもイチ押しのサッカーオッズをご覧ください。ベッティングリソースには、Joseph Buchdahlによる洞察に富んだ記事が他にもありますのでぜひお読みください。

ベッティングリソース - あなたのベッティングをパワーアップ

オンライン最高クラスの充実度を誇るピナクルのベッティングリソースでは、専門家によるベッティングのアドバイスをご覧いただけます。ベッティング経験の長さを問わず、ベッターの皆様がパワーアップできる知識をお伝えすることが目的です。