close

スポーツベッティングにおけるデータマイニングの問題

データマイニングやドレッジングとは?

シンプルな「ドロー賭け」戦略を分析

なぜベッターは「サルを数える」必要があるのか?

スポーツベッティングにおけるデータマイニングの問題

ベッティング戦略の一部にデータを用いることは、今や常識です。しかし、一部の結果がどんなに素晴らしく見えようと、そうした結果が生まれるプロセスを軽視してはなりません。スポーツベッティングにおけるデータマイニングの問題とは、何でしょうか?続きを読んでお確かめください。

ここ数か月間で、私は「儲かるベッティングシステムを解明した」と主張するウェブサイト、ブログ、フォーラムを数多く見かけました。実際には恣意的に思えるいくつかの選択基準を、過去の結果とベッティングオッズの巨大なデータセットへ後験的に適用していたにすぎないのに、です。

この記事では、データマイニングを介して勝利のアドバンテージを探し求めることの落とし穴を調査します。因果関係のない相関関係はスポーツベッターにとって、トラブルのサインなのです。

データマイニングとドレッジング

データマイニングとは巨大なデータセットを分析して、特定のパターンや情報を浮かび上がらせる手法を言います。さらに言うとデータドレッジングとは、統計的に有意なものとして提示できるデータのパターンを、データマイニングを用いて発掘するタスクです。

結果に基づいて説明を書き換えることはできません。それでは因果関係が逆転してしまうからです。

スポーツベッティングは、データマイニングやドレッジングを適用しやすい分野であると言えます。過去のサッカーマッチの結果やベッティングオッズの膨大なデータを公開しているサイトが様々に存在し、ベッターはこれらのデータから後験的に、勝てるベッティングシステムを探し求め、検証することができるのです。

しかし、データ分析ツールとしては致命的な限界があります。そうしたパターンが発生する理由を示した先験的な仮説が、通常は提示されていないからです。

因果関係のない相関関係

私は以前の記事で、相関関係と因果関係を混同することの落とし穴を論じました。精密であるから正確、妥当であるとは限らないのです。ベッティングシステムが妥当であり、本来の役割を果たすためには、そもそもそのシステムが成功している理由をある程度、知っておく必要があります。

相関関係の背後にある因果関係を立証できなければ、どういった事由から相関関係が崩れてしまうのか知る術はありません。因果関係のない相関関係は、まったくもって無意味なものなのです。

イギリスのサッカーリーグ2に潜む価値とは?

数週間前、私は興味深いツイートを見かけました。イギリスのフットボールリーグ2の2012/13年から2016/17年シーズンで、すべて「アウェーの勝利」に盲目的に(3,000回近く)賭けていたら、そのベッターはボロ儲けできていただろうと言うのです。ピナクルの最終オッズからは4.3%、市場の最高オッズからは10%弱の利益が得られていた計算でした。

ピナクルの最終オッズに対して損が出たのは、これら5シーズンのうち1度だけ。それも、ごくわずかな割合でした。この利益をチャート化するとこうなります。

{in-article 1}

この図から考えられるのは、市場がこのディビジョンではアウェーチームを過小評価し、ゆえに高値が付けられていたということ。もっとも、これらは短期的な例外ではなく、むしろ慢性的かつ体系的なミスのように映ります。すなわち、ベッターはイギリスのフットボールリーグ2でアウェーチームが勝利する確率を、ブックメーカーのマージンをはるかに凌駕する割合で、過小評価していた可能性があります。しかし、こうした発見には何らかの因果関係あると、本当に考えてよいのでしょうか?

「ドローに賭ける」というシンプルな戦略

最近ではもうひとつ、「ドロー賭け(Backing the Draw)」と呼ばれる戦略についての記事も目にしました。その記事によれば、2012年のサッカーマッチの結果と、ピナクルのベッティングオッズを後験的に検証した場合、2,500回以上のベットから16%近い利益を上げていたと言うのです。

サンプルの選択基準は、両チームとも直近3試合でドローを経験しておらず、オッズの範囲は3.20から3.56とするというシンプルなものでした。この利益の統計的有意性を検証してみると、この記録が実際には例外的であることが分かります。パターンが完全にランダムである場合、これらのオッズから、これだけの利益を期待できる確率はおそらく、100万回に1回にも満たないでしょう。

人によっては、この基準が選ばれた理由を知りたがるかもしれません。なぜ、直近の4、5、6試合ではないのでしょうか?オッズの範囲が3.07から3.41や、3.13から3.72ではいけないのでしょうか?案の定、これらの基準がデータを掘り下げる前に選ばれたものではないことはほぼ確実でした。見つかったデータが、たまたま好結果を生んでいたにすぎません。そして結果に基づいて説明を書き換えることはできません。それでは因果関係が逆転してしまうからです。

相関関係の背後にある因果関係を立証できなければ、どういった理由から相関関係が崩れてしまうのか知る術はないでしょう。

「100万分の1の確率であり得るのなら、厳密にはランダムでないのでは?」と、この戦略を擁護する人もいるかもしれません。ええ、確かにそうです。しかし、仮に100万個の戦略を検証した結果、そのうちの1つを今回のように統計的に有意であると考えるなら、それは何を意味するのでしょうか?Nassim Talebは「Fooled by Randomness(ランダム性に騙される)」の記事の中で、「タイプライターでホメロスの詩の再現を試みるサル」のたとえ話を用いて、次のように述べています。

「このゲームに参加したサルが5匹なら、私はイーリアスを著したサルに感銘を受け、太古の詩人の生まれ変わりとさえ思ってしまうかもしれない。これが10億の10億乗匹のサルであったなら、そこまで驚きはしないだろうが…」

Talebが指摘するように、すべてのサルをわざわざ数えたがる人は多くありません。そして仮に数えたところで、それらのサルの中に、論ずるに値する興味深いパターンが見られることはまず、ないでしょう。生存者バイアスが働くと、人は勝者だけに目を向けてしまうのです。

なぜベッターは「サルを数える」必要があるのか?

勝てるパターンを探し求めてデータを掘り起こす前に、先験的な仮説を提示しないのであれば、代わりにどのくらいの頻度で統計的有意性が見つかるのか、数多くのベッティングシステムを検証しなければなりません。このTwitterでの議論に関して、私はこう返信しました。「では1万個の基準を用いて抽出した、1万回の盲目的なベット(ブラインドベット)のサンプルの結果分布を表にしてみましょう」と。

さすがに手頃なサイズのブラインドベット10,000個のサンプル(相当なデータ量になりますし)は見つかりませんでしたが、100回以上のブラインドベットでの1,686個のサンプルが見つかりました。各サンプルは、特定のサッカーリーグの特定の1シーズンで、特定の結果(ホーム、ドロー、アウェー)に対し、シーズンを通してブラインドベットを行った結果を示していました。

最初にピナクルのマージンを除外し、それぞれの結果の「真の」オッズを計算します。次に、各サンプルの理論上のリターンとt値を計算しました。こうしたリターンが偶然によって生じたものではないことを評価する際に、私がよく用いる手法です。これらの数値の分布を表で表すと、以下のようになります。プラスのtスコアは利益を上げたサンプル、マイナスのtスコアは損を出したサンプルを示します。数値が大きいほど、発生頻度は減少します。

{in-article 2}

正規分布(釣り鐘型の曲線)に詳しい方なら、これがランダム性の証拠であることがお分かりいただけるはずです。すなわち、これらのブラインドベットのサンプルの結果は、すべてが偶然に左右されるという想定の下での結果に酷似しているということです。

総合的に判断して、これらの結果が体系的に起きているという証拠はほとんど、いや、まったく見られません。イギリスのフットボールリーグ2の、こうした利益を生んでいたシーズンは十中八九、データと戯れる中で偶然出くわした、運によってのみ生じた成績だったと考えられます。それらがベッターやブックメーカーの反復的かつ非合理的な行動から生じた、勝ちパターンのように見えただけのこと。

5シーズンを総合した「真の」オッズのリターンのtスコアは+2.4。すなわち、こうしたリターンは100回に1回の割合(p値)で、偶然によって引き起こされたと考えられます。統計学的にはこれが有意であり、そのことについて別途論文を発表するのであれば、相関性を立証するモチベーションも湧いてくることでしょう。しかし、我々はより広範な分析から、実際にはほとんどそこに有意性はなく、単なるまぐれに過ぎないことを知っています。

データドレッジングを介してベッティングシステムを編み出そうとする場合、利益をもたらす基準が見つからない限り、どんな結果が得られようと因果関係を立証できないリスクを負っています。

実際のところ、2007/08年シーズンのイギリスのフットボールリーグ2のサンプルは、さらに素晴らしい成績を示しています。12月から5月までの242試合の手元のデータでは論理上、29%(マージンを除外した真のオッズでは35%)以上の利益率を示していました。こうした結果が生じる確率は、約1000回に1回と考えられます。これは1,686個のサンプルの中で最高の数字でした。 

トータルでは案の定、837個、すなわち約半分のサンプルが「真の」オッズに対して利益を上げていました。こうしたサンプルの中では通常、約1686分の1のp値を示す最高のサンプルが1つ見つかると予想されます。また、約16個のサンプル(すなわち1%)が、100分の1以下のp値を持っていると推測されます。同じく約168個のサンプル(すなわち10%)が、10分の1以下のp値を持っていると推測されます。これ以外の数字が出た場合はもちろん、それらの中に運以外の影響を受けているサンプルがあることを疑うでしょう。

実際には前述の予想に極めて近い、それぞれ15(0.9%)個と158(9.4%)個のサンプルが見つかりました。以下の表は、特定の閾値以下のp値(10回に1回 = 10%、5回に1回 = 20%など)を持つ、利益の出たサンプルの理論上の期待値を、実際の発生率と比較したものです。驚くことに、ほとんど完璧に一致しています。

これは事実上、ここで見ているサンプルはすべて偶然により、偶然によってのみ生じたものだと言っているのと同じです。確かに1000分の1という確率は大したものですが、1000個以上のサンプルが用意されている状況では、あり得ない数字ではありません。そのため、何らかの因果関係を示す、強力な証拠にはならないのです。 

{in-article 3}

データマイニングやドレッジングについて、ベッターが学べることは何でしょうか。

サッカーディビジョンのシーズンごとの利益率分布がランダムなのは、おそらく意外ではないでしょう。ベッティングシステムの構築手段としては、まったくもって洗練されているとは言えません。しかし、重要なのは、データドレッジングを介してベッティングシステムを編み出そうとする場合、利益をもたらす基準が見つからない限り、どんな結果が得られようと因果関係を立証できないリスクを負っているということ。 

そうした利益が生じた理由が分からなければ、どんなシステムも役には立たないのです。因果関係のない相関関係は単純に、平均へと回帰します。スポーツベッターにとってこの事実は、長期的にはお金を損するということ。

中には、勝つために運に頼って何が悪いと反論する人もいるでしょう。結局のところ、それがギャンブルの本質ではないかと。しかし、その場合でも自分を騙してはいけません。今の成功が、運以外の要素によって得られたものだと思い込むことは避けるべきなのです。

ベッティングリソース - あなたのベッティングをパワーアップ

オンライン最高クラスの充実度を誇るピナクルのベッティングリソースでは、専門家によるベッティングのアドバイスをご覧いただけます。ベッティング経験の長さを問わず、ベッターの皆様がパワーアップできる知識をお伝えすることが目的です。