12 10, 2019
12 10, 2019

失敗:成功の秘訣とは?

失敗は成功の秘訣?

モデルの弱みを分析する

失敗:成功の秘訣とは?

ベッターはよく、成功するための方法に注目します。人々は可能な限り負ける回数を減らし、できるだけ多く勝ちたがります。『Statistical Sports Models in Excel(エクセルでの統計的スポーツモデル』)の著者であるAndrew Mackは、ベッティングでは失敗が成功につながる秘訣だと信じています。ピナクルでのデビューを飾るこの記事で、Mackがその理由を説明します。

失敗:成功の秘訣とは?

根気強さに代わるものは、この世にはない。才能も根気強さには代えられない。才能はあるのに成功できない人は山ほどいる。天才であっても根気強さには勝てない。報われない天才など、ほとんど決まり文句のように言われるほどありふれたものだ。教育も根気強さにはかなわない。世の中は教育を受けた無職の人であふれている。根気強さと決断力さえあれば万能だ。」―Calvin Coolidge

スポーツモデリングにおいては、失敗が最終的な成功につながる秘訣になることがあります。

この記事では、NHLのゲームスルーシミュレーションで、1X2の結果の確率を引き出すシンプルな方法を実践しながらご紹介したいと思います。はじめに、ご自身でも簡単にできるエクセルの基本的なモデルテンプレートの作業をしていきましょう。モデルを単純かつ機能的にするのです。

しかしながら、このモデルを皆さんとシェアする本当の目的は、あまり議論されることのないスポーツモデリングの要素の一部をご紹介することです。その要素とは、失敗、専門知識を使った重要な分析、そしてトラブルシューティングです。

モデル構築では、成功より失敗から学ぶことのほうが多いというのは驚くべき事実かもしれません。そのために、このモデルを集めて基本的なプロセスを構築できたら、そのモデルの弱みを批判的に分析することで改善の機会を探すのです。そうしていくことで、長い目で見てどのモデルよりも価値のあるもの、つまり自らの考えを改善し、有利に競えるくらいシャープなアイデアにしていくトラブルシューティングのプロセスを提供したいのです。では始めましょう。

ステップ1:データを集める

始めるには、データがいくらか必要になってきます。Hockey-Reference.comのサイトに飛び、今年行なわれた2019-2020年NHLシーズンゲームの結果を全てコピーして、エクセルのシートに貼り付けましょう。

success-failure1.jpg

ゲームの結果という、このシンプルなデータだけを使って、驚くほど多くの分析を遂行することができます。  例えば、ホームとアウェーの両チームが実際に決めたゴール数の平均や、実際に決めたゴール数の分散、あるいはオーバータイムの頻度などを知りたい場合があるとします。

エクセルのAVGとVAR関数を使うと、ホームチームの1試合ゴール数の平均が3.30なのに対して、アウェーのチームは2.85だったことがわかります。ゴール数の分散はそれぞれ、2.85と2.62でした。今シーズンはここまで、およそ26.81%の確率でオーバータイムになっています。少なくとも、データを得ることはできましたね。それでは、ターゲットとなる結果の分布を特定してみましょう。

ステップ2:ターゲットとなる結果の分布を観察する

仮に、ターゲットにする結果をそれぞれのチームに入る得点としましょう。勝つチームとおおよその頻度を予測したい場合にはかなり直球な感じですね。このデータがだいたいどのような種類の統計的分布に適しているかを知っておくと、あとで予測した期待値を確率に落とし込んでみるときに便利です。

ご存知のように、NHLのゴール数は不連続の計数データです。成功の機会が豊富にあり、1回につき1点入り、かつランダムな要素を含んでいるのに、得点はそれほど多くは入りません。ポアソン分布を選ぶのが自然なように思えます。これは、エクセルのアドオンのどの数字を使っても確かめることができます。

私たちのデータにはポアソン分布が適しているようです。長年、様々な統計学の研究者が研究し、評価してきているのですから当然です。この分布情報を頭の片隅にとどめておきながら、先に進みましょう。すぐに活用できます。

ステップ3:それぞれのチームの「対戦相手によって調整された期待値」を設定する。

データ、ターゲットとする結果、そして確率分布がそろいました。ここで各試合の基本的な予測を得るためのモデル構造が必要になります。ここでは例として、ホームまたはアウェーの状況での、味方に入った得点数と相手に許した失点数の平均を取り、それらをまとめた平均を出すシンプルなモデル構造を用います。数式は次のようになります。

x得点数=(平均得点数+平均失点数)÷2

このような方法によって、オフェンスとディフェンス、そしてホームアイスアドバンテージに(単純な方法ではありますが)対応しました。11月22日のYork Rangers対Ottawa Senatorsの試合を使うと、モデルはOttawaの得点が3.43、New Yorkの得点が2.73と予測したことがわかります。与えられた条件から、私たちのモデルはOttawaが勝利すると予測したということが見ただけでわかります。

ステップ4:不規則性を反映させるように結果をシミュレーションする

両チームのゴール期待値が分かったので、これらの期待値を確率に変換する方法が必要になってきます。その一般的な方法は、競合するポアソンマトリックスを使用することです。これは拙著の『Statistical Sports Models in Excel』で述べたとおりです。エクセルでPOISSON関数を使用すると、かなり簡単にできます。

しかし、この方法の欠点のひとつは、実際のゴール数のランダム性を十分考慮に入れていないということです。この試合がどのような結果になるのかを、より正確に予測するために、ちょっと異なった、ポアソンシミュレーションを使用してみましょう。そのために、エクセルの乱数を発生させる関数を使っていきます。

エクセルのバージョンに、データ分析パックをインストールしていると仮定して、[データ]をクリックし、[データ分析]をクリック、そして最後に[乱数発生]をクリックします。

こうすると、算出した各チームのゴール期待値を使用し、1,000試合をシミュレーションできます。そして各チームが勝つ頻度、オーバータイムの頻度、または他に知りたいことを何でも算出することができます。

変数として「1」を、乱数として「1000(シミュレーションする試合)」、分布として「Poisson」、そしてラムダとしてNew Yorkの予想ゴール数の「2.73」を入力します。スプレッドシート上の、結果を出力するのに適した場所を選択したら、[OK]をクリックして乱数発生関数に魔法をかけてもらいましょう。

一旦シミュレーションが終了したら、Ottawaでも同じことをしてみましょう。必ずシート上の隣接する正しい列に結果を出力するようにしてください。

ステップ5:確率に換算する

両チームのシミュレーションが完了したので、次は、ホームの勝利、アウェーの勝利、そしてレギュレーションタイムでの引き分けの出現頻度を数える必要があります。そのために、ホームチームの勝利マージン(MOV:margin of victory)を計算する列をエクセルのシートに1列追加します。そうすると1000のうち、ホームのMOVがゼロよりも大きくなる回数、少なくなる回数、そしてぴったりゼロになる回数を数えることができます。

これで、ホームの勝利、アウェーの勝利、そしてレギュレーションタイムでの引き分けの比率を見積もる際に役立てられる確率が出てくるはずです。こうすると、このモデルから、New Yorkの適正な規制価格は3.247、Ottawaの適正価格は1.855、そしてレギュレーションタイムでの引き分けの適正価格は6.536だと推測できます。そして、ベッティングバリューを求めるときに、これらの推定価格を市場価格と比較することができるのです。

モデルの弱みを分析する

Ottawaは結局、勢いのある流れでレギュレーションタイムを戦い、この試合に勝利しました。しかし、必勝のモデルを手に入れたと推測を急ぎすぎないでおきましょう。たった1度成功したからといって、このモデルが特に素晴らしいわけではありません。これに基づいてベットを行うことはおすすめしません。多くの試行のためにこれを市場に対して使用することは、安全バサミを銃撃戦に持ち込むようなものです。これは、私にしてみれば非常に明確なことであり、これまでに構築したモデルのバックテストを実行することにすれば、あなたにもはっきりわかることでしょう。

しかし特にあなたが初心者のモデラーの場合、バックテストをしても理由はあまりはっきりしないかもしれません。これはモデルを構築する人にとって、ストレスのたまるものでしょう。ある程度の作業をし、合理的なプロセスだと思えるものを作り出したけれども、結果は失敗なのです。前進するために相当の時間とエネルギーを費やしたのに、それはあたかもスタートラインに戻るためだったように感じるかもしれません。

でも、これであなたのモデルは終了ではないのです。むしろ、ここからが本当の作業の始まりです。

優れたモデルは優れた双眼鏡に似ています。遥か先を見通し、解像度は鮮明です。劣ったモデルはそれほど先を見ることができず(もっと悪いモデルだと、後ろが見えます)、画像の解像度はぼやけています。  バックテストでのパフォーマンスの低さは、私たちのモデルが将来のパフォーマンスのぼんやりとした画像を映し出す指標なのです。そうしたことが起こるときは、たいてい自らに問いかけるとよいでしょう。

  • 基になるプロセスのうち、適切に処理されていないのはどのバリエーションなのか?
  • 私たちが作っている仮説のうち、壊滅的だと判明するものはどれなのか?
  • 画像をより鮮明にするにはどのようにすればよいのか?

次にあなたのトラブルシューティングのプロセスをガイドする提案を示します。失敗から学びながらモデルを改善し続けることにより、最終的には、持っているベッティングの武器の中でも有効なツールになるくらいシャープなものにすることができるのです。

データを熟慮する

このモデルを細かい部分にまで分解し、何が問題なのかを理解する必要があります。これまで使ってきたデータについてよく考えることから始めましょう。得点数を予測したいからゴール数のデータを使用する、というのは至って単純そうでした。上手くいくはずですよね。

しかし、上手くいくかもしれませんし、いかないかもしれないのです。得点のデータは結果のデータです。どのスポーツの結果にも、ノイズの要素が含まれています。このことは単純に、記録された結果の一部が、正確に予測できる基礎となる再現可能なスキルによって実行されないことを意味します。

特定のスポーツでのスコアリングが変則的であればあるほど、この統計的ノイズが比例的に大きくなる傾向があります。ホッケーではこの統計的ノイズがかなりあります。そのため、無意識のうちにノイズのモデル化を試みた可能性があります。もしモデルの生み出す結果が悪かった場合、その理由のひとつにノイズがあることは確かでしょう。

ホッケーの試合で見たことのあるものを考えてみてください。エンプティネットゴールや、バウンドして運悪くネット奥に飛び込んでしまったゴールや、プレイヤーの肘に当たってチップインするディフレクションは、いずれもチームの得点として記録されます。それらは他のチームと比較したそのチームの潜在能力の一部として数えられるべきですか? おそらくそうではないでしょう。ここが回帰などの統計的なテクニックが重要になってくるところで、通常、予測される予想ゴール数(xG)が実際のゴール数よりも強力な将来の成功の予測因子とみなされる理由です。

できるだけ多くのノイズを取り除くと、ゴールを引き起こす基礎となる再現可能なスキルを、より適切にマッピングできます。重大なノイズが存在するシナリオで既に発生したゴールをチームの潜在能力に割り当てることは間違いです。それを考慮に入れると、モデルを改善しようとする際に探求できる新しい可能性のある領域が開かれます。

覚え書き#1:目標とするデータに関係のあるノイズを減らす方法を見つけましょう。

モデルの仮説を考慮する

作成する全てのモデルには仮定が含まれています。モデルが失敗した場合、それらの仮定を特定し疑問を投げかけ、改善する機会を見つけることができるかどうか確かめることがかなり役に立ちます。例の中で設定した最初の仮定は、実際のゴール数がチームの強さと潜在能力を表すというものです。私たちには、それが最良のアプローチではないということを信じる理由があり、それをこれから探求すべき領域として書き留めてきました。

私たちが不注意のうちに行った、疑うべき仮定には、他にどのようなものがあるのでしょうか。

ポアソン分布を考慮してみましょう。それはデータにかなり合っているように思えましたが、ゴールスコアの平均とその分散のはじめの分析を行ったとき、興味深いことがわかりました。ホームチームとアウェイチームの両方で、平均と分散は同じではなかったのです。

どちらの場合も、ある程度の分散不足が起こっているように思えます。これは潜在的な問題かもしれません。なぜならポアソン分布が適切であるために保持しなければならない根本的な仮定は、データの平均と分散が同じになるはずだ、ということだからです。

分散が平均を超える場合、負の二項分布のような分布は、注目するのに適したところです。平均が分散を超える場合、コンウェイ・マクスウェル・ポアソンタイプ二項分布の適応を考慮するでしょう。

さらに、試合のサンプルサイズを大きくすると、NHLの得点数の平均と分散は等しくなる方向に収束することがわかります。ここでのポイントは、別の分布の方が、ここで達成しようとしているものに適しているかもしれないということです。ただ、他の可能性を考慮せずに解決策を受け入れるのではなく、精神的に柔軟であることが重要です。

覚え書き#2:モデルのデータ中の仮定や分布、そして関数に挑みましょう。

ばらつきの説明されていない原因を考慮する

最後に、まだ説明していなかった結果におけるばらつきの原因について考えてみたいと思います。例をいくつか見てみましょう。手始めに、チームの強さは細分化されていない塊だと仮定しました。つまり、ケガや選手の代用は計算に入っていないということです。Edmonton Oilersは、Connor McDavidがプレーするか否かにかかわらず、同じレベルのパフォーマンスを行うことができるでしょうか。どちらのシナリオにも、私たちのモデルが見落としている著しい違いがあるのは明らかです。

また、私たちは、予測失点数は、どのゴールキーパーが先発かに関係なく等しくなるという仮説を立ててきました。先発のゴールキーパーと、控えのゴールキーパーの間のセーブ率範囲は、通常は互いに異なるというのは、それほど有用な仮定でもありません。これらの考慮事項は共に、モデルがより鮮明な画像を生み出すのに役立つばらつきの原因を計算に入れていない可能性があることを表しています。

また、スケジュールの過密さ、疲労、審判、高度など、現在モデルが計算に入れていないいくつもの要素を考慮する可能性もあります。目の付けどころの手がかりはある程度の専門知識から来るものです。私たちのモデルでは、あるチームが控えのゴールキーパーを続けて先発として起用し、2人の主要選手がケガという状況を把握しませんが、あなた自身にはわかるからです。

覚え書き#3:ばらつきが考慮に入っていない原因を探すために専門知識を使いましょう。

常識とある程度の専門知識を使い、予測力が不足する潜在的な理由をブレインストーミングすることで、このモデルをどのように改善することができるかを考え始めました。データ、分布、および仮定を再検討して、モデルを改善する機会に満ちた領域を見つけることができます。このプロセスをゆっくりと構築し、最初の困難に悩まされないことが収益性への道です。

このように、自らの失敗に学び、あきらめない限り、モデルの失敗は最終的な成功への道しるべになり得るのです。 

この記事で使用したエクセルのスプレッドシートは、こちらにお問合せいただければ差し上げます。詳細については[email protected]までお問い合わせください。

ベッティングリソース - あなたのベッティングをパワーアップ

オンライン最高クラスの充実度を誇るピナクルのベッティングリソースでは、専門家によるベッティングのアドバイスをご覧いただけます。ベッティング経験の長さを問わず、ベッターの皆様がパワーアップできる知識をお伝えすることが目的です。