2 25, 2019
2 25, 2019

ゴルフ予想: Data Golfモデルについて

ゴルフ予想: 初めに

ゴルフ予想モデルの基本

ゴルフにおける生存バイアスの影響

ゴルフ予想: Data Golfモデルについて

ゴルフは予想が困難であることで有名なスポーツです。Data Golfは、プレーヤーの成績を正確に反映する統計モデリングを使用するゴルフ予想モデルを洗練させるために何年もの年月を費やしました。ゴルフ予想に統計を活用する方法詳しくは続きをお読み下さい。

ゴルフのようなスポーツの予想は、表面上とても困難なように思われます。通常、各トーナメントで全く異なるプレーフィールド(つまりゴルフコース)において132〜156名のプレーヤーが競い合います。ゴルフトーナメントの結果を効果的に予想することが目的である場合、どこから始めるべきでしょうか?

我々の意見では、この答えは統計モデリングにあります。統計モデリングは、一連のデータ(例:ゴルフトーナメントのスコア)の作成プロセスを説明します。

この記事は、ゴルフスコアの簡単なモデルを説明し、ゴルフデータ解釈から予想されることを分析します。

ゴルフ予想: 初めに

ゴルフトーナメントで重要なことは、プレーヤーのスコアそのものではなく、そのフィールドにおける相対的スコアです。平均が74打であるトーナメントフィールドでの72打は、平均が70打であるフィールドでの72打よりも4打少ないと見なされます。この調節は、質が異なる2つのトーナメントフィールドで構成される複数のプレーヤーが対戦する場合に問題となります(この点は差し当たり無視します)。

スコアをフィールドに対して調整した後(以後、単に「スコア」と呼ぶ)、次のステップはこのスコアがどのようにして作成されたかを説明することです(つまりモデルの作成)。

まず、問題を大幅に簡素化する憶測を立てます。あるコースでの異なるゴルファーのスコアが独立している、つまりあるゴルファーの成績と別のゴルファーの成績が全く関係ないと仮定します。

これは、ゴルフトーナメント結果の予想の問題をいくつかの個別でシンプルな問題(各ゴルファーのスコア予想等)にまとめます。

次に、ある時点でのゴルファーの能力を定義して、無限に繰り返されるゴルフラウンドからの仮定上の平均スコアとします。例えば、ジェネシスオープンでのタイガー・ウッズの能力は、無限大のラウンドのサンプルからのリビエラカントリークラブでの平均スコアと定義されます。この数字を知ることは不可能ですが、概念ツールとして役立ちます。

ゴルフトーナメントの全ての結果(例:勝利、予選通過)は、各ゴルファーのフィールド相対スコアの決定論的機能です。

各ゴルファーのスコアは、時間の経過と共に大きなばらつきを示します。このばらつきは、ゴルファーの能力の変化およびスコアに影響する包括的な他の要因の2つによるものだと考えることができます。後者は「不規則な」ばらつき、または哲学的学習の程度により「識別できない要因」に基づくスコアのばらつきと呼ぶことができます。 

どの日でも、ゴルファーのスコアは能力と識別できない要因の影響の総和と定義されます。例えば、ジェネシスオープンの第3ラウンドでのタイガー・ウッズのスコアである65打はフィールド平均よりも6打少なく、ウッズの能力(例えばフィールド平均より2打少ない)と4打ランダムショックの総和としてのモデルであると説明することができます。

モデルを完成させるために、簡素化のための最終的な仮定、つまりゴルファーの能力は時間の経過と関係なく一定していると仮定します。ゴルファーの能力が一定していると仮定すると、時間の経過と共に見られるスコアの全ばらつきが「不規則な」ばらつきによるものだと理解することができます。

ゴルフ予想モデルの基本

明白でないかも知れませんが、我々はゴルフトーナメントの結果がどのようにして作成されたかを説明する統計モデルを完全に(非公式ではあるが)特定しました。このモデルは3つの文章で説明できます:

  1. 各ゴルファーの能力は一定である。
  2. 任意の日の各ゴルファーのフィールド相対スコアは、能力と不規則なばらつき(つまり想像上の「識別できない要因」)の組み合わせである。
  3. フィールド相対スコアは各ゴルファーの独自のものである。

ゴルフトーナメントの全ての結果(例:勝利、予選通過)は、各ゴルファーのフィールド相対スコアの決定論的機能です。従って、このモデルは望むゴルフトーナメント結果の詳細を提供します。

この基本モデル設定は、ゴルフスコアについて考えることに対する有益な基礎の役割を果たします。この記事の残りの部分は、一部の実用的意義を考察します。

サンプルサイズは常に重要です。

このモデルを使用するための合理的な第1ステップは、ゴルファーの能力の評価です。あるゴルファーはスコアサンプルの履歴を持っていると仮定します。このサンプルが十分に大きい場合、その平均はゴルファーの能力に相当すると考えることができます。「十分に大きい」サンプルサイズとは?

経験に基くと、ゴルファーのスコアは典型的に標準偏差約2.75打です。これらが正規分布されると仮定して、スコアの68%は平均の2.75打以内となり、95%は5.5打以内となります。基礎統計理論を使用して、平均100ラウンドのサンプルはゴルファー能力の0.275打以内であると確信することができます。

認識するべき主なトレードオフは、許可するゴルファー能力の変動が少ないほど、関連する数量を推定するためにより多くのデータが必要になるということです。

文脈を理解するために、世界ランキング50位と100位のシーズンを通したスコア平均の差は0.5打以下であるという事実を考慮して下さい。これは、このモデルの主要な実用的意義を提示します。ゴルファーの能力に関する有益な推論を引き出すには、多くの履歴データサンプルに頼る必要があるのです。

このモデルを考えた場合、ある1週間、1カ月間または1年間における各ゴルファーのスコアの差異は、主に不規則なばらつきに基づくものだと言えます。打差が0.5打以内の2名のゴルファーの能力を確信を持って区別するには、100以上のラウンドが必要となるでしょう。 

重要なことは、このモデルの仮定によってのみこの意義が可能となるということです。そして、このモデルが間違っているかも知れません。ゴルファーの能力は時間の経過に関わらず一定であるというのは間違いであるかも知れず、また一般的に使用される例を見ると、異なるゴルフコース間で一定であるというのも間違いかも知れません。従って、「識別できない要因」という安易な分類は、実際には識別できるのかも知れません!

一定能力またはコース別能力?

能力が一定であればゴルファーのコース成績の差異は不規則なばらつきの結果であると仮定されますが、コース別能力モデルでの成績の差は最低でも部分的に能力の差異を反映します。 

これは単なる語義の差異ではありません。ゴルファーの各コース成績の差異の程度は、不規則変動ではなく純粋な能力の差異によるものであり、ゴルファーの能力を推定する方法に(そしてあなたの最終的な予想に)大きく影響を与えます。

不規則なばらつきの役割が大きくなるほど、ゴルファーの能力を推定するために必要なサンプルサイズが増加します。能力が一定である場合、ゴルファーのスコア内のばらつきは全て不規則であり、従ってその相違を平均化するには非常に多くのスコアサンプルが必要になります。

しかし、ばらつきの原因の多くがコース別能力によるものだとすると、プレーヤーのコース別能力を妥当に推定するには、関連するコースのいくつかのラウンドデータのみが必要です。 

どちらのモデルが現実的?データを正式に分析することなく、ゴルフスコアは「頻繁に変化する能力」ではなく「一定能力」モデルに近いプロセスにより生み出されると論証することができます。 

コース別能力の例に固執するのであれば、あるトーナメント中(つまり同じコースでプレーしたラウンド)のゴルファーのスコアのばらつきは全体的なもの(つまり全コースでプレーしたラウンド)よりも少ないことに注意して下さい。

これは、プレーヤーとコースの相性を除く要素がゴルファーのスコアを決定する主な役割を果たしているという明白な証拠です。また前述の通り、コース別能力を明らかにするには大きなサンプルサイズが必要です。

ゴルフにおける生存バイアスの影響 

概して、ゴルファーのスコアの大きなばらつきを測定可能要因(測定可能とは「トーナメント開始以前に測定できる」と解釈)で説明する(統計的に)ことは非常に困難です。 

逆に、「一定能力」モデルは、データ内に見られる一部の混乱したパターンと一致しているのでしょうか?例えば、トニー・フィナウは最近、PGAツアーのフェニックスオープンにおいて4回連続で予選落ちしました。これはTPCスコッツデールでのフィナウの能力が他の場所よりも低いという決定的証拠でしょうか?そうかも知れませんが、このようなパターンは「一定能力」モデルが正しかったとしても現れるでしょう。

この論理は、ベット予想屋の生存バイアスと似ています。フィナウのゴルファーとしての力量で4回連続して予選落ちする可能性は1/500かも知れませんが、考えられるゴルフコースとプレーヤーの組み合わせ(何千もある)を全て考慮すると、いくつかのPGAツアーシーズンにおいて1/500の可能性の出来事は頻繁に発生しないと予期するべきです。いくつかの例に集中してその他を無視すると、コースとプレーヤーの相性を正確に描くことはできません。

このシンプルなゴルフ予想モデルを開発する 

この記事で説明されているシンプルなモデルは、ゴルフコースの分析方法の違いを理解することに役立ちます。一定能力とコース別能力等、一見して大きく異なる理念は類似したフレームワークを通して分析することができ、欠点と利点を明確にすることを可能にします。

この場合、認識するべき主なトレードオフは、許可するゴルファー能力の変動が少ないほど、関連する数量を推定するためにより多くのデータが必要になるということです。例えば、一人のゴルファーのPGAツアーでプレーした各コースでの能力を推定するには、ほとんどの場合、基準として利用できるのは5〜10ラウンド程度しかありません。 

逆に言うと、各ゴルファーの単一の一定能力を推定するには、全てのデータを使用することができます。どちらかの理念が本質的に優れているというわけではなく、ゴルフスコアの判定において不規則なばらつきの関与が大きければ一定能力モデルは良い結果を生み出します。 

ゴルフスコアを理解するための我々のアプローチは一定能力モデルと密接に関わっています。このモデルは明らかに「間違って」いますが、ゴルフスコアのパターンを理論的に説明する(そして最終的に予想する)素晴らしい力があります。

今後の記事において、この主張を裏付ける証拠を提供する予定であり、またこのシンプルなモデルを改善する多くの方法も検討します。現実の妥当な近似として一定能力モデルを受け入れるのであれば、主な実用的な教訓は、ゴルフデータの分析時に安易に「不規則さに惑わされる」ことが多いということです。  

ベッティングリソース - あなたのベッティングをパワーアップ

オンライン最高クラスの充実度を誇るピナクルのベッティングリソースでは、専門家によるベッティングのアドバイスをご覧いただけます。ベッティング経験の長さを問わず、ベッターの皆様がパワーアップできる知識をお伝えすることが目的です。