ベッターにとっての「平均的な」問題
その平易さのために、多くのスポーツベッターは平均値を使って実績を統計的に定量化します。しかし、その制約に気付いている人はどれくらいいるでしょうか?
例えば、サッカー試合のトータルゴール市場にベットしている時、ベッターは以前の試合で得点した平均ゴール数を計算して、それによって将来の試合の予想ゴール数を正確に判断できると信じるかもしれません。しかし、この平均値は本当に適切でしょうか?
この平均値は全体像を示してくれますが、分布の形については説明していません
一例として、2013/14シーズンのPremier LeagueとLa Ligaを比較して、それぞれで得点したゴール数を見てみましょう。各リーグの1試合あたりの平均得点ゴール数は、それぞれ2.77と2.75でした。これによってベッターは、La Ligaで2.5ゴール未満の試合はEPLよりも頻繁にあると思うかもしれません。しかし、事実はそうではありません。EPLの試合の48.4%は2.5ゴール未満であり、La Ligaは47.3%です。
以下の数字を見てみると、数字の分布は似ていますが、Premier Leagueで最も頻繁に得点されるゴール数は1試合あたり2ゴールで、La Ligaでは3ゴールです。平均値はこの事実を隠しています。
なぜでしょうか?平均値は全体像を示してくれますが、分布の形については説明してくれません。
平均値を使用した場合のもうひとつの危険性は、平均値を使用して国際サッカーにおける小国――各予選試合で「むちを打たれる少年」と考えられている――のハンディキャップを評価することです。しかし、それらの国は本当にそれほど弱いのでしょうか?ゲームトータルあたりの1国のゴールを平均すると大きな数字になりますが、この合計はあまり頻繁ではない大敗によって大きく歪められる可能性があります。その結果として、ベッターは予想するゴール数を過大評価してしまうかもしれません。
以下で平均値に代わる代替手段――最頻値および中央値を調べます。3つの数字を使用して、平均値がふさわしくない可能性がある2つのシナリオを検討します。
以下の数字セットを考えてみましょう。それぞれの平均値は5です。
- セットA: 4, 5, 5, 5, 6
- セットB: 3, 4, 4, 4, 10
- セットC: 3, 4, 5, 6, 7
最初のシナリオ:高い方の端または低い方の端に異常値がある
これら3つのセットは平均値が同じですべて合計が25になりますが、これらセットの分布はかなり異なります。
セットAは対称的に分布していると言えます。平均値の両端に1つ数字があります。4は平均値より下で、6は平均値より上になります。
平均値(AverageまたはMean)は左右対称的な分布である時に、使用するのが理想的です。平均値の両端の変数の値は同じ頻度で発生します。そして平均値は値の集まりの中央に位置しています。
一方、セットBは平均値より下に4つ数字があり、そして上に1つだけ数字が存在します。これは非対称的な分布と言えます。
平均値の制約を理解することで、ベッターは予想の測定値として平均値の適合性をより適切に判断できるようになるはずです。
大きなデータセットを使用する時、ベッターは中央値または最頻値など他の測定値を使用することで平均値の適合性をテストできます。
中央値は、分布を昇順または降順に並べた時に中央に位置している値です。セットAとセットBでは、これはそれぞれ5と4になります。最頻値は最も多い値で、それもそれぞれ5と4になります。
対称的な分布は似たような算術平均値、中央値、最頻値を持っているはずです。後者2つとセットBの算術平均値の違いは、これは非対称的な分布であることを示しており、したがって平均値は理想的な測定値ではありません。
二つ目のシナリオ:異なるスプレッド
2つのセットは両方とも対称的に分布されているかもしれませんが、平等に広がっていません。例えば、セットAのようにセットCも対称的に分布しています。なぜならセットCは平均値より上および下に同じ数の値があります。そして平均値からの差は両端とも似ています。
しかし、両方とも平均値は5であると言うことができます。この平均値はセットAにとってより適切な測定値です。より多くの数字が算術平均値に近寄っているからです。これら2つのセットの違いはグループ内の分散にあります。したがって、分散について測定する必要があります。
これをするために、ベッターは範囲と標準偏差を計算できます。範囲 - 最大値と最小の違いは簡単に計算できます。一方、標準偏差はより複雑です。基本的な用語では、この記事の関連性のために、標準偏差は平均値からのデータセットでの分散を測定します。分布について詳しく説明する記事を書く予定です。そしてその記事でもっと詳しく標準偏差について説明します。
セットAとCには2と4の範囲がそれぞれあり、それらの標準偏差はそれぞれ0.71と1.58になります。両方の測定値はセットCの方が大きいので、後者のグループ内にはより差があることを示しています。
結論
平均値の制約を理解することで――非対称の分布と分散の異なる測定値――ベッターは予想の測定としての適合性を判断できるようになるでしょう。平均値を使用する適合性を精査するものではないですが、これで注意を促して他の測定値を考慮するには十分でしょう。