限られたデータを使うブートストラップ法

限られたデータを使うブートストラップ法
シーズンが始まったばかりで、確かな結論を導き出すためのデータが不足しているとき、どうしますか?この記事では、サンプルが少ないことで起こるパラメータ上のエラーによる影響を最小化するためのブートストラップ法を、2つの例とともにDominicが解説します。

サッカーの試合予想に使われる主要な方法として、前回のPinnacleの記事で説明したポアソン分布があります。ポアソン分布を使ってサッカーベットの勝者を予測する方法についてはこちらをご覧ください。

この方法では基本的に、ホームチームの攻撃力とアウェイチームの守備力から、ホームチームの平均スコアを予想します。 さらに、アウェイチームの平均スコアの予想にもこれは応用できます。

ただし、シーズンの最初はサンプルとして使える試合が少ないので、この方法を使うのは問題があるでしょう。それに加え、得点数の多い試合や連続無得点試合など、極端な試合があると予測に大きな影響が出てしまいます。

実際にパラメータ上で大きなエラーが生じるかもしれません。スポーツベッティングモデルの構築方法について、詳しくはこちらをご覧ください。

パラメータ上のエラー数を測定するには、ブートストラップのテクニックを使うのがおすすめです。ブートストラップは、当社がサンプルのサイズを決める際に使う方法と関連しています。

この記事を書いている時点では、Premiershipに所属するチームのほとんどがホームとアウェイで行った試合は5試合未満です。

例として、2つの方法をご紹介しましょう。

方法1: 直接的なアプローチ

この方法は、交代のサンプリングを含みます。すなわち、 同じ値を2回以上選ぶことによって、類似するサンプルサイズを作り出すことです。

Leicester Cityのホームゲームを例にとると、ここまではAston Villa戦、West Ham戦、 Arsenal戦、Crystal Palace戦でそれぞれ3点、2点、2点、1点を上げています。このサンプルの場合、ホームゲーム1試合につき平均で2ゴールとなります。 

ではこれらの値を使って、4つのランダムなサンプルをもう一つ作ってみましょう。この方法は、モンテカルロシミュレーションを使ってランダムな値を作るのと似ています。新たに作ったサンプルセットは、次の通りです。

  •       サンプル 1: 2、2、2、1
  •       サンプル 2: 1、1、3、2
  •       サンプル 3: 3、3、2、2
  •       サンプル 4: 1、2、1、1

 すべてのドローの試合で2点の場合は1点や3点の場合と比べてその確率が2倍になること、また、それぞれのケースで平均値は異なることに注意してください。いつも2点になるとは限りません。

 このケースでは、サンプルごとの平均値はそれぞれ1.75、1.75、2.5、1.25となります。平均値は2となりますが、値は1.25から2.5まで幅があります。

さまざまなブートストラップサンプルを数多く計算することで、これをさらに拡張し、結果の標準偏差を見ることができます。

方法2: 今度は思い切ったやり方をします。

先ほどLeicesterの試合を使って、予想スコアを導き出しました。ポアソン分布を使えば同じように数字を算出できますが、今回使うのは昨シーズンのデータです。

 今度はAston Villa戦を例にとってみましょう。  2014/15シーズン中、Premiershipのホームゲームでの平均得点は 1.474でした。Leicesterはホームゲーム19試合で28得点なのに対し、Aston villaはアウェーゲーム19試合でわずか32失点でした。

Leicester攻撃力を1とすると、ホームゲームでは一般的な成績を上げているチームと言えます。その一方、Aston Villaは平均失点が1.684です。

これを1.474で割ると114.29%となり、Aston Villaはアウェーゲームだと14%多く失点することが分かります。したがって、LeicesterがホームでAston Villaを迎え撃つ際の予想平均スコアは、 1*1.1429*1.474 = 1.684 ゴールとなります。 

Leicesterのすべての試合に対して同じプロセスを繰り返すと、1試合あたりの予想ゴール数は下の表のようになります。これを見ると、LeicesterはCrystal Palace戦を除けば予想よりも多い得点を記録しているのがわかります。

これらが表示されている列の名は「差」となっていますが、専門用語では「剰余」と呼ばれます。

チーム Aston Villa West Ham Arsenal Crystal Palace
予想ゴール数 1.684 1.526 1.158 1.263
実際のゴール数 3 2 2 1
1.316 0.474 0.842 -0.263

方法1と似たやり方で、いくつかの剰余を置き換えたサンプルがあります。可能性のある剰余のサンプルは次のようになります。

  •       サンプル 1: 1.316、1.316、0.474、0.474
  •       サンプル 2: 0.474、-0.263、-0.263、0.474

ではこれらの剰余サンプルを予想スコアに加え、ホームゲームの得点サンプルを算出してみましょう。

  •       サンプル 1: 3.000、2.842、1.632、1.737
  •       サンプル 2: 2.158、1.263、0.895、1.737

サンプルごとに異なる平均値があり、これを使ってホームチームの平均ゴール数を異なるパラメータで算出することができます。

結論

これは簡単な計算で出せるものではありませんが、幅広いプログラミングの知識が必要というわけではありません。スプレッドシートを立ち上げて、可能性のある範囲のパラメータを試してみましょう。ただし、上記の方法2を使う場合は、アウェイチームの予想ゴール数において剰余も分析する必要があることを忘れないでください。 

strategy-openaccount.jpg

ベッティングリソース - あなたのベッティングをパワーアップ

オンライン最高クラスの充実度を誇るピナクルのベッティングリソースでは、専門家によるベッティングのアドバイスをご覧いただけます。ベッティング経験の長さを問わず、ベッターの皆様がパワーアップできる知識をお伝えすることが目的です。