一月 5, 2018
一月 5, 2018

在運彩中使用資料探勘的問題

資料探勘和資料挖泥為何?

分析簡單的「投注和局」策略

為何投注者需要「數猴子」

在運彩中使用資料探勘的問題

在投注策略中納入資料是相當常見的作法。不過,雖然可能得到一些看似有用的結果,產生結果的過程才是真正的重點。在運彩中使用資料探勘的問題為何?繼續閱讀以深入瞭解。

在過去幾個月,我看過相當多網站、部落格和論壇貼文,都宣稱只要套用一些似乎不太嚴謹的篩選條件,回顧大量賽果記錄和投注賠率資料組,即可建立能獲利的投注系統。

在本文中,我將探討透過資料探勘尋找獲利優勢的陷阱:對於運彩投注者來說,不具因果關係的相關性會帶來麻煩。

資料探勘和資料挖泥

資料探勘指的是分析大量資料組,找出其中的模式和資訊的過程。更具體來說,資料挖泥則是使用資料探勘找出具有統計顯著性的資料模式。

我們不能用結果回溯進行解釋,因為這樣就是倒果為因。

運彩分析非常適合使用資料探勘和資料挖泥。許多網站收集大量美式足球賽果記錄和現有的賠率,用於可獲利投注系統的回顧搜尋和測試。

然而,使用這種資料分析工具的主要限制,在於通常無法以先驗假說解釋為何出現某些模式。

不具因果關係的相關性 

我先前已探討過混淆因果關係、相關性、精確度、準確度和有效性的陷阱。我們必須先瞭解投注系統成功的原因,才能讓它發揮預期的有效功能。

要是無法確立相關性背後的因果關係,就無從得知哪些因素可能導致相關性瓦解-無因果關係的相關性一點意義也沒有。

英格蘭足球乙級聯賽的潛在價值?

我在前幾個禮拜的 twitter 摘要中,注意到一則相當吸引人的內容,只要盲目投注英格蘭足球乙級聯賽 2012/13 年至 2016/17 年(含)所有客場隊伍獲勝(3,000 筆投注),就能從 Pinnacle(畢諾克)關閉賠率獲利 4.3% 以及從最佳市場賠率獲利將近 10% 的豐厚利潤。

在這五季中只有一季從 Pinnacle(畢諾克)的關閉賠率虧損,不過虧損極少。獲利表看起來像這樣。

article-data-mining-3-in-article.jpg

結果顯示,市場低估了此層級的客場隊伍,也就是說賠率過高。然而這並非短期失準,而似乎是投注者長期、全面錯誤地低估英格蘭足球乙級聯賽客場隊伍獲勝的可能性,並且遠超過博彩業者利潤的範圍。不過在此現象中,是否真的存在因果關係?

投注和局:聽起來容易極了

我最近注意到另一種稱為「投注和局」的策略。有人宣稱,回顧測試 2012 年的足球賽果和 Pinnacle(畢諾克)賽事賠率後,這種策略在超過 2,500 筆投注中的獲利接近 16%。

篩選條件很簡單:兩隊在前三場比賽都未打和;賠率範圍應在 3.20 至 3.56 之間。驗算獲利的統計顯著性後,我們發現結果確實相當獨特。上述賠率出現這種獲利水準的預期機率或許只有一百萬分之一或更低(假設模式完全為隨機)。

也許有人會問,為何選擇這些特定條件。為何不是前四場、五場或六場比賽?為何賠率不是 3.07 至 3.41,或 3.13 至 3.72?當然,幾乎不太可能在資料探勘前就設定這些條件;只是有人發現它們可以產生這樣的獲利結果。我們不能用結果回溯進行解釋,因為這樣就是倒果為因。

要是無法確立相關性背後的因果關係,就無從得知哪些因素可能導致相關性瓦解。

有人可能想為此策略辯護:「一百萬分之一的機率,這表示一定不是隨機產生的,對吧?」對,沒錯。不過,如果我們測試了一百萬個策略,然後發現其中一個策略具有這樣的統計顯著性,這代表什麼?正如 Nassim Taleb 在《隨機騙局》當中所述,猴子試圖用打字機重現荷馬詩句的天方夜譚:

「如果遊戲中只有五隻猴子,我可能會對寫出《伊利亞德》的猴子感到印象深刻,甚至認為牠是那位古代詩人的轉世。如果有數以億計的猴子,我就不會這麼印象深刻了...」

如同 Taleb 指出的重點,只有少數人會去數猴子有幾隻,而只要注意一下,就會發現絕大部分結果都沒有值得一看的模式。倖存者偏差讓我們只看見勝利者。

為何投注者需要「數猴子」

尋找可獲利的模式時,若我們在進行資料挖泥前不先提出先驗假設,那麼就應該測試大量投注系統,看看出現統計顯著性的頻率有多高。我在 twitter 摘要中對此討論串的回應是:「試著根據 10,000 種不同篩選條件計算 10,000 筆盲目投注樣本,再畫出獲利分布,看看結果如何吧。」

我找不到數量合用的 10,000 筆盲目投注樣本(那可是一大堆資料),不過我有 1,686 個 100 筆以上的投注資料。每個樣本代表在單一足球聯賽的單一賽季中,盲目投注特定結果、主場隊伍獲勝、和局或客場隊伍獲勝。

我先減去 Pinnacle(畢諾克)的利潤以計算各賽果的「真實」賠率,然後再計算各樣本的理論獲利和 t 統計值,這是我慣用於估算獲利有多不可能為隨機結果的方法。結果分布圖如下。正 t 值代表獲利樣本,負值代表虧損;數字越大,代表越不可能為隨機結果。

article-data-mining-2-in-article.jpg

熟悉常態分布(鐘形曲線)的人都知道它代表隨機結果。也就是說,這些盲目投注的樣本結果,很接近完全隨機產生的預期結果。

整體而言,其實幾乎或完全沒有系統性結果產生。那些英格蘭足球乙級聯賽的賽季獲利結果,八成只是把玩資料的過程中發現的幸運結果,碰巧出現看似投注者或博彩業者系統性不理性行為造成的可獲利模式。

這五季的「真實」賠率獲利總和 t 值為 +2.4,表示隨機發生的機率(p 值)為一百分之一。這具有統計顯著性,如果我們是要單獨發表一篇學術論文,這可以說是貨真價實的結果。不過整體分析結果幾乎可斷定並非如此,這完全只是好運罷了。

若想透過資料挖泥尋找可獲利的篩選條件並建立投注系統,就存在無法建立其因果關係的風險。

事實上,英格蘭足球乙級聯賽 2007/08 年賽季的結果甚至更棒。在我有資料的 242 場比賽中(十二月至五月),顯示理論獲利超過 29%(或 35%,以減去利潤後的「真實」賠率計算)。這種結果的預期出現機率約為一千分之一。這是 1,686 個樣本中的最佳結果。 

整體來說,837 個(或約一半)樣本能從「真實」賠率獲利,合乎預期。在這麼多樣本中,我們理所當然預期最佳結果的 p 值約為 1686 分之一。可以預期其中 16 個樣本(或約 1%)的 p 值小於一百分之一。同樣地,可以預期其中 168 個樣本(或約 10%)的 p 值小於十分之一。若出現任何不相符的結果,就可以合理懷疑其中是否有運氣之外的因素影響。

事實上,各有 15 (0.9%) 和 158 (9.4%) 個樣本,相當接近預期結果。下圖比較 p 值小於特定門檻(十分之一 = 10%,五分之一 = 20%,以此類推)之獲利樣本的理論期望百分比,以及實際出現的百分比。結果十分驚人:幾乎完全相同。

基本上,此圖再度顯示我們分析的內容完全是隨機產生的結果。沒錯,一千分之一的機率讓人印象深刻,不過如果有 1,000 個樣本可供選擇,結果就毫不讓人意外,因此也無法明確證明任何因果關係。 

article-data-mining-1-in-article.jpg

投注者可以從資料探勘和資料挖泥學到什麼?

賽季制足球層級出現隨機獲利分布或許有點出人意料。這並非建立投注系統的嚴謹方法。不過重點在於:若想透過資料挖泥尋找可獲利的篩選條件並建立投注系統,就存在無法建立其因果關係的風險。 

除非我們能找出獲利的原因,否則它可能毫無用處。不具因果關係的相互關係只會向平均值迴歸。對於運彩投注者來說,這代表長期虧損。

有些人可能認為依靠運氣獲利並沒有錯,畢竟這就是博彩的本質。不過如果是這樣,就不應該欺騙自己,以為成功來自於其他因素。

投注資源 - 增進您的投注能力

Pinnacle(畢諾克)的投注資源是線上最全面的專業投注建議資料庫之一。我們的目標就是增進投注者的博彩知識-不論投注者投注經驗多寡。