ינו 5, 2018
ינו 5, 2018

מה הבעיה בכריית מידע בהימורי ספורט?

מהי כריית וחילוץ מידע?

ניתוח האסטרטגיה הפשוטה של הימור על תוצאות התיקו

למה המהמרים צריכים "לספור את הקופים"?

מה הבעיה בכריית מידע בהימורי ספורט?

הרבה מהמרים משתמשים בנתונים כחלק מאסטרטגיית ההימורים שלהם. עם זאת, עד כמה שחלק מהתוצאות מרשימות, החלק החשוב כאן הוא התהליך שמוביל אליהן. אז מהן הבעיות של כריית מידע בהימורי ספורט? ננסה לענות על כך בכתבה הבאה.

בחודשים האחרונים נתקלתי במספר רב של פוסטים באתרים, בלוגים ופורומים של אנשים שטענו שהם מצאו שיטה רווחית ופשוטה להימורים: שימוש בדיעבד בכמה קריטריונים, שרירותיים לכאורה, על מאגר נתונים גדול של תוצאות עבר ויחסי זכייה להימורים.

בכתבה הזו אני רוצה לבדוק מהן המגרעות של חיפוש שיטה רווחית על ידי כריית מידע ולהסביר למה מבחינתנו, כמהמרי ספורט, מתאם בלי סיבתיות הוא צרה צרורה.

כריית וחילוץ מידע

כריית מידע היא תהליך של ניתוח מאגר גדול של נתונים במטרה למצוא דפוסים ופיסות מידע. ספציפית, כשרוצים לחלץ מידע משתמשים בתהליך של כריית מידע כדי לחשוף דפוסים עם מובהקות סטטיסטית בנתונים.

עם זאת, אסור לטעות ולהצמיד בדיעבד הסבר לתוצאה, שהרי הסיבה תמיד קודמת לתוצאה.

קל להתמסר לכריית וחילוץ מידע בהימורי ספורט. באתרים שונים אפשר למצוא כמויות גדולות של תוצאות עבר בכדורגל ויחסי זכייה בהימורים לצורך חיפוש ובדיקת שיטות רווחיות להימורים בדיעבד.

אולם, המגבלה המרכזית של שימוש בשיטה הזו ככלי לניתוח נתונים היא שבדרך כלל אין לנו השערות מוקדמות המסבירות למה הדפוסים האלה התרחשו.

מתאם בלי סיבתיות

בעבר הסברתי מהן המלכודות של בלבול בין מתאם לסיבתיות ובין דיוק לבין מהימנות ותוקף סטטיסטי. כדי שלשיטת הימורים יהיה תוקף וכדי שהיא תעשה את מה שהיא אמורה לעשות, אנחנו צריכים מושג מסוים לגבי הסיבות שהובילו להצלחה מלכתחילה.

אם לא מוכיחים קשר סיבתי סביב המתאם, אי אפשר לדעת מה גרם למתאם הזה, או במילים אחרות: מתאם ללא סיבתיות לא שווה כלום.

האם מסתתר לנו ערך בליגה האנגלית השנייה בכדורגל?

לפני כמה שבועות שמתי לב למשהו בפיד בחשבון הטוויטר שלי: אם היינו מהמרים באופן עיוור על כל ניצחונות החוץ בליגה האנגלית השנייה בכדורגל בין העונות 2012/13 ל-2016/17, כולל – קרוב ל-3,000 הימורים – היינו עושים רווח נאה מאוד של 4.3% מליין הסגירה של פינקל וקרוב ל-10% מהתמחורים הטובים ביותר בשוק.

רק באחת מחמש העונות האלה היינו מפסידים לליין הסגירה של פינקל, וההפסד היה קטן. כך נראה תרשים הרווח:

article-data-mining-3-in-article.jpg

ההסבר שניתן לכך היה שהשוק לא העריך מספיק את קבוצות החוץ בליגה הזו. כלומר, התמחור שלהן היה גבוה מדי. לא מדובר בסטייה לטווח קצר אלא בשגיאה עקבית ושיטתית באופן שבו המהמרים העריכו את הסבירות לניצחונות חוץ בליגה האנגלית השנייה, הרבה מעבר לשולי הרווח של סוכנות ההימורים. השאלה היא אם אפשר להאמין שבאמת יש סיבתיות במה שמצאנו?

הימור על תוצאות התיקו: זה נשמע כל כך פשוט

אסטרטגיה נוספת שפרסמתי לאחרונה נקראת 'הימור על תוצאות התיקו'. טענתי שהיה אפשר להרוויח קרוב ל-16% תשואה בקצת יותר מ-2,500 הימורים, על ידי בדיקה בדיעבד של תוצאות תיקו מ-2012 ואילך אל מול יחסי הזכייה של פינקל לאותם משחקים.

קריטריוני הבחירה היו פשוטים: שתי הקבוצות היו צריכות לא לסיים בתיקו בשלושת המשחקים הקודמים ויחסי הזכייה היו צריכים להיות בין 3.20 ל-3.56. בבדיקת המובהקות הסטטיסטית של התשואה הזו מצאתי שהתוצאה היא אכן יוצאת דופן. בהנחה שהדפוס הזה הוא אכן אקראי, רמה כזו של תשואה מיחסי הזכייה האלה אמורה לקרות אחת למיליון או פחות.

בהחלט אפשר לתהות למה דווקא שני הקריטריונים האלה נבחרו. למה לא ארבעת, חמשת או ששת המשחקים הקודמים? למה לא יחסי זכייה בין 3.07 ל-3.41? או בין 3.13 ל-3.72? כמובן, הקריטריונים האלה לא נבחרו לפני כריית המידע. הם נבחרו כי הם הניבו את התוצאות הרווחיות האלה. אסור לטעות ולהצמיד בדיעבד הסבר לתוצאה, שהרי הסיבה תמיד קודמת לתוצאה.

אם לא מוכיחים קשר סיבתי סביב המתאם, אי אפשר לדעת מה גרם למתאם הזה.

להגנת האסטרטגיה הזו אפשר גם להגיד "אחת למיליון: זאת אומרת שזה בטוח לא באקראי, נכון?" כן. נכון. עם זאת, אם היינו בודקים מיליון אסטרטגיות ומוצאים לאחת מהן מובהקות סטטיסטית כזו, מה זה היה מלמד אותנו? כמו שאמר נאסים טאלב, בספרו 'תעתועי האקראיות', על האשליה של קופים שמנסים לכתוב את יצירותיו של הומרוס במכונת כתיבה:

"אם יש חמישה קופים במשחק, הייתי מתרשם מזה שהצליח לכתוב את האיליאדה, עד כדי כך שהייתי חושב שהנשמה של המשורר העתיק התגלגלה לגופו. אבל אם היו מיליארד קופים, הייתי פחות מתרשם..."

כמו שטאלב אומר, לא הרבה אנשים טורחים לספור את כל הקופים, ואם הם היו סופרים אותם, הם היו רואים שכמעט אצל אף אחד אין דפוס מעניין ששווה לציין. בגלל הטיית ההישרדות אנחנו רואים רק את המנצחים.

למה המהמרים צריכים "לספור את הקופים"?

אם לא מציעים השערות מוקדמות לפני שמחלצים מידע בחיפוש אחרי דפוסים רווחיים, צריך לבדוק מספר גדול של שיטות הימור כדי לראות כמה פעמים תימצא מובהקות סטטיסטית. כפי שעניתי בדיון שהתקיים בפיד בחשבון הטוויטר שלי, "בואו ניצור תרשים פיזור של התשואות מ-10,000 מדגמים של הימורים בצורה עיוורת שייבחרו לפי 10,000 קריטריונים שונים ונבדוק איך הוא נראה".

לא הצלחתי למצוא 10,000 מדגמים של הימורים בצורה עיוורת בגודל מתאים – שכוללים המון נתונים – אבל ב-1,686 מהם היו 100 הימורים או יותר. כל אחד מהמדגמים ייצג עונה אחת של הימורים בצורה עיוורת על תוצאה מסוימת (ניצחון ביתי, תיקו או ניצחון חוץ) בליגת כדורגל אחת במשך העונה.

אחרי שהסרתי את שולי הרווח של פינקל כדי לחשב את יחסי הזכייה 'האמיתיים' של כל אחת מהתוצאות, חישבתי את התשואה התיאורטית של כל אחד מהמדגמים ואת ערך ה-t שלהם, הסטטיסטי המועדף עלי לבדיקת חוסר הסבירות לכך שהתשואות האלה הן תוצאה מקרית בלבד. הם מוצגים בהתפלגות הבאה. ציוני t חיוביים מייצגים מדגמים רווחיים וציונים שליליים מייצגים הפסדים. ככל שהמספר גדול יותר, כך חוסר הסבירות שלו גדול יותר.

article-data-mining-2-in-article.jpg

מי שמכיר את העיקרון של התפלגות נורמלית (עקומת פעמון) יזהה זאת כהוכחה לאקראיות. כלומר, התוצאות במדגמים של הימורים בצורה עיוורת הן פחות או יותר מה שאפשר לצפות שיקרה אם הכל היה קורה רק במקרה.

כשמתייחסים לכך כמכלול, כמעט אין, או שממש אין, שום דבר שיטתי כאן. העונות הרווחיות בליגה האנגלית השנייה היו ככל הנראה רק תוצאות שנחשפו במזל על ידי התעסקות עם הנתונים והיתקלות בדפוס שנדמה כרווחי, ונגרם על ידי התנהגות שיטתית ולא רציונלית של מהמרים או סוכנות הימורים.

לתשואות מיחסי הזכייה 'האמיתיים' בחמש העונות כשמחברים אותן יחד יש ציון t של 2.4+, המרמז על הסתברות (ערך p) של 1 ל-100 לכך שזה יקרה במקרה. מבחינה סטטיסטית זה מובהק, ואם היינו מפרסמים מאמר אקדמי על כך במנותק מההקשר, היינו ששים לקרוא למובהקות הזו אמיתית. עם זאת, מניתוח התמונה הגדולה אנחנו יודעים שזה בסבירות גבוהה לא אמיתי, אלא פשוט מזל טהור.

אם אנחנו רוצים ליצור שיטת הימורים על ידי חילוץ מידע עד שנמצא קריטריונים רווחיים, אנחנו מסתכנים בכך שניפול בפח ונמצא הסבר סיבתי לממצאים שלנו.

למעשה, במדגם אחד מעונת 2007/8 בליגה האנגלית השנייה התוצאות היו אפילו טובות יותר. ב-242 המשחקים מדצמבר עד מאי שיש לי עליהם נתונים היה רווח תיאורטי של יותר מ-29% (או 35% אם משתמשים ביחסי הזכייה 'האמיתיים' ללא שולי הרווח). רווח כזה קורה במקרה רק כל 1 ל-1,000 פעמים. זה היה המדגם עם הרווח הגבוה ביותר מבין 1,686 המדגמים. 

בסך הכל 837 מדגמים, או כמחצית מכמות המדגמים, היו רווחיים עם יחסי הזכייה 'האמיתיים', בדיוק כמצופה. בדגימה כזו של מדגמים, אפשר לצפות באופן טבעי שלמדגם הטוב ביותר יהיה ערך p סביב 1 ל-1,686. אפשר לצפות של-16 מדגמים פחות או יותר (או כ-1%) יהיו ערכי p של פחות מ-1 ל-100. על אותו משקל אפשר לצפות של-168 מדגמים פחות או יותר (או כ-10%) יהיו ערכי p של פחות מ-1 ל-10. כל תוצאה אחרת הייתה מובילה אותנו לתהות, ובצדק, אם אחד מהמדגמים מושפע מגורם אחר, ולא רק ממזל.

בפועל היו 15 (0.9%) ו-158 (9.4%) מדגמים בהתאמה, די קרוב לציפיות. בתרשים הבא אפשר לראות השוואה בין הציפייה התיאורטית לאחוז המדגמים הרווחים עם ערכי p מתחת לסף מסוים (1 ל-10 = 10%, 1 ל-5 - 20%, וכן הלאה) לבין אחוז המדגמים בפועל. יש דמיון כמעט מושלם, וזה מדהים.

למעשה, התרשים הוא דרך אחרת לומר שכמעט כל מה שאנחנו מסתכלים עליו קרה במקרה ורק במקרה. כן, מדגם עם רווח של 1 ל-1,000 הוא מרשים, אבל אם הוא חלק מ-1,000 מדגמים אחרים, זה לא בלתי צפוי, ולכן זו לא הוכחה טובה לסיבתיות. 

article-data-mining-1-in-article.jpg

מה בכל זאת אפשר לקחת מחילוץ וכריית מידע להימורים?

כנראה שלא מפתיע שההתפלגות של הרווח בעונת כדורגל בליגה מסוימת היא אקראית. זו לא בדיוק הדרך הכי מתוחכמת ליצור שיטת הימורים. מה שחשוב לזכור הוא זה: אם אנחנו רוצים ליצור שיטת הימורים על ידי חילוץ מידע עד שנמצא קריטריונים רווחיים, אנחנו מסתכנים בכך שניפול בפח ונמצא הסבר סיבתי לממצאים שלנו. 

אלא אם יש לנו סיבה שגרמה לרווח הזה, סביר שהשיטה שלנו היא קשקוש מוחלט. במתאם ללא סיבתיות בסופו של דבר תהיה רגרסיה לממוצע. מבחינת הימורי ספורט, זאת אומרת שבטווח הארוך נפסיד כסף.

אפשר לטעון שאין כל פסול בכך שננצל את המזל כדי להרוויח. אחרי הכל, זה מה שעושים בהימורים. אבל אם אנחנו עושים זאת, אסור לנו להטעות את עצמנו ולחשוב שההצלחה נובעת מסיבה אחרת מלבד מזל.

משאבי הימורים - משפרים את יכולות ההימור שלך

משאבי ההימורים של פינקל הם אחד מהאוספים המקיפים ביותר של עצות מקצועיות להימורים שאפשר למצוא באינטרנט. אנו מספקים עצות לכל רמות הניסיון, במטרה אחת פשוטה - לשפר את היכולת שלך להמר בצורה מושכלת.