M. Schumacher versenyelőnyének statisztikai vizsgálata Többváltozós statisztikai elemzések házi dolgozat Szolnoki Endre, 2009. december Összefoglalás A következőkben Schumacher és versenytársai közötti különbségeket vizsgálom 2000 és 2009 közötti tíz F1 világbajnokság eredményei alapján. A nyers statisztikák alapján Schumacher messze a legeredményesebb versenyző az elmúlt 10 évben, annak ellenére, hogy az utolsó három világbajnokságban nem is indult. A házi dolgozatban dekomponálom Schumacher valószínűségi előnyét három tényezőre: startpozíció megszerzése, futamból kiesés és startpozíciótól függő győzelem valószínűségére. Látható, hogy a startpozíció erősen meghatározza a győzelmi esélyeket. A start és cél pozíciókat tekintve azonban Schumacher eredményei alapján nem különül el erősen az 5 szintén eredményes versenytársához (Massa, Hamilton, Alonso, Barichello, Räikönnen) képest. Schumacher múltbeli eredményei alapján kiemelkedő esélyekkel versenyezhet, ugyanis alacsony kiesési valószínűséggel vezet, de még ezt kiszűrve is nagyobb eséllyel győz az adott startpozícióból, mint a többiek. Egyszerű feltevésre épülő szimulációval vizsgáltam az eredményeket, futamonként átlagosan 70 véletlen szimuláció futtatásával az eredményeink úgy tűnik felfelé torzítanak. Másrészt azonban, az erős pilóták továbbra is fenyegetik Schumacher esélyeit, mögülük indulva ugyanis az elmúlt több mint 30 futamban nem tudott nyerni! A startpozíció és az erős pilóták mögül indulás közti korreláció iránya alapján Schumacher számára inkább az erős pilóták mögül indulás a valódi meghatározó tényező. Az előkelő startpozíciók megszerzésének valószínűségét illetően is jelentős Schumacher előnye, továbbá az 5 erősebb pilóta szintén kiemelkedik a többi versenyzővel összehasonlítva.
A nyers adatok vizsgálata Házi dolgozatomban az elmúlt tíz év Forma 1 futamainak adatbázisát elemeztem. Az adatok saját gyűjtésűek az internetről 1, és tartalmazzák a 2000 és 2009 közötti 174 nagydíjat, melyen 71 különböző pilóta versengett 41 versenyistálló képviseletében. 3642 rajtoló pilóta startpozícióra, helyezésre és pontszerzésre vonatkozó múltbéli adatai alapján kívánok becsléseket készíteni a győzelem és pontszerzés valószínűségére. Ezen kívül, 2010-től Michael Schumacher a Mercedes GP Petronas színeiben versenyezve visszatér a Forma 1-be. Jómagam ugyan nem vagyok nagy rajongó, de kíváncsi volnék, milyen esélyekkel indul a versenyen, alapul véve a múltbéli teljesítményeket. A nyers adatok alapján világosan látszik Schumacher kiugróan jó múltbeli teljesítménye. 2000 és 2006 között 122 futamból 46%-ban nyertesként (56 futam), 79%- ban pedig első hatban végzett (96 futam). Ezen túl, mindössze 13%-ban nem ért célba (16 futam). 2000 és 2009 között mindössze 17 pilóta léphetett fel a dobogó legfelső fokára, összesen 174 alkalommal. Schumacher 56 győzelemmel az első a rangsorban, őt Alonso (21) és Räikkönen (18), majd Massa, Hamilton és Barichello követi (mindhárom 11) kicsit elmaradva. A következőkben ezt az öt versenyzőt tekintem Schumacher komolyabb ellenfeleinek, az öt pilóta vagy erősebb/sikeresebb versenyzők megnevezés rájuk vonatkozik. Mindezek azonban nyers adatok, melyek óvatosan értelmezhetőek közvetlenül. Az elmúlt tíz év megválasztása ugyanis diszkriminál a még játékban lévő sikeres pilóták, valamint a pályafutását mint kiderült átmenetileg befejező Schumacher ellen. Amennyiben az évtizedben végig vagy az évtized elejétől versenyezhettek volna, valószínűleg a jobbak több győzelmével számukra kedvező statisztikákat kaphatnánk. Ezen túl, a start pozíció rengeteget számít az eredményt illetően. Az 1. ábra mutatja, hogy az első négy helyre melyik startpozíciókból érkeznek a befutók. Az első két helyre leggyakrabban első helyről indulók ékreznek, a harmadik helyre a második, a negyedikre a negyedik pozícióból indulók. Az első helyre az esetek 50%-kában az első 1 Forrás: http://www.formula1.com/results/
helyről induló érkezik, ezzel szemben a negyedik helyről indulók csupán 7%-ot adnak a győztesek közül, a hátrébbról indulók 11%-ot. A negyedik helyről indulók fele az első 4-ben landol, míg az első helyről indulók háromnegyede 2. 1. ábra: Adott helyre érkezők megoszlása startpozíció (x) szerint Diszkriminancia analízis a startpozíció helyezés térben Az elemzés első lépéseként alaposabban megvizsgáltam a startpozíció (x) és helyezés (y) térben a pilóták elhelyezkedését. 3 Feltételezésem szerint a jó pilóták és rossz pilóták elkülöníthetőek két csoportra. A jó pilóták jól teljesítenek az időmérő futamon, így alacsony x-ről indulhatnak. Ezeket a startpozíciókat pedig magasabb valószínűséggel használják ki, vagyis adott x mellett alacsonyabb átlagos y értékkel szerepelnek. Így a jó pilóta az origóhoz közel, a rosszabb pilóták pedig az origótól távol (jellemzően a középtől jobb felfelé) helyezkednek el. 2 A startpozíció természetesen nem adott, erre a dolgozat végén térek vissza. 3 Mivel nem mindenki startoló érkezik be, és ezek hiányzó értéket vesznek fel az y tengelyen, ezért a következő elemzést egyszer elvégeztem hiányzó adattal, második esetben pedig a hiányzó adatot 30-as illetve 99-es érkezési pozícióval helyettesítettem. Az eredmények nem különböznek különösebben.
Első lépésként Schumacher és a többiek szeparáló egyenesét számítottam diszkriminancia analízis segítségével az x-y térben. Az eredmény alapján az 0.155y+0.066x-1.933 diszkrimináló függvényt kapjuk a kanonikus diszkriminancia függvény együtthatóiként. Ennek alapján Schumacher a térben negatív lejtésű egyenes bal alsó részébe kerül, míg a többiek a jobb felsőbe. Az elválasztás gyenge, ugyanakkor szignifikáns, amit a sajátérték alacsony (0.075), és a Wilks lambda relatíve magas értéke (0.930), ugyanakkor a Bartlett-féle khí-négyzet teszt magas szignifikanciája mutat (khínégyzet: 183.4, p=0.000). A sofőrök csoportja azonban valószínűleg inkább három, mint két csoportra bontható. Ezért második lépésben kivettem az elemzésből a fentebb már sorolt sofőröket: Alonso, Räikkönen, Massa, Hamilton és Barichello. Ahogy sejthető volt, a középső csoport nélkül megnő a diszkrimináló függvény ereje a sajátérték és Wilks lambda alapján, azonban továbbra is a térben negatív meredekségű egyenes marad. (Lásd 9. ábra és 10. ábra.) Harmadik lépésként a három csoportot két diszkrimináló függvénnyel vizsgálom. Az első diszkrimináló függvény erősen szignifikáns, az öt sofőr és a többiek (Schumacheren kívül) elválaszthatónak bizonyulnak a fenti x-y térben (lásd 11. ábra). Nem jogos ugyanakkor Schumachert az erős 5 sofőrtől elválasztani, amit a második diszkrimináló függvény 0 sajátértéke jelez. (Lásd 12. ábra) Ez annak ellenére áll fenn, hogy a csoportátlagok jelentősen eltérnek. Érdekes azonban, hogy a második becsült diszkrimináló függvény pozitív meredekségű, nem pedig egy origóhoz közelebb fekvő negatív meredekségű egyenes. Abban az esetben Schumachert jobb pilótának nevezhettük volna, a fenti definíció alapján. Ennek alapján Schumacher és az öt sofőr együtt emelkedik ki a többiek mezőnyéből. Az eredmények hasonlóak, amennyiben a nem beérkezetteket 30. vagy 99. helyen beérkezettként beveszem az elemzésbe. A fentiek alapján tehát van értelme Schumachert leválasztani a többi versenyzőről, a nyers adatokon találtak ennyiben teljesülnek. Nem érvényesül azonban az 5 sikeresebb versenyzővel szembeni leválasztás, amennyiben tágabban értelmezzük a jó pilótaság fogalmát, mint a nyert nagydíjak száma. A fenti ábra szemlélteti az eredményeket. A két diszkrimináló függvény mellett a csoport centroidok (lásd 8. ábra) is láthatók az ábrán.
2. ábra: Startpozíció (X) és finish pozíció (Y), diszkriminancia analízis eredménye Győzelmi valószínűségek becslése logisztikus regresszióval Az elemzés második lépésében a startpozíció hatását kívánom számszerűsíteni a versenyzők számára, valamint itt is használom a korábbi csoportosítást. Egyszerű logisztikus regresszióval becsültem a pozícióból adódó győzelmi esélyt. A nem beérkezettek kezelése alapján kétfajta valószínűség is becsülhető. Amennyiben benne maradnak a mintában a teljes győzelmi esélyt, amennyiben kikerülnek belőle a beérkezés melletti feltételes valószínűséget mutatják. A futam folyamán való kiesés valószínűsége a jobb versenyzők esetében várhatóan jobb, ez magyarázza a két valószínűség közötti eltérést. Mivel kiesés esetén nincs esély a nyerésre, számítani tudom a kiesés valószínűségét is. A teljes valószínűség becslésére szignifikáns modellt kaptam, ahol a hátrébbról indulás csökkenti a nyerési esélyt, adott pozícióból az 5 pilóta jobb eséllyel, Schumacher még jobbal indulhat (lásd 13. ábra). A beérkezés melletti feltételes valószínűség esetében
a kicsit gyengébb modell még mindig szignifikáns, a magyarázó változók hasonló és kivétel nélkül szignifikáns együtthatókat kapnak. Ezek alapján Schumacher 69% valószínűséggel nyer első helyről, míg az erős pilóták csupán 36%, a többiek csupán 19% eséllyel indulnak (lásd 7. ábra). Schumacher egy részről annak köszönhetően eredményesebb, hogy kétszer olyan ritkán esik ki, mint egy erős pilóta, a többieknél kevesebb, mint harmad annyiszor. A győzelmi esélyek erősen csökkennek a startpozíció függvényében, egy gyenge pilóta már a 3. helyről is csak 10% alatti eséllyel indulhat, egy erősebb versenyző az 5. helyről, Schumacher még 7. helyről is ekkora eséllyel indul. (Lásd 3. ábra és 4. ábra) 3. ábra: Becsült teljes (TV) és feltételes (FV) győzelmi esélyek a startpozíció (X) függvényében 4. ábra: Becsült kiesési valószínűsége (KV) a startpozíció (X) függvényében
A becsült győzelmi valószínűségek szimulációs ellenőrzése Az elemzés harmadik részében a fenti esélyekkel szimulációt végeztem. Mivel a fenti eredmények önmagukban nem elegek szimuláció elvégzésére, a következő modellel számoltam: a valószínűségeket úgy értelmeztem, mint annak az esélye, hogy ha az x. hely előttieknek nem sikerült, akkor az x. helyről indulónak p(x,g) esélye van megnyerni a futamot. A függvény értékei mátrixba rendezhetők, x a startpozíciót, g pedig a pilóta csoportot jelenti (0 többiek, 1 5 kiemelt pilóta, 2 Schumacher). Ennek eredményeit mutatja a következő ábra. Látható, hogy a csökkenő formát sikerült a szimulációnak helyre állítania, ugyanakkor hajlamosak vagyunk felülbecsülni az első helyről indulás esélyét: a valóságban kb. 8 százalékponttal kevesebb a start-cél győzelem aránya. A szimulációhoz felhasznált feltevés ugyanakkor az esetek 30%-ában nem talált győztest a futamhoz, ezeket nem vettem figyelembe a gyakoriságok számításához. A 20. ábra megmutatja, hogy Schumacher 122 futamában ebben a szimulációban a logisztikus regresszióval becsültnél jóval magasabb arányban került ki gyzőztesen. A szimulációs eredmények alapján Schumacher győzelmi esélyeit erősen, átlagosan 7 százalékponttal felülbecsüljük. A fenti modell a verseny lényegét ugyan nem feltétlen fogja meg tökéletesen, de alkalmas arra, hogy a fenti valószínűségek valódiságáról képet alkothassunk. Ennek alapján valószínűnek tűnik, hogy a fenti valószínűségek felülről közelíthetik a valódi esélyeket. 5. ábra: Startpozíció szerinti győzelem gyakorisága, tényadat és szimulációs eredmény
Schumacher esélyeinek vizsgálata döntési fákkal Az elemzésem negyedik részében döntési fák segítségével vizsgálom Schumacher győzelmi esélyeit illetően. (A null modellt lásd 21. ábra) Az egyes módszerek a következő változók közül választhatnak: startpozíció, pálya kategorikus változó, körök száma év első futama dummy, az előzőt (illetve az előző előttit) megnyerte dummy-k, előle hány erős sofőr rajtolt, előző futam óta eltelt hetek száma. A fentiek és a győzelem közti kereszttáblás elemzés alapján szignifikáns összefüggések vannak. A győzelem dummy negatív és közepes erősségű korrelációban áll a startpozícióval és a Schumacher előtt induló erős pilóták számával, valamint gyenge pozitív az előző futam győzelmi hatásának a Spearman korrelációk alapján (lásd 15. ábra). A Somer-féle d mutató alapján gyenge negatív a kapcsolat a győzelem és a startpozíció, gyenge pozitív az előző győzelme dummyval, közepes negatív az erős pilóták mögül indulásnak. A szimmetrikus gamma és tau mutatók alapján az eredmények hasonlóak. A CHAID módszer 4 megmutatta, hogy Schumacher 31 esetben sem tudott erős pilóta mögül rajtolva győzni, ha mégis, akkor a 4. helyről, és 7. hely mögül mindössze 8%-ban tudott nyerni (lásd 17. ábra). Mindez jelentősen megjavítja a csoportosítást: 54%-ról 79.5%- ra. A csoportosítás majdnem tökéletesen előrejelzi Schumacher győzelmeit, ellenben ennek ára a túl sok győzelem amelyek esetében valójában Schumacher nem elsőként ért célba. A CRT módszer 5-ös mélységig használta fel a változók nagy részét. Új információ az előzőhöz képest a körök számának felhasználása, amelyet felosztást azonban nem 4 Mindegyik módszer esetében maximum 7 szintű, 20 és 10 tagszámú elágazásokat engedélyeztem.
egyszerűen értelmezni. A QUEST módszer segítségével készített fa nem mutat új információt (lásd 18. ábra). Láttuk, hogy amennyiben Schumacher erős pilóta mögül indul, nem tud nyerni. Ennek a hatásnak a hátterében azonban más hatás is állhat. Szintén, a korábban használt startpozíció és győzelem közötti hatás hátterében állhat az erős pilóta mögül hatás. Az összefüggés nyilvánvaló, közepesen erős pozitív korreláció van a két lehetséges magyarázó változó között. Minél hátrébb indul Schumacher, annál nagyobb az esélye hogy az erős pilóták egyáltalán előtte kezdhetnek. Az irányt is jelző Somer mutató alapján inkább a startpozíció a függő változó, az okság inkább a többi erős pilóta helyezésétől indul (lásd 19. ábra). Újrabecsülve azonban Schumacherre a korábban dummy-zott bináris logisztikus regressziót, a startpozíció szignifikáns és együtthatója kicsit módosul, míg a jó pilóták mögül indulás mesterségesen inszignifikáns 5 (lásd22. ábra). A startpozíció megszerzésének elemzése A fenti vizsgálatok adottnak vették a startpozíciót, amelyet azonban most részletesen fogok elemezni. A versenyzők a startpozícióikat szintén versengve szerzik meg, az időmérő edzés eredménye alapján. A fenti eredmények nagy része ezt a versenyt tükrözi vissza: aki az időmérő edzésen (a pályán egymagában) leggyorsabban ért körbe, az ezzel az előnyével nagy valószínűséggel lehet első a futamon is. Az időmérő edzés alapján készült rangsorba azonban nem számít bele a pilóta kitartása, bizonyos hibák amelyek hosszabb vezetés alatt megtörténhetnek, a szerelő csapat lassúsága vagy ügyetlenségei, az autó esetleges műszaki problémái, stb. Nem tökéletes, de erős összefüggést várunk tehát az időmérő edzést és futamot nyerő személye között. Ez, mint fentebb láthattuk megfigyelhető: az esetek felében az időmérő edzést nyerő kerül a dobogó csúcsára. 5 Mesterségesen, mivel a szórás a mögüle indulás és nyeretlenség összefüggése alapján az együttható mínusz végtelen kellene legyen.
Adott helyről tudjuk, hogy Schumacher nagyobb eséllyel győz, mint a többiek. De Schumacher előnye egy részben abban is állhat, és valószínű hogy részben abban is van, hogy előnyösebb helyekről indulhat. A pilóták már ismert kategorizálását használva multinomiális logisztikus regresszióval becsültem az egyes helyekre kerülés valószínűségét. Referencia kategóriának állítva az első induló pozíciót, a multinomiális logisztikus regresszió az adott x. startpozíció megszerzésének és az első startpozíció megszerzésének esélyhányadosát modellezi, a pilóták csoportjait reprezentáló két dummy lesz a magyarázó oldalon. A futtatott modell és a magyarázó változók szignifikánsak a khí négyzet illetve a likelihood arány teszt alapján, az R 2 jellegű mutatók alapján kb. 15%-ban magyaráz (lásd 23. ábra). 6. ábra: Startpozíció időmérő futammal való megszerzésének valószínűsége a pilóták csoportjaira Az eredményeket a kategóriák esélyhányadosa segítségével valószínűségekké számíthatjuk. Az egyes pilóta kategóriák egyes startpozíció megszerzésének esélyét mutatja. Látható, hogy Schumacher jóval nagyobb eséllyel szerez első helyet, míg az 5 erős pilóta inkább egyenletes 10% eséllyel pályázhat az első 5 induló hely egyikére. A többi
pilóta kb. 5% eséllyel egyenletesen szerez helyeket. Schumacher esélyeitől vett eltérést mutatja a 24. ábra. Látható, hogy Schumacher előnye többrétű. Alacsonyabb valószínűséggel esik ki a futam folyamán, valamint magasabb valószínűséggel ér be első helyre a többieknél, még akár az 5 erős pilótát tekintve is. Ezen túl jóval erősebben teljesít az időmérő edzéseken is, előnye az első startpozíció megszerzésére kimagasló. A fentiek segítségével tehát Schumacher előnyét sikerült dekomponálni erre a három összetevőre, mindháromban Schumacher elsőségével a 2000-2009 közötti adatokon.
Függelék 7. ábra: Becsült teljes (TV) és feltételes (FV) valószínűségek adott helyről győzelemre, valamint kiesés valószínűsége (KV) 8. ábra: Csoport centroidok a startpozíció (X) és beérkezési pozíció (Y) térben. Y hiányzó értékekkel. 9. ábra: Diszkriminancia elemzés eredménye: két csoport elválasztása, 5 sofőr kihagyásával
10. ábra: Diszkriminancia elemzés eredménye: két csoport elválasztása, 5 sofőr kihagyásával 11. ábra: Diszkriminancia elemzés eredménye: mindhárom csoport elválasztása
12. ábra: Diszkriminancia elemzés eredménye: mindhárom csoport elválasztása 13. ábra: Bináris logisztikus regresszió a teljes valószínűség becslésére
14. ábra: Bináris logisztikus regresszió a feltételes valószínűség becslésére
15. ábra: Spearman-féle korrelációk a győzelem dummy-val
16. ábra: (EXHAUSTIVE) CHAID módszer eredményének klasszifikációs táblája 17. ábra: CHAID módszer döntési fa outputja
18. ábra: QUEST módszer döntési fa outputja 19. ábra: 5 erősebb pilóta mögül indulás (elotte_p5) és startpozíció változó közötti asszociáció
20. ábra: Schumacher győzelmének gyakorisága regresszió alapján adott várható érték, különbségként 21. ábra: Győzelem változó, null modell 22. ábra: Logisztikus regresszió a győzelem bináris változóra, Schumacher minta
23. ábra: A startpozícióra illesztett multinomiális logisztikus regresszió szignifikanciája
24. ábra: Schumacher esélye adott startpozíció megszerzésére, és többlete a többiekkel szemben