M. Schumacher versenyelőnyének statisztikai vizsgálata



Hasonló dokumentumok
Átlageredmények a évi Országos Kompetenciamérésen. matematikából és szövegértésből

Diszkriminancia-analízis

Segítség az outputok értelmezéséhez

[Biomatematika 2] Orvosi biometria

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Q1 = 1575 eft Me = 2027,7778 eft Q3 = 2526,3158 eft

2015. feb jún szezon

A KÖRNYEZETI INNOVÁCIÓK MOZGATÓRUGÓI A HAZAI FELDOLGOZÓIPARBAN EGY VÁLLALATI FELMÉRÉS TANULSÁGAI

Korrelációs kapcsolatok elemzése

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Logisztikus regresszió

Legjobb. Leggyorsabb. Legnézettebb

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

A évi kompetenciamérés eredményeinek értékelése a FITjelentés

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

Kecskeméti Belvárosi Zrínyi Ilona Általános Iskola Városföldi Általános Iskolája 2015-ös évi kompetenciamérésének értékelése Készítette: Knódel Éva

Statisztikai módszerek a skálafüggetlen hálózatok

A Kecskeméti Belvárosi Zrínyi Ilona Általános Iskola Damjanich János Általános Iskolája 2016-os évi kompetenciaméré sének értékelése

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

A maximum likelihood becslésről

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Adatok statisztikai értékelésének főbb lehetőségei

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

kompetenciakompetenciakompetenci akompetenciakompetenciakompeten ciakompetenciakompetenciakompete nciakompetenciakompetenciakompet

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Foglalkoztatási modul

Regressziós vizsgálatok

Korreláció számítás az SPSSben

Országos kompetenciamérés eredményeinek kiértékelése. 6. és 8. évfolyamokon. 6. és 8. évfolyamokon 2017

Országos kompetenciamérés eredményeinek kiértékelése 6. és 8. évfolyamokon 2012

Hunyadi János Általános Iskola

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

1. ábra: Magyarországi cégek megoszlása és kockázatossága 10-es Rating kategóriák szerint. Cégek megoszlása. Fizetésképtelenné válás valószínűsége

Biostatisztika VIII. Mátyus László. 19 October

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Korreláció és lineáris regresszió

Beszámoló a évi kompetenciamérésről

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Typotex Kiadó. Tartalomjegyzék

Az első számjegyek Benford törvénye

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Mérési hibák

A Kecskeméti Belvárosi Zrínyi Ilona Általános Iskola Tóth László Általános Iskolája 2015-ös évi kompetenciamérésének értékelése

FIT-jelentés :: Intézményi jelentés. Összefoglalás

Logisztikus regresszió

Többváltozós lineáris regresszió 3.

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Idegen nyelvi mérés 2018/19

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Peltier-elemek vizsgálata

Az Országos Középiskolai Tanulmányi Verseny tanévi első fordulójának feladatmegoldásai

Tárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102

A nappali tagozatra felvett gépészmérnök és műszaki menedzser hallgatók informatikai ismeretének elemzése a Budapesti Műszaki Főiskolán

I. BESZÁLLÍTÓI TELJESÍTMÉNYEK ÉRTÉKELÉSE

H0 hipotézis: μ1 = μ2 = μ3 = μ (a különböző talpú cipők eladási ára megegyezik)

társadalomtudományokban

Kecskeméti Belvárosi Zrínyi Ilona Általános Iskola Városföldi Általános Iskolája 2016-os évi kompetenciamérésének értékelése Készítette: Knódel Éva

48. Hét November 26. Csütörtök

Pedagógusok a munkaerőpiacon

Kecskeméti Belvárosi Zrínyi Ilona Általános Iskola Városföldi Általános Iskolája 2017-es évi kompetenciamérésének értékelése Készítette: Knódel Éva

A hazai vállalkozások bankválasztása és az elmúlt hónapok pénzintézeti csődjei

Hunyadi János Általános Iskola

(Independence, dependence, random variables)

Iktatószám: 41- /2008. Tárgy: Tájékoztató a évi Országos Kompetencia-mérés hódmezővásárhelyi eredményéről

2. A 2016.évi Országos kompetencia mérés eredményeinek feldolgozása

Lévai Zoltán és Tim Gábor is győzött

matematikai statisztika

Számítógépes döntéstámogatás. Statisztikai elemzés

Függetlenségvizsgálat, Illeszkedésvizsgálat

A II. kategória Fizika OKTV mérési feladatainak megoldása

Matematikai statisztika c. tárgy oktatásának célja és tematikája

VÁRAKOZÓK JELENTÉSE ELEMZÉS

Bevezetés a Korreláció &

A közbeszerzések első félévi alakulása

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

A évi országos kompetenciamérés iskolai eredményeinek elemzése, értékelése

Likelihood, deviancia, Akaike-féle információs kritérium

Heckman modell. Szelekciós modellek alkalmazásai.

Kollányi Bence: Miért nem használ internetet? A World Internet Project 2006-os felmérésének eredményei

Kecskeméti Belvárosi Zrínyi Ilona Általános Iskola kompetenciamérésének 2015-es évi intézményi értékelése Készítette: Knódel Éva

6. előadás - Regressziószámítás II.

Kecskeméti Belvárosi Zrínyi Ilona Általános Iskola Városföldi Általános Iskolája 2014-es évi kompetenciamérésének értékelése Készítette: Knódel Éva

A évi országos kompetenciamérés iskolai eredményeinek elemzése

TERÉZVÁROSI KERESKEDELMI ÉS KÖZGAZDASÁGI SZAKKÖZÉPISKOLA ÉS

Kecskeméti Belvárosi Zrínyi Ilona Általános Iskola Béke Általános Iskolája 2014-es évi kompetenciamérésének értékelése Készítette: Knódel Éva

A többváltozós lineáris regresszió III. Főkomponens-analízis

y ij = µ + α i + e ij

A évi OKM iskolai szintű eredményeinek elemzése

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

JA45 Cserkeszőlői Petőfi Sándor Általános Iskola (OM: ) 5465 Cserkeszőlő, Ady Endre utca 1.

Rariga Judit Globális külkereskedelem átmeneti lassulás vagy normalizálódás?

Kettőnél több csoport vizsgálata. Makara B. Gábor

Mesterséges Intelligencia MI

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Átírás:

M. Schumacher versenyelőnyének statisztikai vizsgálata Többváltozós statisztikai elemzések házi dolgozat Szolnoki Endre, 2009. december Összefoglalás A következőkben Schumacher és versenytársai közötti különbségeket vizsgálom 2000 és 2009 közötti tíz F1 világbajnokság eredményei alapján. A nyers statisztikák alapján Schumacher messze a legeredményesebb versenyző az elmúlt 10 évben, annak ellenére, hogy az utolsó három világbajnokságban nem is indult. A házi dolgozatban dekomponálom Schumacher valószínűségi előnyét három tényezőre: startpozíció megszerzése, futamból kiesés és startpozíciótól függő győzelem valószínűségére. Látható, hogy a startpozíció erősen meghatározza a győzelmi esélyeket. A start és cél pozíciókat tekintve azonban Schumacher eredményei alapján nem különül el erősen az 5 szintén eredményes versenytársához (Massa, Hamilton, Alonso, Barichello, Räikönnen) képest. Schumacher múltbeli eredményei alapján kiemelkedő esélyekkel versenyezhet, ugyanis alacsony kiesési valószínűséggel vezet, de még ezt kiszűrve is nagyobb eséllyel győz az adott startpozícióból, mint a többiek. Egyszerű feltevésre épülő szimulációval vizsgáltam az eredményeket, futamonként átlagosan 70 véletlen szimuláció futtatásával az eredményeink úgy tűnik felfelé torzítanak. Másrészt azonban, az erős pilóták továbbra is fenyegetik Schumacher esélyeit, mögülük indulva ugyanis az elmúlt több mint 30 futamban nem tudott nyerni! A startpozíció és az erős pilóták mögül indulás közti korreláció iránya alapján Schumacher számára inkább az erős pilóták mögül indulás a valódi meghatározó tényező. Az előkelő startpozíciók megszerzésének valószínűségét illetően is jelentős Schumacher előnye, továbbá az 5 erősebb pilóta szintén kiemelkedik a többi versenyzővel összehasonlítva.

A nyers adatok vizsgálata Házi dolgozatomban az elmúlt tíz év Forma 1 futamainak adatbázisát elemeztem. Az adatok saját gyűjtésűek az internetről 1, és tartalmazzák a 2000 és 2009 közötti 174 nagydíjat, melyen 71 különböző pilóta versengett 41 versenyistálló képviseletében. 3642 rajtoló pilóta startpozícióra, helyezésre és pontszerzésre vonatkozó múltbéli adatai alapján kívánok becsléseket készíteni a győzelem és pontszerzés valószínűségére. Ezen kívül, 2010-től Michael Schumacher a Mercedes GP Petronas színeiben versenyezve visszatér a Forma 1-be. Jómagam ugyan nem vagyok nagy rajongó, de kíváncsi volnék, milyen esélyekkel indul a versenyen, alapul véve a múltbéli teljesítményeket. A nyers adatok alapján világosan látszik Schumacher kiugróan jó múltbeli teljesítménye. 2000 és 2006 között 122 futamból 46%-ban nyertesként (56 futam), 79%- ban pedig első hatban végzett (96 futam). Ezen túl, mindössze 13%-ban nem ért célba (16 futam). 2000 és 2009 között mindössze 17 pilóta léphetett fel a dobogó legfelső fokára, összesen 174 alkalommal. Schumacher 56 győzelemmel az első a rangsorban, őt Alonso (21) és Räikkönen (18), majd Massa, Hamilton és Barichello követi (mindhárom 11) kicsit elmaradva. A következőkben ezt az öt versenyzőt tekintem Schumacher komolyabb ellenfeleinek, az öt pilóta vagy erősebb/sikeresebb versenyzők megnevezés rájuk vonatkozik. Mindezek azonban nyers adatok, melyek óvatosan értelmezhetőek közvetlenül. Az elmúlt tíz év megválasztása ugyanis diszkriminál a még játékban lévő sikeres pilóták, valamint a pályafutását mint kiderült átmenetileg befejező Schumacher ellen. Amennyiben az évtizedben végig vagy az évtized elejétől versenyezhettek volna, valószínűleg a jobbak több győzelmével számukra kedvező statisztikákat kaphatnánk. Ezen túl, a start pozíció rengeteget számít az eredményt illetően. Az 1. ábra mutatja, hogy az első négy helyre melyik startpozíciókból érkeznek a befutók. Az első két helyre leggyakrabban első helyről indulók ékreznek, a harmadik helyre a második, a negyedikre a negyedik pozícióból indulók. Az első helyre az esetek 50%-kában az első 1 Forrás: http://www.formula1.com/results/

helyről induló érkezik, ezzel szemben a negyedik helyről indulók csupán 7%-ot adnak a győztesek közül, a hátrébbról indulók 11%-ot. A negyedik helyről indulók fele az első 4-ben landol, míg az első helyről indulók háromnegyede 2. 1. ábra: Adott helyre érkezők megoszlása startpozíció (x) szerint Diszkriminancia analízis a startpozíció helyezés térben Az elemzés első lépéseként alaposabban megvizsgáltam a startpozíció (x) és helyezés (y) térben a pilóták elhelyezkedését. 3 Feltételezésem szerint a jó pilóták és rossz pilóták elkülöníthetőek két csoportra. A jó pilóták jól teljesítenek az időmérő futamon, így alacsony x-ről indulhatnak. Ezeket a startpozíciókat pedig magasabb valószínűséggel használják ki, vagyis adott x mellett alacsonyabb átlagos y értékkel szerepelnek. Így a jó pilóta az origóhoz közel, a rosszabb pilóták pedig az origótól távol (jellemzően a középtől jobb felfelé) helyezkednek el. 2 A startpozíció természetesen nem adott, erre a dolgozat végén térek vissza. 3 Mivel nem mindenki startoló érkezik be, és ezek hiányzó értéket vesznek fel az y tengelyen, ezért a következő elemzést egyszer elvégeztem hiányzó adattal, második esetben pedig a hiányzó adatot 30-as illetve 99-es érkezési pozícióval helyettesítettem. Az eredmények nem különböznek különösebben.

Első lépésként Schumacher és a többiek szeparáló egyenesét számítottam diszkriminancia analízis segítségével az x-y térben. Az eredmény alapján az 0.155y+0.066x-1.933 diszkrimináló függvényt kapjuk a kanonikus diszkriminancia függvény együtthatóiként. Ennek alapján Schumacher a térben negatív lejtésű egyenes bal alsó részébe kerül, míg a többiek a jobb felsőbe. Az elválasztás gyenge, ugyanakkor szignifikáns, amit a sajátérték alacsony (0.075), és a Wilks lambda relatíve magas értéke (0.930), ugyanakkor a Bartlett-féle khí-négyzet teszt magas szignifikanciája mutat (khínégyzet: 183.4, p=0.000). A sofőrök csoportja azonban valószínűleg inkább három, mint két csoportra bontható. Ezért második lépésben kivettem az elemzésből a fentebb már sorolt sofőröket: Alonso, Räikkönen, Massa, Hamilton és Barichello. Ahogy sejthető volt, a középső csoport nélkül megnő a diszkrimináló függvény ereje a sajátérték és Wilks lambda alapján, azonban továbbra is a térben negatív meredekségű egyenes marad. (Lásd 9. ábra és 10. ábra.) Harmadik lépésként a három csoportot két diszkrimináló függvénnyel vizsgálom. Az első diszkrimináló függvény erősen szignifikáns, az öt sofőr és a többiek (Schumacheren kívül) elválaszthatónak bizonyulnak a fenti x-y térben (lásd 11. ábra). Nem jogos ugyanakkor Schumachert az erős 5 sofőrtől elválasztani, amit a második diszkrimináló függvény 0 sajátértéke jelez. (Lásd 12. ábra) Ez annak ellenére áll fenn, hogy a csoportátlagok jelentősen eltérnek. Érdekes azonban, hogy a második becsült diszkrimináló függvény pozitív meredekségű, nem pedig egy origóhoz közelebb fekvő negatív meredekségű egyenes. Abban az esetben Schumachert jobb pilótának nevezhettük volna, a fenti definíció alapján. Ennek alapján Schumacher és az öt sofőr együtt emelkedik ki a többiek mezőnyéből. Az eredmények hasonlóak, amennyiben a nem beérkezetteket 30. vagy 99. helyen beérkezettként beveszem az elemzésbe. A fentiek alapján tehát van értelme Schumachert leválasztani a többi versenyzőről, a nyers adatokon találtak ennyiben teljesülnek. Nem érvényesül azonban az 5 sikeresebb versenyzővel szembeni leválasztás, amennyiben tágabban értelmezzük a jó pilótaság fogalmát, mint a nyert nagydíjak száma. A fenti ábra szemlélteti az eredményeket. A két diszkrimináló függvény mellett a csoport centroidok (lásd 8. ábra) is láthatók az ábrán.

2. ábra: Startpozíció (X) és finish pozíció (Y), diszkriminancia analízis eredménye Győzelmi valószínűségek becslése logisztikus regresszióval Az elemzés második lépésében a startpozíció hatását kívánom számszerűsíteni a versenyzők számára, valamint itt is használom a korábbi csoportosítást. Egyszerű logisztikus regresszióval becsültem a pozícióból adódó győzelmi esélyt. A nem beérkezettek kezelése alapján kétfajta valószínűség is becsülhető. Amennyiben benne maradnak a mintában a teljes győzelmi esélyt, amennyiben kikerülnek belőle a beérkezés melletti feltételes valószínűséget mutatják. A futam folyamán való kiesés valószínűsége a jobb versenyzők esetében várhatóan jobb, ez magyarázza a két valószínűség közötti eltérést. Mivel kiesés esetén nincs esély a nyerésre, számítani tudom a kiesés valószínűségét is. A teljes valószínűség becslésére szignifikáns modellt kaptam, ahol a hátrébbról indulás csökkenti a nyerési esélyt, adott pozícióból az 5 pilóta jobb eséllyel, Schumacher még jobbal indulhat (lásd 13. ábra). A beérkezés melletti feltételes valószínűség esetében

a kicsit gyengébb modell még mindig szignifikáns, a magyarázó változók hasonló és kivétel nélkül szignifikáns együtthatókat kapnak. Ezek alapján Schumacher 69% valószínűséggel nyer első helyről, míg az erős pilóták csupán 36%, a többiek csupán 19% eséllyel indulnak (lásd 7. ábra). Schumacher egy részről annak köszönhetően eredményesebb, hogy kétszer olyan ritkán esik ki, mint egy erős pilóta, a többieknél kevesebb, mint harmad annyiszor. A győzelmi esélyek erősen csökkennek a startpozíció függvényében, egy gyenge pilóta már a 3. helyről is csak 10% alatti eséllyel indulhat, egy erősebb versenyző az 5. helyről, Schumacher még 7. helyről is ekkora eséllyel indul. (Lásd 3. ábra és 4. ábra) 3. ábra: Becsült teljes (TV) és feltételes (FV) győzelmi esélyek a startpozíció (X) függvényében 4. ábra: Becsült kiesési valószínűsége (KV) a startpozíció (X) függvényében

A becsült győzelmi valószínűségek szimulációs ellenőrzése Az elemzés harmadik részében a fenti esélyekkel szimulációt végeztem. Mivel a fenti eredmények önmagukban nem elegek szimuláció elvégzésére, a következő modellel számoltam: a valószínűségeket úgy értelmeztem, mint annak az esélye, hogy ha az x. hely előttieknek nem sikerült, akkor az x. helyről indulónak p(x,g) esélye van megnyerni a futamot. A függvény értékei mátrixba rendezhetők, x a startpozíciót, g pedig a pilóta csoportot jelenti (0 többiek, 1 5 kiemelt pilóta, 2 Schumacher). Ennek eredményeit mutatja a következő ábra. Látható, hogy a csökkenő formát sikerült a szimulációnak helyre állítania, ugyanakkor hajlamosak vagyunk felülbecsülni az első helyről indulás esélyét: a valóságban kb. 8 százalékponttal kevesebb a start-cél győzelem aránya. A szimulációhoz felhasznált feltevés ugyanakkor az esetek 30%-ában nem talált győztest a futamhoz, ezeket nem vettem figyelembe a gyakoriságok számításához. A 20. ábra megmutatja, hogy Schumacher 122 futamában ebben a szimulációban a logisztikus regresszióval becsültnél jóval magasabb arányban került ki gyzőztesen. A szimulációs eredmények alapján Schumacher győzelmi esélyeit erősen, átlagosan 7 százalékponttal felülbecsüljük. A fenti modell a verseny lényegét ugyan nem feltétlen fogja meg tökéletesen, de alkalmas arra, hogy a fenti valószínűségek valódiságáról képet alkothassunk. Ennek alapján valószínűnek tűnik, hogy a fenti valószínűségek felülről közelíthetik a valódi esélyeket. 5. ábra: Startpozíció szerinti győzelem gyakorisága, tényadat és szimulációs eredmény

Schumacher esélyeinek vizsgálata döntési fákkal Az elemzésem negyedik részében döntési fák segítségével vizsgálom Schumacher győzelmi esélyeit illetően. (A null modellt lásd 21. ábra) Az egyes módszerek a következő változók közül választhatnak: startpozíció, pálya kategorikus változó, körök száma év első futama dummy, az előzőt (illetve az előző előttit) megnyerte dummy-k, előle hány erős sofőr rajtolt, előző futam óta eltelt hetek száma. A fentiek és a győzelem közti kereszttáblás elemzés alapján szignifikáns összefüggések vannak. A győzelem dummy negatív és közepes erősségű korrelációban áll a startpozícióval és a Schumacher előtt induló erős pilóták számával, valamint gyenge pozitív az előző futam győzelmi hatásának a Spearman korrelációk alapján (lásd 15. ábra). A Somer-féle d mutató alapján gyenge negatív a kapcsolat a győzelem és a startpozíció, gyenge pozitív az előző győzelme dummyval, közepes negatív az erős pilóták mögül indulásnak. A szimmetrikus gamma és tau mutatók alapján az eredmények hasonlóak. A CHAID módszer 4 megmutatta, hogy Schumacher 31 esetben sem tudott erős pilóta mögül rajtolva győzni, ha mégis, akkor a 4. helyről, és 7. hely mögül mindössze 8%-ban tudott nyerni (lásd 17. ábra). Mindez jelentősen megjavítja a csoportosítást: 54%-ról 79.5%- ra. A csoportosítás majdnem tökéletesen előrejelzi Schumacher győzelmeit, ellenben ennek ára a túl sok győzelem amelyek esetében valójában Schumacher nem elsőként ért célba. A CRT módszer 5-ös mélységig használta fel a változók nagy részét. Új információ az előzőhöz képest a körök számának felhasználása, amelyet felosztást azonban nem 4 Mindegyik módszer esetében maximum 7 szintű, 20 és 10 tagszámú elágazásokat engedélyeztem.

egyszerűen értelmezni. A QUEST módszer segítségével készített fa nem mutat új információt (lásd 18. ábra). Láttuk, hogy amennyiben Schumacher erős pilóta mögül indul, nem tud nyerni. Ennek a hatásnak a hátterében azonban más hatás is állhat. Szintén, a korábban használt startpozíció és győzelem közötti hatás hátterében állhat az erős pilóta mögül hatás. Az összefüggés nyilvánvaló, közepesen erős pozitív korreláció van a két lehetséges magyarázó változó között. Minél hátrébb indul Schumacher, annál nagyobb az esélye hogy az erős pilóták egyáltalán előtte kezdhetnek. Az irányt is jelző Somer mutató alapján inkább a startpozíció a függő változó, az okság inkább a többi erős pilóta helyezésétől indul (lásd 19. ábra). Újrabecsülve azonban Schumacherre a korábban dummy-zott bináris logisztikus regressziót, a startpozíció szignifikáns és együtthatója kicsit módosul, míg a jó pilóták mögül indulás mesterségesen inszignifikáns 5 (lásd22. ábra). A startpozíció megszerzésének elemzése A fenti vizsgálatok adottnak vették a startpozíciót, amelyet azonban most részletesen fogok elemezni. A versenyzők a startpozícióikat szintén versengve szerzik meg, az időmérő edzés eredménye alapján. A fenti eredmények nagy része ezt a versenyt tükrözi vissza: aki az időmérő edzésen (a pályán egymagában) leggyorsabban ért körbe, az ezzel az előnyével nagy valószínűséggel lehet első a futamon is. Az időmérő edzés alapján készült rangsorba azonban nem számít bele a pilóta kitartása, bizonyos hibák amelyek hosszabb vezetés alatt megtörténhetnek, a szerelő csapat lassúsága vagy ügyetlenségei, az autó esetleges műszaki problémái, stb. Nem tökéletes, de erős összefüggést várunk tehát az időmérő edzést és futamot nyerő személye között. Ez, mint fentebb láthattuk megfigyelhető: az esetek felében az időmérő edzést nyerő kerül a dobogó csúcsára. 5 Mesterségesen, mivel a szórás a mögüle indulás és nyeretlenség összefüggése alapján az együttható mínusz végtelen kellene legyen.

Adott helyről tudjuk, hogy Schumacher nagyobb eséllyel győz, mint a többiek. De Schumacher előnye egy részben abban is állhat, és valószínű hogy részben abban is van, hogy előnyösebb helyekről indulhat. A pilóták már ismert kategorizálását használva multinomiális logisztikus regresszióval becsültem az egyes helyekre kerülés valószínűségét. Referencia kategóriának állítva az első induló pozíciót, a multinomiális logisztikus regresszió az adott x. startpozíció megszerzésének és az első startpozíció megszerzésének esélyhányadosát modellezi, a pilóták csoportjait reprezentáló két dummy lesz a magyarázó oldalon. A futtatott modell és a magyarázó változók szignifikánsak a khí négyzet illetve a likelihood arány teszt alapján, az R 2 jellegű mutatók alapján kb. 15%-ban magyaráz (lásd 23. ábra). 6. ábra: Startpozíció időmérő futammal való megszerzésének valószínűsége a pilóták csoportjaira Az eredményeket a kategóriák esélyhányadosa segítségével valószínűségekké számíthatjuk. Az egyes pilóta kategóriák egyes startpozíció megszerzésének esélyét mutatja. Látható, hogy Schumacher jóval nagyobb eséllyel szerez első helyet, míg az 5 erős pilóta inkább egyenletes 10% eséllyel pályázhat az első 5 induló hely egyikére. A többi

pilóta kb. 5% eséllyel egyenletesen szerez helyeket. Schumacher esélyeitől vett eltérést mutatja a 24. ábra. Látható, hogy Schumacher előnye többrétű. Alacsonyabb valószínűséggel esik ki a futam folyamán, valamint magasabb valószínűséggel ér be első helyre a többieknél, még akár az 5 erős pilótát tekintve is. Ezen túl jóval erősebben teljesít az időmérő edzéseken is, előnye az első startpozíció megszerzésére kimagasló. A fentiek segítségével tehát Schumacher előnyét sikerült dekomponálni erre a három összetevőre, mindháromban Schumacher elsőségével a 2000-2009 közötti adatokon.

Függelék 7. ábra: Becsült teljes (TV) és feltételes (FV) valószínűségek adott helyről győzelemre, valamint kiesés valószínűsége (KV) 8. ábra: Csoport centroidok a startpozíció (X) és beérkezési pozíció (Y) térben. Y hiányzó értékekkel. 9. ábra: Diszkriminancia elemzés eredménye: két csoport elválasztása, 5 sofőr kihagyásával

10. ábra: Diszkriminancia elemzés eredménye: két csoport elválasztása, 5 sofőr kihagyásával 11. ábra: Diszkriminancia elemzés eredménye: mindhárom csoport elválasztása

12. ábra: Diszkriminancia elemzés eredménye: mindhárom csoport elválasztása 13. ábra: Bináris logisztikus regresszió a teljes valószínűség becslésére

14. ábra: Bináris logisztikus regresszió a feltételes valószínűség becslésére

15. ábra: Spearman-féle korrelációk a győzelem dummy-val

16. ábra: (EXHAUSTIVE) CHAID módszer eredményének klasszifikációs táblája 17. ábra: CHAID módszer döntési fa outputja

18. ábra: QUEST módszer döntési fa outputja 19. ábra: 5 erősebb pilóta mögül indulás (elotte_p5) és startpozíció változó közötti asszociáció

20. ábra: Schumacher győzelmének gyakorisága regresszió alapján adott várható érték, különbségként 21. ábra: Győzelem változó, null modell 22. ábra: Logisztikus regresszió a győzelem bináris változóra, Schumacher minta

23. ábra: A startpozícióra illesztett multinomiális logisztikus regresszió szignifikanciája

24. ábra: Schumacher esélye adott startpozíció megszerzésére, és többlete a többiekkel szemben