Good-Turing lefedés. Lang Zsolt

Hasonló dokumentumok
Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Probabilisztikus funkcionális modellek idegrendszeri adatok elemzésére

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Matematikai statisztika c. tárgy oktatásának célja és tematikája

[Biomatematika 2] Orvosi biometria

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Biomatematika 2 Orvosi biometria

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Az Informatika Elméleti Alapjai

Készítette: Fegyverneki Sándor

Nagy Gábor compalg.inf.elte.hu/ nagy

KÖVETKEZTETŐ STATISZTIKA

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztikai alapok. Leíró statisztika Lineáris módszerek a statisztikában

Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg

Elemszám becslés. Kaszaki József Ph.D. SZTE ÁOK Sebészeti Műtéttani Intézet

6. Előadás. Vereb György, DE OEC BSI, október 12.

Információs rendszerek elméleti alapjai. Információelmélet

Statistical Inference

[Biomatematika 2] Orvosi biometria

A leíró statisztikák

Biomatematika 2 Orvosi biometria

Statisztikai becslés

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Diszkrét matematika 2.C szakirány

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Mesterséges Intelligencia MI

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Kettőnél több csoport vizsgálata. Makara B. Gábor

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Bird species status and trends reporting format for the period (Annex 2)

Norma Determináns, inverz Kondíciószám Direkt és inverz hibák Lin. egyenletrendszerek A Gauss-módszer. Lineáris algebra numerikus módszerei

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Least Squares becslés

Markov-láncok stacionárius eloszlása

Többváltozós lineáris regressziós modell feltételeinek

A Markovi forgalomanalízis legújabb eredményei és ezek alkalmazása a távközlő hálózatok teljesítményvizsgálatában

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

[Biomatematika 2] Orvosi biometria

Informatikai Rendszerek Alapjai

Report on the main results of the surveillance under article 11 for annex II, IV and V species (Annex B)

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás

Report on the main results of the surveillance under article 11 for annex II, IV and V species (Annex B)

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Nonparametric Tests

Gyakorló feladatok. Az alábbi feladatokon kívül a félév szemináriumi anyagát is nézzék át. Jó munkát! Gaál László

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Következik, hogy B-nek minden prímosztója 4k + 1 alakú, de akkor B maga is 4k + 1 alakú, s ez ellentmondás.

1. előadás. Lineáris algebra numerikus módszerei. Hibaszámítás Számábrázolás Kerekítés, levágás Klasszikus hibaanalízis Abszolút hiba Relatív hiba

Lineáris regresszió vizsgálata resampling eljárással

Nagy Gábor compalg.inf.elte.hu/ nagy

y ij = µ + α i + e ij

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

A biostatisztika alapfogalmai, konfidenciaintervallum. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Kutatásmódszertan és prezentációkészítés

Populációbecslések és monitoring 1. gyakorlat. Elvonásos módszerek az adatokat pl. a vadászok is gyűjthetik, olcsóbb

A Statisztika alapjai

TÁRKI ADATFELVÉTELI ÉS ADATBANK OSZTÁLYA OMNIBUSZ 98/1. SPSS állomány neve: Könyvtári dokumentum sorszáma: 287. Budapest, 1998.

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Mit mond a XXI. század emberének a statisztika?

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

TÁRKI ADATFELVÉTELI ÉS ADATBANK OSZTÁLYA OMNIBUSZ 2003/2. SPSS állomány neve: Budapest, február

Probabilisztikus modellek II: Inferencia. Nagy Dávid

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Bevezetés a hipotézisvizsgálatokba

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

Mintavételi eljárások

TÁRKI ADATFELVÉTELI ÉS ADATBANK OSZTÁLYA. Változás SPSS állomány neve: Budapest, 2002.

Bevezetés. 1. előadás, február 11. Módszerek. Tematika

Hatványozás. A hatványozás azonosságai

Modellkiválasztás és struktúrák tanulása

A következő feladat célja az, hogy egyszerű módon konstruáljunk Poisson folyamatokat.

Heckman modell. Szelekciós modellek alkalmazásai.

Report on the main results of the surveillance under article 11 for annex II, IV and V species (Annex B)

TÁRKI ADATFELVÉTELI ÉS ADATBANK OSZTÁLYA OMNIBUSZ 2002/10. SPSS állomány neve: Budapest, október

Statisztikus tanulás az idegrendszerben

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése

STATISZTIKA I. Mintavétel fogalmai. Mintavételi hiba. Statisztikai adatgyűjtés Nem véletlenen alapuló kiválasztás

Valószínűségszámítás és Statisztika I. zh november MEGOLDÁS

A maximum likelihood becslésről

MATEMATIKA ÉRETTSÉGI május 8. EMELT SZINT

Valószínűségszámítás és statisztika

Brósch Zoltán (Debreceni Egyetem Kossuth Lajos Gyakorló Gimnáziuma) Számelmélet I.

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Report on the main results of the surveillance under article 11 for annex II, IV and V species (Annex B)

Valószínűségszámítás és statisztika a fizikában február 16.

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Gibbs-jelenség viselkedésének vizsgálata egyszer négyszögjel esetén

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Nonparametric Tests. Petra Petrovics.

Az információelmélet alapjai, biológiai alkalmazások. 1. A logaritmusfüggvény és azonosságai

Elméleti összefoglaló a Valószín ségszámítás kurzushoz

Átírás:

Good-Turing lefedés Lang Zsolt 2017.03.24.

Bevezetés Fajok közösségét vizsgáljuk. Sok faj van, az egyedek száma gyakorlatilag végtelen. Az egyedekből véletlen mintát veszünk. Kérdés, a mintában van-e, előfordul-e a közösség minden fajából egyed? Ha nem, akkor mennyire fedik le a mintába került fajok a teljes fajközösséget? Általában, hogyan jellemezhető a minta alapján a közösségben a fajok gyakorisági eloszlása? A most ismertetendő eljárást eredetileg a II. VH-ban a német ENIGMA kódjának feltörésére fejlesztették ki. Az ENIGMA-hoz naponta változtatható kódtáblázatok tartoztak, amik 9 alaptáblázat speciális átkódolásával jöttek létre. Turing az alaptáblázatban szereplő kódok gyakorisági mintázatával igyekezett beazonosítani az adott napon használt táblázatot (Good 2000). Elsősorban Good (1953) publikációját követjük.

Néhány jelölés A minta nagysága legyen N. A populációban lévő fajok száma S, ezt a számot nem ismerjük, de feltesszük, hogy véges. A fajok populációs részaránya p 1, p 2,, p S, ezeket sem ismerjük.

A kérdés pontosabban Az N elemű minta alapján becsüljük meg a következőt. Mi annak a valószínűsége, hogy egy újonnan kiválasztott egyed faja már szerepel a mintában? Ez a valószínűség a minta Good-Turing-féle lefedése (Good- Turing sample coverage). (Matematikailag könnyebben kezelhetőnek tűnik annak az eseménynek a valószínűsége, hogy az új egyed faja még nem szerepel a mintában.)

A gyakoriságok gyakorisága Nevezzük singleton-nak az olyan fajt, amelyik pontosan egyszer fordul elő a mintában. A mintában lévő singleton-ok számát jelöljük n 1 -gyel. Legyen doubleton a neve az olyan fajoknak, amelyek pontosan kétszer fordulnak elő a mintában. A mintában lévő doubletonok számát jelöljük n 2 -vel. Általában vizsgáljuk azokat a fajokat, amelyek pontosan r egyeddel vannak jelen a mintában. Legyen a számuk n r. Ha r=1, akkor ezek a singleton-ok, ha r=2, akkor a doubleton-ok. Ha r=0, akkor n 0 a mintában nem szereplő fajok száma.

Két összefüggés Az egyik n 0 +n 1 + +n r + =S. A másik 1 n 1 +2 n 2 + +r n r + =N

A q r Válasszunk ki egy olyan fajt, amihez r számú egyed tartozik a mintában. Legyen ennek a fajnak a populációs részaránya q r. Ez a részarány valószínűségi változó, mert függhet a kiválasztott fajtól. Modellezni fogjuk az eloszlását. A q r relatív gyakoriságos (maximum likelihood) becslése a mintából r/n. Ez a becslés azonban nem kielégítő. Az r=0 esetben pl. 0-t ad.

A fő eredmények A q r várható értéke közelítőleg ahol Eq r r*/n, r*=(r+1) n r+1 /n r. A mintában r egyeddel szereplő fajok együttes populációs részarányának közelítő várható értéke ez alapján n r Eq r =(r+1) n r+1 /N. A mintában nem szereplő fajok együttes populációs részarányának közelítő várható értéke n 1 /N.

Általánosítás q r m-ik momentuma E(q rm ) (r+m) (m) /N m n r+m /n r, ahol t(m)=t (t-1) (t-m+1). Itt r=1,2,3 és m=0,1,2,.

Bizonyítás I. Először megmutatjuk, hogy q r várható értékét elég megismerni r 1 esetén. A mintában legalább r 1 egyeddel szereplő fajok együttes populációs részarányának közelítő várható értéke N -1 {(r+1)n r+1 +(r+2)n r+2 + }. Speciálisan, a mintában legalább 1 egyeddel képviselt fajok együttes populációs részaránya mivel N -1 {2n 2 +3n 3 + }=1-n 1 /N, 1 n 1 +2 n 2 + +r n r + =N. Tehát a várható érték képlete r=0-ra is érvényes.

Bizonyítás II. Az n r várható értéke felírható az E N (n r )= C N,r k p r k (1-p k ) N-r alakban. Speciálisan E N (n 0 )= k (1-p k ) N. Nem ismerjük azonban a fajok p 1,p 2, p S populációs részarányát.

Bizonyítás III. A mintabeli r megfigyelt előfordulás likelihoodja P(r előfordulás a mintában q r =p k ) = C N,r p k r (1-p k ) N-r. A faj kiválasztásának a priori valószínűségét modellezzük 1/S-sel (nem informatív prior). Ebben a modellkörnyezetben q r posterior eloszlása arányos a likelihooddal P(q r =p k r előfordulás a mintában ) p k r (1-p k ) N-r.

Bizonyítás IV. A posterior eloszlással ki tudjuk számolni q r posterior momentumait: E(q rm r előfordulás)= k p k r+m (1-p k ) N-r / k p k r (1-p k ) N-r. Vegyük észre, hogy ennek részei nagyon hasonlítanak az n r várható értékére: Behelyettesítéssel kapjuk, hogy E N (n r )= C N,r k p k r (1-p k ) N-r. E(q rm r előfordulás)= (r+m) (m) /(N+m) (m) E N+m (n r+m )/E N (n r ). A várható értékeket a mintában megfigyelt n r+m és n r értékekkel közelítve megkapjuk a bizonyítandó összefüggéseket.

Heurisztika Képzeljük el, hogy az N elemű mintát az egyedek egymás után történő kisorsolásával kaptuk. Ha a mintához hozzáveszünk egy új egyedet és ennek faja a mintában addig nem fordult elő, akkor az új mintában az egyed faja singleton lesz. A mintában nem szereplő fajú egyed kiválasztásának eseménye egy singleton létrejöttét jelenti. Ennek valószínűségét a relatív gyakorisággal becsülve jutunk a mintában nem szereplő fajok részarányának becsléséhez. n 1 /N Megjegyzés: a singletonok tartósan csak nagy N mellett, a mintavétel vége felé maradnak meg, amikorra mind N, mind n 1 már elég stabil. (Az elején egy singleton gyorsan doubletonná változik).

Megjegyzések Ha n 1 =0, azaz nincs a mintában singleton, akkor a Good-Turing elmélet szerint azt jósoljuk, hogy már minden faj szerepel a mintában. Az n 1 /N becslés átlagnégyzetes hibája nagy N-re 1/N (Robbins 1968). Az ökológiai mellett sok lingvisztikai alkalmazás is létezik. Az n 1, n 2, gyakoriságokat szokás simítani Chao és mtsai (1987, 2012) javítottak a becslésen: ha n 1 >0 és n 2 >0. n 1 /N (N-1) n 1 /[(N-1) n 1 +2 n 2 ],

Kitekintés, általánosítás Az elméletet és finomított változatait alkalmazzák a közösség fajeloszlásának pontosabb becslésére. Chao és mtsai a fajok rangszám szerint csökkenő módon rendezett relatív gyakoriságait (rank abundance distribution of species) modellezték a módszerrel (Chao et al. 2015) A fajok részarányából származtatott mennyiségek, pl. a Shannon entrópia becslése is javítható a mintában nem előforduló fajok figyelembe vételével (Chao et al. 2013). Annak ellenére, hogy régi ötletről van szó, a témakört ma is intenzíven kutatják, fejlesztik.

Hivatkozások Chao A (1987). Estimating the Population Size for Capture-Recapture Data with Unequal Catchability. Biometrics 43(4), 783-791. Chao A et al. (2015). Unveiling the species-rank abundance distribution by generalizing the Good-Turing sample coverage theory. Ecology 96(5), 1189 1201. Chao A, Jost L (2012). Coverage-based rarefaction and extrapolation: standardizing samples by completeness rather than size. Ecology 93(12), 2533 2547. Chao A, Wang YT, Jost L (2013). Entropy and the species accumulation curve: a novel entropy estimator via discovery rates of new species. Methods in Ecology and Evolution 4, 1091 1100.

Hivatkozások Good IJ (1953). The Population Frequencies of Species and the Estimation of Population Parameters. Biometrika 40(3/4), 237-264. Good IJ (2000). Turing s anticipation of empirical bayes in connection with the cryptanalysis of the naval enigma. Journal of Statistical Computation and Simulation 66:2, 101-111. Robbins HE (1968). Estimating the total probability of the unobserved outcomes of an experiment. The Annals of Mathematical Statistics 39, 256 257.