Régészeti mintákon végzett neutronaktivációs analízis eredményeinek sokváltozós statisztikai feldolgozása

Hasonló dokumentumok
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Principal Component Analysis

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Matematikai geodéziai számítások 6.

Matematikai geodéziai számítások 6.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A maximum likelihood becslésről

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Matematikai geodéziai számítások 5.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Matematikai geodéziai számítások 10.

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

A Statisztika alapjai

Matematikai geodéziai számítások 5.

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

Matematika A2 vizsga mgeoldása június 4.

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Bevezetés a hipotézisvizsgálatokba

Biostatisztika VIII. Mátyus László. 19 October

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

1. Generátorrendszer. Házi feladat (fizikából tudjuk) Ha v és w nem párhuzamos síkvektorok, akkor generátorrendszert alkotnak a sík vektorainak

Miért fontos számunkra az előző gyakorlaton tárgyalt lineáris algebrai ismeretek

A leíró statisztikák

GEOSTATISZTIKA. Földtudományi mérnöki MSc, geofizikus-mérnöki szakirány. 2018/2019 I. félév TANTÁRGYI KOMMUNIKÁCIÓS DOSSZIÉ

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

y ij = µ + α i + e ij

Sajátértékek és sajátvektorok. mf1n1a06- mf1n2a06 Csabai István

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Matematikai statisztika c. tárgy oktatásának célja és tematikája

11. Előadás. 11. előadás Bevezetés a lineáris programozásba

Készítette: Fegyverneki Sándor

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Matematika A1a Analízis

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

c adatpontok és az ismeretlen pont közötti kovariancia vektora

GEOSTATISZTIKA II. Geográfus MSc szak. 2019/2020 I. félév TANTÁRGYI KOMMUNIKÁCIÓS DOSSZIÉ

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

(Independence, dependence, random variables)

ANOVA,MANOVA. Márkus László március 30. Márkus László ANOVA,MANOVA március / 26

Adatok statisztikai értékelésének főbb lehetőségei

[Biomatematika 2] Orvosi biometria

Normális eloszlás tesztje

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Korreláció és lineáris regresszió

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Több valószínűségi változó együttes eloszlása, korreláció

KÖVETKEZTETŐ STATISZTIKA

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

[Biomatematika 2] Orvosi biometria

Kutatásmódszertan és prezentációkészítés

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Gyakorló feladatok I.

Vektorok, mátrixok, lineáris egyenletrendszerek

A mérési eredmény megadása

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Hipotézis vizsgálatok

Gauss-Jordan módszer Legkisebb négyzetek módszere, egyenes LNM, polinom LNM, függvény. Lineáris algebra numerikus módszerei

Segítség az outputok értelmezéséhez

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Elméleti összefoglaló a Valószín ségszámítás kurzushoz

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

Keresztmetszet másodrendű nyomatékainak meghatározása

Statisztikai módszerek 7. gyakorlat

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Vektorterek. =a gyakorlatokon megoldásra ajánlott

egyetemi jegyzet Meskó Balázs

Elemi statisztika fizikusoknak

Matematikai geodéziai számítások 9.

LINEÁRIS ALGEBRA. matematika alapszak. Euklideszi terek. SZTE Bolyai Intézet, őszi félév. Euklideszi terek LINEÁRIS ALGEBRA 1 / 40

17. előadás: Vektorok a térben

Valószínűségi változók. Várható érték és szórás

A valószínűségszámítás elemei

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

6. Előadás. Megyesi László: Lineáris algebra, oldal. 6. előadás Bázis, dimenzió

Biomatematika 13. Varianciaanaĺızis (ANOVA)

MATEMATIKA ÉRETTSÉGI május 8. EMELT SZINT

Többváltozós lineáris regresszió 3.

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

Elméleti összefoglaló a Sztochasztika alapjai kurzushoz

Nagyméretű adathalmazok kezelése (BMEVISZM144) Reinhardt Gábor április 5.

Faktoranalízis az SPSS-ben

Matematikai geodéziai számítások 9.

Regressziós vizsgálatok

BIOMATEMATIKA ELŐADÁS

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Gauss-Seidel iteráció

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

Matematika (mesterképzés)

Átírás:

Régészeti mintákon végzett neutronaktivációs analízis eredményeinek sokváltozós statisztikai feldolgozása SZAKDOLGOZAT NÉMETH VIKTÓRIA Matematika BSc Matematika tanári szakirány Témavezető: Balázs László, egyetemi adjunktus ELTE TTK, Geofizikai és Űrtudományi Tanszék Eötvös Loránd Tudományegyetem Budapest, 2012.

Mindenekelőtt köszönöm szépen a konzulensemnek, Balázs Lászlónak az útmutatást, a kitartó segítségét, és azt a sok időt, amit rám szánt! Köszönöm szépen ifj. Csom Gyulának a programozásban nyújtott temérdek segítségét, a rengeteg türelmét és sok jó tanácsát! Végül, de nem utolsó sorban köszönöm szépen Balla Mártának, hogy rendelkezésemre bocsátotta a régészeti adatokat! 2

Tartalom 1. Bevezetés... 4 2. Módszertan... 6 2.1 Valószínűségi modell... 6 2.1.1 Az n-dimenziós eloszlásról általában... 6 2.1.2 A többdimenziós normális eloszlásról általában... 7 2.1.3 A normális eloszlás paramétereinek becslése... 8 2.2 Főkomponens-analízis... 9 2.2.1 Bartlett-próba... 10 2.3 Klaszteranalízis... 10 2.3.1 Metrikák... 12 2.4 Programok... 15 3. Vizsgálat... 15 3.1 Főkomponens-analízis... 16 3.2 Klaszteranalízis... 19 3.3 Kezdeti csoportok meghatározása... 19 3.4 Kezdeti csoportosítás ellenőrzése... 23 4. Összegzés... 27 4.1 Eredmények... 27 4.2 Értékelés... 27 5. Irodalomjegyzék... 28 Függelék... 29 3

1. Bevezetés A szakdolgozatomban megfogalmazott feladat fizikai, matematikai módszerek alkalmazását igényli, témája a történelemtudománnyal is kapcsolatos kutatást szolgálja. A téma választását az indokolja, hogy a matematika mellett a másik általam választott szak a történelem. A feladatot ezért érdekesnek és egyedinek találtam. Soha nem foglalkoztam még ezelőtt ilyesmivel, viszont nagyon tetszik, úgyhogy szeretnék még a jövőben hasonlót csinálni. A feladat a régészek munkáját segíti az eredetmeghatározásban, a neutronaktivációs 1 analitikai (NAA) módszerrel kapott mérési eredmények matematikai statisztikát, klaszteranalízist és főkomponens-analízist használó feldolgozásaival. A régészeti minták adatai, amelyeken a számolásokat végeztem, régészeti ásatásokon feltárt római kori cserépedények, úgynevezett terra sigillaták elemzési eredményei. A terra sigillata a régészetben a Római Birodalom bizonyos részein készült, fényes felületű vörös kerámiaedényekre használt összefoglaló kifejezés. Az elnevezést jelentésével ellentétben nemcsak domborműves, hanem díszítetlen edényekre is használják. [1] 1. ábra: Terra sigillata 1 neutronaktivációs analízis: Anyagösszetételt vizsgáló módszer, melynek során az (ismeretlen összetételű) mintát neutronokkal rövid ideig besugározzák, aminek hatására benne az atommagok egy része radioaktív izotóppá alakul, aktiválódik. A különféle kezdeti magok a neutron besugárzása miatt különféle, rájuk jellemző sugárzásokat bocsátanak ki. Ezután sugárzás detektorokkal vizsgálják a minta sugárzását, melyből következtethetnek a minta eredeti összetételére. Erre az atomreaktornál kisebb neutronhozamú (akár hordozható) neutrongenerátorok is alkalmasak. Dolgozatomnak nem célja a neutronaktivációs módszer vizsgálata, csupán a módszer eredményeinek feldolgozása. 4

Az edénydarabok a Budapest Vízivárosi, a Medve utcai, illetve Ganz utcai ásatásokból származnak. Koruk az i.sz. 1-2. századra tehető. Az edény vizsgálatához az edény belső részéből vesznek egy nagyon kis mintát (milligramm nagyságrendű darabot) úgy, hogy a lelet minél kevésbé roncsolódjon. Sok esetben kiderül, hogy a hasonló edények nem ugyanott készültek (esetleg másolatok). Ezt a régész formai jegyek alapján nem feltétlenül láthatja, azonban a mérés útján kapott eredmények matematikai módszerekkel történő kiértékelésével eldönthető az eredet. Először a régészetileg feltárt cserépedények (jelen esetben 80 darab mintáról van szó) nyomelemeit és azok koncentrációját a kutatók neutronaktivációs analitikai módszerrel meghatározzák. A 80 mintára így kapott 14 fajta nyomelem (cérium, kobalt, króm, cézium, vas, háfnium, lantán, lutécium, rubídium, szkandium, szamárium, tórium, itterbium, cink) koncentrációit kaptam meg feldolgozásra és kiértékelésre. Így minden minta egy-egy 14 elemű vektorral jellemezhető. Az így nyert 80 darab 14 dimenziós valószínűségi változók valószínűleg normális eloszlásúak. [11] Megítélésem szerint ezt a feltételezést, illetve annak alkalmazási feltételeit indokolt megvizsgálni (erre a jelen munkámban az idő rövidségére való tekintettel nem volt lehetőségem). Megkaptam nyomelemenként a mérési eredmények becsült szórásait is. A mintákon főkomponens-analízist hajtottam végre, így a dimenziószám csökkenthetővé vált. A mintákat klaszterezési eljárásokkal csoportosítottam, illetve kiszűrtem a kiugró értékeket, majd ezeket a csoportokat tovább vizsgáltam, egészen addig, amíg nem kaptam egy megbízható csoportosítást. Az egy csoportba került minták valószínűleg egy műhelyből származhatnak. Egy műhelynek jellegzetes a nyomelem-koncentráció mintája (feltehetően azért, mert azonos alapanyagot használnak). Egy-egy műhely más kovarianciamátrixszal és várható értékkel jellemezhető. Feladatom tehát annak meghatározása, hogy valószínűleg mely minták származnak egy műhelyből és feltehetően hány műhely van, megtalálni az elkülöníthető csoportokat és a kiszóró mintákat. Egy adott műhelyt jellemezhet egy adott nyomelem-összetétel, ez összefügghet az adott műhelyre jellemző technológiával, anyaghasználattal. Ez segíthet annak eldöntésében, hogy mely minták származhatnak egy műhelyből. Adott esetben az elemek arányai megmaradnak, de a vegyületek megváltozhatnak bizonyos kémiai változások során, mint például az agyag kiégetésekor. Ha elkészült a csoportosítás és definiáltuk a csoportok statisztikai jellemzőit, akkor eldönthetjük, hogy az újonnan talált minták ebbe a csoportba tartoznak e. Ha ezek nyomelemkoncentrációi hasonlóak a csoportra jellemző koncentrációkhoz, akkor feltehetjük, hogy 5

ugyanabból a műhelyből származnak. Az adatokból esetleg információkat nyerhetünk az akkor élt emberek migrációs és kereskedelmi szokásairól is. 2. Módszertan 2.1 Valószínűségi modell Ha elvégzem a csoportosításokat, akkor a csoportok jellemezhetőek a centrummal és kovarianciamátrixszal. A csoport centrumának becslése a csoporton belüli minták nyomelemenkénti átlaga. A csoporthoz tartozást jellemez egy metrika, amit a centrum és a kovarianciamátrix határoz meg, de ahhoz, hogy megállapítsam a klasztereket (csoportokat), ismerni kell a metrikát, ezért nehéz a probléma. Mivel 80 darab 14 dimenziós vektort kaptam, amelyek a valószínűségi változók reprezentációja, ebből következően többdimenziós eloszlással kell dolgoznom. Megnehezíti a több változó kezelését, hogy legfeljebb 3 dimenziót (vagyis 3 változót) látunk könnyedén. Számításaim során az empirikus szórásnégyzet helyett a korrigált empirikus szórásnégyzettel számolok (például a kovarianciamátrixot), mert tapasztalati eloszlással dolgozom. Vagyis: = (1) helyett = =, (2) ahol -k maguk a minták, ezeknek az átlaga és N a minták száma. 2.1.1 Az n-dimenziós eloszlásokról általában Az,, valószínűségi változó együttes eloszlásfüggvénye az,, =,,. (3) Az eloszlásfüggvény az,, változók monoton nem csökkenő függvénye és +,,+ =1, (4) illetve x,,,,x =,,x,,x = x,,x,, =0. (5) Az n-dimenziós folytonos eloszlás sűrűségfüggvénye pedig,,, =. (6) Az,,, sűrűségfüggvényű többdimenziós eloszlás várható értéke: 6

E[,, ] = x f x,x,,x dx (ez a vektorváltozó első momentuma), ahol T n a teljes n-dimenziós tér. [Fegyverneki] Több valószínűségi változó esetén a páronkénti kovarianciákat és korrelációs együtthatókat egy-egy mátrixban foglalhatjuk össze. Legyen,,, n valószínűségi változó. Azt a C mátrixot, amelynek i-edik sorának j-edik eleme a, kovariancia, a valószínűségi változók kovarianciamátrixának nevezzük. Hasonlóan definiáljuk az R korrelációmátrixot a páronkénti korrelációs együtthatókkal. Mivel bármely valószínűségi változónak önmagával vett korrelációs együtthatója 1, az R mátrix főátlója csupa egyesből áll. C és R pozitív szemidefinit mátrix, és közöttük a = kapcsolat áll fenn, ahol a közönséges mátrixszorzást jelöli, és =,,, (8) egy olyan diagonális mátrix, amely a szórásokból áll. (Egy mátrix pozitív szemidefinit volta azt jelenti, hogy a mátrix alakú valamilyen X mátrixra, amelynek transzponáltja. Pozitív szemidefinit mátrix sajátértékei nemnegatívak.) [Petz, 2000] Az egy csoporthoz tartozó régészeti minták nyomelem-koncentráció vektora feltételezésünk szerint normális eloszlást követ [11], szakdolgozatomban tehát többdimenziós normális eloszlásokkal fogok dolgozni. (7) 2.1.2 A többdimenziós normális eloszlásról általában Legyenek,,, valószínűségi változók függetlenek és standard normális eloszlásúak ~ 0,1. Ekkor definíció szerint [10] az =,, véletlen vektor n-dimenziós standard normális eloszlású. Az általános m-dimenziós normális eloszlás ennek lineáris transzformációja. Legyen A tetszőleges méretű mátrix, b pedig tetszőleges m-dimenziós vektor és U a fentiek szerinti n-dimenziós standard normális eloszlás. Ekkor definíció szerint [10] az = + (9) véletlen vektort m-dimenziós normális eloszlásúnak nevezzük. Egy m-dimenziós normális eloszlású valószínűségi vektorváltozó koordinátáinak bármely lineáris kombinációja egydimenziós normális eloszlású. Az állítás megfordítása is igaz, ha egy m-dimenziós eloszlás olyan, hogy koordinátáinak bármely lineáris kombinációja egydimenziós normális eloszlású, akkor az eloszlás m-dimenziós normális eloszlás a fenti értelemben (azaz előáll egy 7

n-dimenziós standard normális eloszlás lineáris kombinációjaként) [7]. Vagyis a két fajta tulajdonság egymással ekvivalens. Az X véletlen vektor várható értéke b, kovarianciamátrixa =. Az n-dimenziós várható értékű, C kovarianciájú normális eloszlás:,. Az n-dimenziós normális eloszlás sűrűségfüggvénye [Fegyverneki] : = 2 / C exp. (10) Legyen tehát ~,. Az n-dimeziós normális eloszlás sűrűségfüggvényének szintvonalai ellipszisek, amelyek egyenlete az x függvényében a következő [Fegyverneki] : =. (11) A csoportoknál a metrikát ez határozza meg normális eloszlás esetén. Az ellipszisek középpontja µ, tengelyeik ±, ahol λ i, e i a C-hez tartozó sajátérték - sajátvektor pár, azaz teljesül, hogy =, =1,2,,. [Fegyverneki] A többváltozós normális eloszlású X véletlen vektorra igaz: 1. X elemeinek lineáris kombinációi normális eloszlásúak. 2. X elemeinek minden részhalmaza (többváltozós) normális eloszlású. 3. A nulla kovariancia arra utal, hogy a megfelelő összetevők független eloszlásúak (a függetlenség csak a normális eloszlás feltételezése mellett igaz). 4. A többváltozós összetevők feltételes eloszlásfüggvényei (többváltozós) normálisak. [Fegyverneki] 2.1.3 A normális eloszlás paramétereinek becslése Ha ismerjük az eloszlás típusát, viszont a paramétereit nem, akkor megbecsülhetjük ezeket az,, elemeket tartalmazó mintából. A várható érték és a kovarianciamátrix becslése: Legyen,, egy N méretű N n (µ,c) eloszlásból vett véletlen minta, ahol N>n. Ekkor a µ és a C maximum likelihood becslése [Fegyverneki] : = = és =. (12) (A maximum becslés alapján történő bizonyítása megtalálható Fegyverneki Sándor Valószínűség-számítás és matematikai statisztika című jegyzetében.) (A torzítatlanság biztosítása érdekében N-1-gyel kell osztani a szórásnégyzeteket és kovarianciákat.) 8

Maximum likelihood becslés: Például egy dimenziós normális eloszlás esetén az együttes sűrűségfüggvény:,, =,, =, (13) ahol a szórás, a várható érték. Tehát az ismeretlen és függvényében keressük,, függvény maximumát (feltételes valószínűség). A likelihood függvény logaritmusa:,, =ln ln. (14) A szélsőérték létezésének szükséges feltétele alapján = =0, (15) illetve = + =0, (16) ahol 0. Tehát az ismeretlen paraméterek becslésére az alábbi összefüggések adódnak: = és =. (17) Tehát a hagyományos becslési eljárás normális eloszlás esetén a várható értéket a számtani középpel, a szórásnégyzetet a tapasztalati (empirikus) szórásnégyzettel becsüli. [Závoti] 2.2 Főkomponens-analízis A PCA (Principal Component Analysis, vagyis Főkomponens-analízis) egy statisztikai módszer, a modern adatelemzés egyik gyakran használt eszköze. Biztosítja, hogy koordinátákat úgy válasszunk ki, hogy lényeges információvesztés ne történjen az egyszerűsítés során. [Jolliffe, 2002] A főkomponensek maghatározásához az eredeti változókat új, korrelálatlan változókba (főkomponensekbe) transzformáljuk egy lineáris transzformációval. Az egymás után következő komponensek a teljes variancia egyre kisebb hányadát magyarázzák. Közülük kevesebbet tartunk meg, mint a változók eredeti száma, általában az első néhányat. [2] Az első főkomponenst úgy kapjuk, hogy megkeressük azt a lineáris kombinációt, amelynek a szórása maximális. Tehát: az adatok által meghatározott pontfelhőt arra az egyenesre vetítjük le, ahol a kapott pontok szóródása a legnagyobb lesz. Ezután az erre az egyenesre merőleges irányok mentén tovább lépve egymás után meghatározzuk a további főkomponenseket. Annyi főkomponens lehet, ahány változó van, és a főkomponensek egymásra merőlegesek. Kiindulhatunk a kovariancia és a korrelációs mátrixból. Esetünkben a korrelációs mátrixból 9

kell kiindulni, hiszen a változóink eltérő skálán mértek és ezt akarjuk kiküszöbölni. Általában nincs szükség az összes komponensre, hiszen az első néhány főkomponens segítségével írjuk le, illetve helyettesítjük az eredeti adatállományt. A kumulált sajátérték rátával megmérhetjük, hogy mennyi információ őrződik meg ezen helyettesítés után. [3] Esetünkben a dimenziót 14- ről 5-re csökkentettem. Ekkor a teljes szórásnégyzet csupán 17,2%-át tartalmazza a 9 elhagyott főkomponens. Tehát az adatokat úgy adjuk vissza kevesebb dimenzióban, hogy új, nem korrelált változók keletkeznek. Ez azért is fontos, hiszen az ember csoportfelismerő képessége számára N>3 dimenziós adatkészlet felfoghatatlan, míg 1, 2 vagy 3 dimenzióban az emberi agy csoportfelismerő képessége nagyon jó, könnyen észrevehetőek a kapcsolatok, hasonlóságok. A főkomponenseket úgy tekinthetjük, mint egy új (derékszögű) koordináta-rendszer tengelyeit, értékeiket pedig az eredeti adatmátrixban lévő oszlopvektor elemeinek vetítéseit [Horvai, 2001] ezekre a tengelyekre. 2.2.1 Bartlett-próba A főkomponens-analízis igénye leggyakrabban abban az esetben merül fel, ha a megfigyelt változók között erős korrelációt észlelünk. Túlzott óvatosságnak tűnik, mégis érdemes elvégezni az R mátrix elemeinek szignifikancia-vizsgálatát. A Bartlett-féle gömbölyűségpróbát használhatjuk a szignifikancia ellenőrzésére. A nullhipotézis az, hogy a megfigyelt változók korrelációmátrixa egységmátrix = (azaz a változók páronként korrelálatlanok). A próba elnevezése onnan ered, hogy a standardizált korrelálatlan változók pontfelhő kiterjedése a térben nagyjából irányfüggetlen. A eloszlást követő valószínűségi változó definíciója (a próba kritériuma): = 2 +11, (18) ahol a korrelációs mátrix determinánsa és a vizsgálat szabadsági foka:. Ha a hipotézist elvetjük, tehát abszolút értéke nagyobb, mint az elméleti, akkor az [Füstös, 2009] eredeti változóinkat korreláltaknak tekintjük. 2.3 Klaszteranalízis A klaszter hasonló elemek csoportját jelenti. A nem hasonló elemek más-más klaszterbe kerülnek. A klaszterelemzés, klaszteranalízis az elemek klaszterekbe sorolásának, 10

csoportosításának folyamata, eljárások sorozatából áll. Akkor sikeres az elemzés, ha eredményül a klaszterek struktúrája világosan kirajzolódik. A klaszterezés felügyelet nélküli [Obádovics, 2009] osztályozást (unsupervised) jelent, melyben nincsenek előre definiált osztályok. Korlátja azonban, hogy nincs egyetlen legjobb megoldás. A klaszterek kialakulása a választott eljárásoktól, távolságszámítási módszerektől, valamint az elemzésbe bevont változóktól függ. Releváns változók bevonása vagy törlése alapvetően befolyásolja az eredményeket. [Obádovics,2009] Legyen =,,, a tulajdonságtér elemeiből álló, a klaszterező eljáráshoz alkalmazott n elemű adathalmaz. Ha m tulajdonságot mérünk n objektumon, akkor a tulajdonságtér n számú m dimenziós pontból áll. Ezt a teret egy -es mátrixszal írhatjuk le: = =, (19) ahol =1,2,, és =1,2,,. [Obádovics, 2009] Esetünkben a mátrix minden sora egy mintát jelöl, és minden oszlopa egy nyomelem koncentrációját. Tehát jelöli az i-edik minta j-edik [Obádovics, 2009] nyomelemének koncentrációját. A klaszteranalízis fő célja tehát általában véve az, hogy a vizsgált objektumokat csoportokba rendezze, az objektumok jellemzői alapján. A technikának többféle változata ismert, az egyik legelterjedtebb az úgynevezett összevonó, hierarchikus klaszterezés. A hierarchikus módszerek a klasztereket hierarchiába rendezik és az eredményt általában egy fa-szerű diagrammal reprezentálják, amit dendrogramnak hívnak. [MVSP] A dendrogram két dimenziós diagram, az x tengelyen a minták, illetve csoportok távolsága, az y tengelyen pedig a minták összetartozása látható. Az összevonó módszerben az eljárás lépésekben csökkenti a csoportom számát úgy, hogy induláskor minden elemet külön csoportnak tekint, és az egyes lépésekben azt a két objektumot vonja össze, amelyek a legközelebb vannak egymáshoz. Ezeket az algoritmusokat tehát összevonó csoportelemzési módszernek hívjuk. [Horvai,2001] Az összevonó hierarchikus klaszterezés menete a következő: 1. Az első lépésben kiszámításra kerül az egyes objektumpárok hasonlósága (vagy távolsága), és a számítás eredményeit egy mátrixban helyezzük el. (Fontos, hogy többfajta hasonlóság és távolság metrika is van, amely használható, ideértve az egyes objektumok közötti távolságokat és a klaszterek közöttieket is). 11

2. A második lépésben megkeressük a mátrix alapján a két leghasonlóbb objektumot (vagy amelyeknek legkisebb a távolsága) és ezeket összevonjuk egy új klaszterbe. 3. Az újonnan formált klaszter mostantól egyetlen objektumnak tekinthető. Ennek megfelelően a hasonlósági (vagy távolság-) mátrixot újra kell kalkulálni, úgy, hogy az eredeti két objektum helyett ezt az új klasztert kell alapul venni a számításoknál. 4. A 2. és 3. lépést addig folytatjuk, amíg az összes objektum be nem kerül egyetlen csoportba. Az eredményül kapott dendrogramban a hierarchia a leginkább érdekes, az objektumok sorrendje kevésbé. A vertikális vonalak száma, ami két objektumot összekapcsol, jellemzi, hogy mennyire hasonlóak minél kevesebb a vonalak száma annál közelebb esik egymáshoz a két objektum. [MVSP] (ld. Függelék 17-20. ábrák) 2.3.1 Metrikák A távolságok definiálásának alapvető jelentősége van a csoportosításoknál. A csoportosítási eljárások során vehetjük két csoport távolságát, két pont távolságát és egy csoport és egy pont távolságát. A csoport és pont távolságát vehetjük két pont távolságának is, mivel egy pontnak a csoport centrumától való távolságát nézzük (ez végülis két pont távolsága). A csoportosítást megelőzően meg kell vizsgálni a nyomelem-koncentrációkat, ezek láthatóan igencsak eltérő intervallumokban mozognak. Ez utóbbi miatt a nyers méréseken sima euklideszi távolság nem alkalmazható, standardizálni kell valamilyen módon, illetve változtatni a skálákon, hogy hasonló intervallumban mozogjanak. Az MVSP (MultiVariate Statistical Package) programot használtam, ebben van egy bizonyos Standardized Euclidean distance, ami a teljes mintaszórással standardizál. Ez jobb közelítést ad ugyan, mint a sima Euklideszi távolság, azonban ez felerősítheti a véletlen komponenseket. Akkor működne jól, ha minden minta egy műhelyből származna. Azonban ez nem áll fenn. Jó közelítést adott volna, ha a mérési hibák szórásaival standardizálok, azonban én más utat választottam. Több megközelítés is lehetséges. Pontok közötti távolságok: Az M-dimenziós térben a pontok egymáshoz való helyzetét távolságukkal jellemezhetjük. Dolgozatomban kétféle távolságot fogok alkalmazni. i. Euklideszi távolság Két n dimenziós véletlen vektor (x, y) Euklideszi távolsága a megszokott módon: 12

, =, (20) ahol és az egyes vektorok koordinátáit jelöli. [4] A fenti távolság mátrixszorzással, a következő formában is felírható:, =,,,,. (21) ii. A kezdeti csoportokat euklideszi távolsággal határoztam meg. Mahalanobis távolság A Mahalanobis távolságot akkor használjuk, ha az adatok korreláltak és ennek hatását akarjuk kiküszöbölni. A távolság definíció szerint tehát:, =, (22) ahol C az adott n dimenziós valószínűségi eloszlás kovarianciamátrixa. [McLachlan,1999] (Ha C nem invertálható, akkor nem lehet alkalmazni.) A Mahalanobis-távolságot nem két pont közötti távolság kiszámítására fogom alkalmazni, hanem adott pont csoporttól való távolságára. Ha többdimenziós normális eloszlást használok, akkor ez a távolság a legmegfelelőbb. [3] Klaszterek közötti távolságok: A klaszterek közötti távolságmérésre négy féle módszert alkalmaztam, ezek alapján készítettem a dendrogramokat (ld. Függelék), amiket aztán összevetettem és meghatároztam a kezdeti csoportokat. i. Unweighted Pair-Group Method (UPGMA) ii. Az UPGMA módszer a két klaszter távolságát a pontok páronkénti távolságainak átlagával számolja. Az átlag súlyozatlan, ami annyit tesz, hogy a pontokat egyenlő aránnyal veszi figyelembe [5] :, =,, (23) ahol,,,, illetve,,, az r, illetve s klaszterekbe tartozó vektorokat jelöli. Weighted Pair-Group Method (WPGMA) A WPGMA az UPGMA távolság súlyozott változata, nem a pontokat, hanem a klasztereket veszi egyenlő súllyal [6][Ormándi] :, =,,, (24) 13

iii. amennyiben az r klaszter úgy állt elő, hogy a p és q klasztereket összevontuk. Centroid A Centroid módszer a két klaszter távolságát a klaszter középpontok távolságával számolja [8] :, =, (25) ahol az átlag súlyozatlan, ami annyit tesz, hogy az adott klaszter középpontja: =, (26) iv. ahol az r klaszter elemszámát jelöli, ahogy fent az UPGMA esetén is. Median A Median módszernél a csoportok középpontját az eltérések abszolút értéke alapján (L 1 norma) számítjuk [9] :, =, (27) ahol az az adott klaszter súlyozott középpontja. Azaz, ha az r klaszter a p és q klaszterek összefűzésével jött létre, akkor a klaszter súlyozott közepe: = +. (28) Az alábbi táblázatban látható a négy átlagos láncmódszer neve, ahogyan MVSP-ben használják, és az osztályozás. [MVSP] Páronkénti távolságok átlaga Centroid Súlyozatlan UPGMA Centroid Súlyozott WPGMA Median Az alábbi, centroid nevű példa alapján, a bal oldali csoport centroidjának koordinátái: 1.5 (0.5, 2.0 és 2.0 átlaga) az X tengelyen, 2.4 ( 3.5, 2.0 és 1.7 átlaga) az Y tengelyen. [MVSP] 5. ábra: Klaszterek közötti távolságok 14

Jelölések: adatpontok centroidok az új klaszter súlyozott átlaga az új klaszter súlyozatlan átlaga 2.4 Programok A számolásokhoz alapvetően két programot használtam. MVSP A klaszterezési eljárásokat a MultiVariate Statistical Package (MVSP) nevű program 3.21-es verziójával készítettem. Viszonylag egyszerű a használata, az adatok beimportálása után elvégzi a csoportosítást és dendrogramot készít. Ezzel a programmal végeztem a klaszteranalízist, készítettem el a dendrogramokat, amiket aztán összevetettem. R program Ez egy programozási nyelv statisztikai számításokhoz és ábrázoláshoz. Népszerű a hasonló programok között, mert ingyenesen letölthető és egyszerűbbnek számít, emiatt sok információt lehet róla találni az Interneten. Nekem a használata jóval bonyolultabb volt, mint az MVSP programé (lévén, hogy korábban sosem programoztam), viszont jóval többet is tud. Ezzel a programmal végeztem a számításokat, például a csoportok kovarianciamátrixának kiszámítását, illetve Mahalanobis távolságot is ezzel számoltam. 3. Vizsgálat Először egy kezdeti csoportosítást hoztam létre, felhasználva a fent említett módszereket. A már említett problémák miatt egy leegyszerűsített metrika segítségével. A sokváltozós adatok elemzése kétdimenziós ábrázolásukkal kezdődik, ezeken az ábrákon sokszor az objektumok alakzatokba (csoportokba) rendeződnek. Két-három dimenzióban az emberi szem felismeri a csoportokat, viszont több, jelen esetünkben 14 dimenzióban ez nem működik. A távolságok számításával párhuzamosan az algoritmusok elkezdik a dendrogramok készítését. Ezeket a dendrogramokat vetettem össze a csoportok elkészítéséhez. 15

A vizsgált minták, illetve a hozzájuk tartozó mérési eredmények szórásai megtalálhatóak a Függelékben. 3.1 Főkomponens-analízis Mindenekelőtt tehát elvégeztem az R mátrix elemeinek szignifikancia-vizsgálatát. A Bartlettféle gömbölyűség-próbát használtam a szignifikancia ellenőrzésére. Az adott mintákra a (18) képlet: a szabadsági fok =91, illetve = 80 2 14+11 3,507142 10 =923,2121, (29) ez pedig jóval több, mint a 90 szabadságfokhoz tartozó értékek (f=0,999-nél is 137,2 a kritikus érték). Tehát a változók korreláltak, vagyis végezhetek dimenziócsökkentést. Az eredeti 14 változó által kifeszített teret a főkomponens-analízis segítségével (ami matematikailag egy főtengely-transzformáció) alacsonyabb dimenziójú térbe vetítjük az eredeti adatrendszer oszlopai közötti korreláció felhasználásával, remélve, hogy ily módon könnyebben értelmezhető csoportosulásokat fedezünk fel. A standardizált változók becsült korrelációs mátrixa (ebből jönnek ki a főkomponensek): 1-0,10 0,09 0,33-0,02 0,73 0,91 0,55 0,23 0,45 0,85 0,50 0,57-0,05-0,10 1 0,42-0,29 0,03-0,07-0,08 0,14-0,35 0,36-0,18-0,35 0,10 0,34 0,09 0,42 1-0,46 0,10-0,01 0,10 0,32-0,52 0,71-0,03-0,47 0,20 0,37 0,33-0,29-0,46 1-0,14 0,25 0,33 0,03 0,88-0,26 0,28 0,73 0,04-0,17-0,02 0,03 0,10-0,14 1-0,05-0,01 0,16-0,16 0,09 0,01-0,05 0,06 0,09 0,73-0,07-0,01 0,25-0,05 1 0,72 0,40 0,13 0,16 0,75 0,44 0,48-0,03 0,91-0,08 0,10 0,33-0,01 0,72 1 0,52 0,24 0,40 0,94 0,50 0,55 0,03 0,55 0,14 0,32 0,03 0,16 0,40 0,52 1-0,06 0,57 0,47 0,13 0,54-0,11 0,23-0,35-0,52 0,88-0,16 0,13 0,24-0,06 1-0,37 0,22 0,72-0,06-0,20 0,45 0,36 0,71-0,26 0,09 0,16 0,40 0,57-0,37 1 0,21-0,36 0,44 0,12 0,85-0,18-0,03 0,28 0,01 0,75 0,94 0,47 0,22 0,21 1 0,60 0,58-0,01 0,50-0,35-0,47 0,73-0,05 0,44 0,50 0,13 0,72-0,36 0,60 1 0,25-0,16 0,57 0,10 0,20 0,04 0,06 0,48 0,55 0,54-0,06 0,44 0,58 0,25 1 0,04-0,05 0,34 0,37-0,17 0,09-0,03 0,03-0,11-0,20 0,12-0,01-0,16 0,04 1 16

A főkomponenseket a maximum variancia kritérium alapján határozzuk meg úgy, hogy a hozzájuk tartozó sajátérték nagysága alapján rakjuk sorba. Minden rákövetkező főkomponens annak a varianciának a legnagyobb részét írja le, amelyet nem magyaráznak meg az előző főkomponensek. Ezek szerint az adatokban lévő variancia legnagyobb részét az első főkomponens hordozza. A másodikban több információ van, mint a harmadikban. 2. ábra: A kovarianciamátrix ábrázolva A színek jelentése: kék: antikorrelált változók, ellentétesen változnak egymással a korrelációk, negatív korreláció zöld: kis értékek piros: nagyobbak, erősen korreláltak 3. ábra: A korrelációs mátrix sajátértékei Ha a sajátértékek azonosak lennének, akkor korrelálatlanok lennének az elemek. 17

Az első 4 sajátvektor, melyek egyben a főkomponensek generálásához tartozó súlyok: 4. ábra: Az első négy sajátvektor Például a 4-es főkomponenst döntően az 5. elem határozza meg. Azokat a súlyokat (a súlyok egyben a sajátvektorok koordinátái) mutatja meg, hogy melyiket kell venni és megszorozni az egyes mintákat. 18

Főkomponens-analízissel tehát 14-ről lecsökkentettem a dimenziót 5-re, így kaptam egy 5x80-as mátrixot. 3.2 Klaszteranalízis Az új, 5 dimenziós mátrixot vizsgáltam MVSP programban. A pontok között Euklideszi távolságot használva, a klaszterek között pedig a négy féle távolságmérő eljárást, amiket már fentebb említettem (UPGMA, WPGMA, Centroid, Median). Kaptam 4 dendrogramot (ld. Függelék), ezeket megvizsgáltam, összevetettem, és ezek alapján keletkezett 3 elkülöníthető csoport és 3 kiugró pont. A csoportok közül egynek csupán 4 eleme van, s mivel ez nagyon kevés, ezzel a csoporttal nem tudtam tovább dolgozni. Ennek a csoportnak az elemei a 29, 57, 75, 79 sorszámú minták. Tekintettel arra, hogy egymáshoz közel vannak a dendrogramon, a két nagyobb csoporttól viszont távol esnek, ezért a részletes vizsgálat nélkül elképzelhetőnek tartom, hogy ezek egy külön csoportot alkotnak. A kiugró értékek valószínűleg más-más műhelyben készültek, nem sorolhatóak egyik csoportba sem. A kiugró értékek az 5, 47, 63 sorszámú minták. 3.3 Kezdeti csoportok meghatározása A keletkezett két nagyobb csoporttal tovább tudtam számolni. Először mindkét csoportnak meghatároztam a csoportot jellemző centrumát és becsült kovarianciamátrixát. A két nagyobb csoport, az őket jellemző centrum és a becsült kovarianciamátrix tehát a következő: 1. csoport Ezek elemei a dendrogramok alapján a 2, 4, 6, 12, 17, 19, 22, 25, 26, 28, 30, 32, 33, 35, 37, 39, 40, 42, 50, 52, 55, 56, 59, 61, 67 sorszámú minták. Ez 25 db minta, ennek a csoportnak állapítottam meg a centrumát. A centrumot úgy számoltam ki, hogy vettem a csoportba kerülő mintákat és az egyes nyomelemek szerint kiszámoltam az átlagukat, így kaptam ezt a 14 elemű vektort. Ez a következő vektor lett: 19

Az 1. csoport becsült kovarianciamátrixa: az 1. csoport átlagvektora (centruma) 80,6 22,252 123,92 18,2104 5,2536 4,0612 37,856 0,4216 189,88 18,632 7,0096 12,288 3,1084 332,52 73,07-3,92 21,53 106,16-3,08 1,82 12,73 0,16 245,11 7,71 0,04 2,48 0,11-134,28-3,92 2,54 1,87-0,48 0,09-0,05-1,00-0,01-6,95-0,02-0,21-0,44-0,03-31,67 21,53 1,87 69,66 71,20-1,84 0,23 11,21 0,05 183,32 5,05 0,21 1,47-0,17 273,21 106,16-0,48 71,20 374,79-8,99 3,27 42,11 0,16 656,09 16,13 0,29 0,05-0,58-467,29-3,08 0,09-1,84-8,99 0,32-0,11-1,45-0,01-19,59-0,41-0,02 0,02 0,02 4,77 1,82-0,05 0,23 3,27-0,11 0,22 0,27 0,00 5,82 0,22-0,02 0,03-0,02-13,73 12,73-1,00 11,21 42,11-1,45 0,27 11,23 0,02 110,09 1,91 0,70 0,15-0,15 42,75 0,16-0,01 0,05 0,16-0,01 0,00 0,02 0,00 0,52 0,02 0,00 0,01 0,00-0,77 245,11-6,95 183,32 656,09-19,59 5,82 110,09 0,52 1879,78 39,45 2,51 8,03-0,55 95,52 7,71-0,02 5,05 16,13-0,41 0,22 1,91 0,02 39,45 1,24-0,04 0,29-0,02 4,27 0,04-0,21 0,21 0,29-0,02-0,02 0,70 0,00 2,51-0,04 0,12 0,03-0,01 9,60 2,48-0,44 1,47 0,05 0,02 0,03 0,15 0,01 8,03 0,29 0,03 0,37 0,02 12,86 0,11-0,03-0,17-0,58 0,02-0,02-0,15 0,00-0,55-0,02-0,01 0,02 0,04-3,26-134,3-31,67 273,21-467,3 4,77-13,73 42,75-0,77 95,52 4,27 9,60 12,86-3,26 16743,76 2. csoport Ezek elemei a dendrogramok alapján a 0, 1, 3, 7, 8, 9, 10, 11, 13, 14, 15, 16, 18, 20, 21, 23, 24, 27, 31, 34, 36, 38, 41, 43, 44, 45, 46, 48, 49, 51, 53, 54, 58, 60, 62, 64, 65, 66, 68, 69, 70, 71, 72, 73, 74, 76, 77, 78 sorszámú minták. Ez 48 db minta, ennek a centruma: a 2. csoport átlagvektora (centruma) 101,6917 22,1354 130,9583 20,2104 4,8952 5,2498 48,8188 0,4806 179,1667 20,4042 8,5515 13,8604 3,5429 338,5833 20

A 2. csoport becsült kovarianciamátrixa: 60,42 1,23 28,68-16,99-1,05 2,50 26,76 0,00-35,16 4,79 3,62 4,13 0,56 270,21 1,23 26,29 5,60 1,33 0,53 0,39 2,76 0,02-4,22 0,54 0,01-0,65 0,06 367,28 28,68 5,60 141,10-34,13 0,59 1,06 18,56 0,06-33,74 3,79 1,90 2,29-0,20 573,62-16,99 1,33-34,13 129,60-0,92-2,46-9,62-0,04 196,06 2,64-3,01-5,79-0,75 1,81-1,05 0,53 0,59-0,92 0,16-0,03-0,53 0,00 0,18-0,14-0,04-0,04-0,02-2,99 2,50 0,39 1,06-2,46-0,03 0,42 1,14 0,00-5,85 0,03 0,20 0,23 0,07 2,74 26,76 2,76 18,56-9,62-0,53 1,14 15,32 0,02-16,09 2,75 1,97 2,05 0,36 206,22 0,00 0,02 0,06-0,04 0,00 0,00 0,02 0,00 0,01 0,01 0,00 0,00 0,00-0,50-35,16-4,22-33,74 196,06 0,18-5,85-16,09 0,01 655,29 6,61-3,19-5,05-0,26-483,82 4,79 0,54 3,79 2,64-0,14 0,03 2,75 0,01 6,61 0,90 0,27 0,26 0,03 29,83 3,62 0,01 1,90-3,01-0,04 0,20 1,97 0,00-3,19 0,27 0,34 0,40 0,07 17,55 4,13-0,65 2,29-5,79-0,04 0,23 2,05 0,00-5,05 0,26 0,40 0,89 0,08-0,82 0,56 0,06-0,20-0,75-0,02 0,07 0,36 0,00-0,26 0,03 0,07 0,08 0,09 10,16 270,21 367,28 573,62 1,81-2,99 2,74 206,22-0,50-483,8 29,83 17,55-0,82 10,16 32727,10 A főkomponensek terében jobban elkülönülnek a csoportok, mert kevesebb a dimenzió (a minták korreláltságának köszönhetően). Ahogy a következő 3 ábráról is leolvasható, a kezdeti csoportok nagyjából valóban elkülönülnek. A csoportok az 1-2, az 1-3, illetve a 2-3 főkomponens térben: a 2. csoport elemei az 1. csoport elemei a kis elemszámú csoport elemei 6. ábra: Minták az 1-2 főkomponens terében 21

7. ábra: Minták a 2-3 főkomponens terében 8. ábra: Minták az 1-3 főkomponens terében 22

3.4 Kezdeti csoportosítás ellenőrzése Az előző csoportosítás egy kezdetleges csoportosítás. Most azonban ellenőrzöm, hogy mennyire jól közelítettem, a következőképpen. Megnéztem Mahalanobis távolságokkal, hogy azok az elemek, amelyek nem tartoznak bele az 1. csoportba (a 2. csoportba tartoznak), milyen távol vannak az 1. csoport centrumától, majd -próbával vizsgáltam [11], hogy valóban a 2. csoporthoz tartoznak e az oda sorolt elemek. V0 V1 V3 V7 V8 V9 V10 V11 V13 V14 V15 V16 V18 40,76 25,04 36,91 50,29 31,90 26,78 28,77 39,37 40,07 35,93 27,91 43,10 35,55 V20 V21 V23 V27 V31 V34 V36 V38 V41 V43 V44 V45 V46 28,90 26,45 34,55 43,17 22,63 31,60 31,35 43,00 12,19 37,82 55,48 28,44 37,90 V48 V49 V51 V53 V54 V58 V60 V62 V64 V65 V66 V68 V69 21,47 28,70 31,35 39,16 17,41 47,92 20,66 24,86 28,05 20,48 40,79 24,48 28,74 V70 V71 V72 V73 V74 V76 V77 V78 28,85 31,42 26,26 17,93 36,18 30,04 30,16 32,05 1. táblázat: A 2. csoport elemeinek távolsága az 1. csoport centrumától 60 55 50 45 40 35 30 25 20 15 10 5 0 1. csoport centrumától való távolság 9. ábra: A 2. csoport elemeinek távolsága az 1. csoport centrumától Az x tengelyen láthatóak a 2. csoportban lévő elemek sorszáma. Mivel 14 elemem van, így a szabadságfok 14, ez alapján a -táblázatból leolvasható: Ha 75% valószínűséget veszek, akkor: 10. ábra: 14 szabadságfokú chi négyzet próba 23

11. ábra: Chi négyzet próba Akkor csak a 41 sorszámú minta van a kritikus érték alatt, azonban a 75% nem túl sok. Megvizsgálom, hogy 90% valószínűséggel melyek lesznek a kritikus érték alatt: Ekkor a 41-es mintán kívül még a 54, 60, 65, 73 sorszámú minták sem jók. Ha 95% valószínűséget veszek, akkor: 12. ábra: Chi négyzet próba 13. ábra: Chi-négyzet próba 24

A kritikus érték alatt van az előzőeken (41, 54, 60, 65, 73) kívül a 31 és 48 sorszámú minta. Ezek az elemek tehát valahol a 2 csoport határán helyezkedhetnek el. Utána megnéztem ugyanígy Mahalanobis távolságokkal, hogy azok az elemek, amelyek nem tartoznak bele az 2. csoportba (az 1. csoportba tartoznak), milyen távol vannak az 2. csoport centrumától, majd -próbával vizsgáltam, hogy valóban az 1. csoporthoz tartoznak e az oda sorolt elemek. Ekkor így alakultak az értékek: V2 V4 V6 V12 V17 V19 V22 V25 V26 V28 V30 V32 V33 79,41 137,27 134,60 123,24 76,28 121,16 144,00 101,71 147,09 107,39 141,08 111,00 129,80 V35 V37 V39 V40 V42 V50 V52 V55 V56 V59 V61 V67 119,68 97,08 137,19 94,99 138,94 113,48 133,06 93,71 125,40 102,76 142,23 140,15 1. táblázat: Az 1. csoport elemei a 2. csoport centrumától 155 150 145 140 135 130 125 120 115 110 105 100 95 90 85 80 75 70 65 60 55 50 45 40 35 30 25 20 15 10 5 0 2. csoport centrumától való távolság 14. ábra: Az 1. csoport elemei a 2. csoport centrumától Ekkor jóval nagyobb értékek jöttek ki, a -próba értékeit megnézve látható, hogy ezek az értékek bőven nagyobbak, vagyis valószínűleg valóban az 1. csoporthoz tartoznak. Második lépésként megnéztem, hogy ha egy elemet kiveszek az 1. csoportból, és úgy számolom ki az új csoportot jellemző kovarianciamátrixot és centrumot, akkor a kivett elem milyen távol van az új centrumtól. Ezt is Mahalanobis távolsággal számoltam. 25

V2 V4 V6 V12 V17 V19 V22 V25 V26 V28 V30 V32 V33 16,62 54,47 18,56 52,70 56,91 672,60 35,26 20,48 12,75 14,52 22,26 10,74 37,07 V35 V37 V39 V40 V42 V50 V52 V55 V56 V59 V61 V67 51,37 42,52 25,72 27,55 29,07 38,03 65,82 28,03 29,99 27,17 43,87 645,73 2. táblázat: Távolságok az 1. csoport centrumától Láthatóan 2 érték igen kiugró (19 és 67 sorszámú minták), ezeket nem tettem rá a diagramra, hogy a többi jobban látszódjon. Így a következőképpen néz ki: 70 65 60 55 50 45 40 35 30 25 20 15 10 5 0 Kivett értékek távolsága (1. csoport) 15. ábra: Távolságok az 1. csoport centrumától Ugyanígy végig csináltam a 2. csoportra, ismételten Mahalanobis távolsággal számoltam. 80 75 70 65 60 55 50 45 40 35 30 25 20 15 10 5 0 Kivett értékek távolsága (2. csoport) 16. ábra: Távolságok a 2. csoport centrumától 26

4. Összegzés 4.1 Eredmények Az ellenőrzés alapján azt a következtetést vontam le, hogy mivel a 41-es minta (amit eredetileg a 2. csoportba soroltam), az 1. csoport centrumához viszonylag közel van, illetve ha kivettem a 2. csoportból, akkor távol volt az új centrumtól. Tehát a 41-es minta tartozhat az 1. csoporthoz. A 19 és 67 sorszámú minták nagyon távol vannak az 1. csoport centrumától Mahalanobis távolsággal, pedig az első közelítés során oda soroltam őket. Viszont mivel a másik számításom szerint nincs közel a 2. csoport centrumához, így lehet, hogy egyik csoporthoz sem tartoznak. Több olyan elem nem volt, ami mindkét számítás szerint tartozhatna a másik csoporthoz. Számításaim alapján a végső csoportjaim: 1. csoport mintáinak sorszáma: 2, 4, 6, 12, 17, 22, 25, 26, 28, 30, 32, 33, 35, 37, 39, 40, 41, 42, 50, 52, 55, 56, 59, 61 2. csoport mintáinak sorszáma: 0, 1, 3, 7, 8, 9, 10, 11, 13, 14, 15, 16, 18, 20, 21, 23, 24, 27, 31, 34, 36, 38, 43, 44, 45, 46, 48, 49, 51, 53, 54, 58, 60, 62, 64, 65, 66, 68, 69, 70, 71, 72, 73, 74, 76, 77, 78 A minták hovatartozásának van végleges régészeti eredménye. A 80 minta nagy része két műhelyből származik. Az egyik része Észak-Itáliából, a másik része Dél-Galliából, illetve van néhány minta, ami Banassacból, illetve Lezouxból, Franciaoszágból származik, de van egy Westendorf-Pfaffenhofenből, Németországból is. Ezek sorszámai az én számításaim szerint kiszóró pontoknak, vagy a kis elemszámú csoportok elemeinek felelnek meg, vagy más korból valóak. Az észak-itáliai eredmények az 1. csoportomnak, a dél-galliai eredmények a 2. csoportomnak felelnek meg kisebb eltérésekkel. Az eltérés azért lehetséges, mert más korból származnak, de ugyanabból a műhelyből. Olyan adatok is vannak, amelyeket a régész nem tudott meghatározni, én azonban a számításaim alapján be tudtam sorolni. 4.2 Értékelés Eddigi tanulmányaimban ezekkel a módszerekkel még nem foglalkoztunk, ezért ezek megismerése sok munkát igényelt, ugyanakkor sokat tanultam is belőle, amit további 27

tanulmányaimban remélhetőleg hasznosítani tudok. A feladat számítógépi programozást is igényelt, amiben eddig szintén nem volt gyakorlatom. Ezen a területen is sokat tanulhattam a szakdolgozat kidolgozása során. Összességében örülök, hogy ezt a feladatot választottam és a matematika számomra eddig ismeretlen területeivel is megismerkedhettem. 28

5. Irodalomjegyzék [Fegyverneki] Fegyverneki Sándor: Valószínűség-számítás és matematikai statisztika (www.tankonyvtar.hu/en/tartalom/tamop425/0033_pdf_gemak6831b/gemak6831b_07.pdf) [Füstös, 2009] Füstös László: A sokváltozós adatelemzés módszerei, MTA Módszertani füzetek, 2009/1 (http://ppke.snowl.net/files/2010/08/sokvaltozos_adatelemzes_mf_1.pdf) [Horvai, 2001] Sokváltozós adatelemzés (Kemometria), szerkesztette Horvai György, Nemzeti Tankönyvkiadó, Budapest, 2001. [Jolliffe, 2009] Jolliffe I. T.: Principal Component analysis, New York: Springer-Verlag (Megjelent: Archeometriai Műhely 2010/2) [McLachlan, 1999] G. J. McLachlan: Mahalanobis distance (Resonance, June 1999 Volume 4 Number 6) (http://www.ias.ac.in/resonance/june1999/pdf/june1999p20-26.pdf) [MVSP] MultiVariate Statistical Package program leírása [Obádovics, 2009] Dr. Obádovics Csilla: Klaszteranalízis, Eger, 2009. (Szakdolgozat, megtalálható: miau.gau.hu/miau/128/szakdolg_ocs.doc) [Ormándi] Ormándi Róbert: Mesterséges intelligencia II (Oktatási jegyzet, Szegedi Tudomány Egyetem, megtalálható: http://www.inf.u-szeged.hu/~ormandi/ai2/02-upgma.pdf) [Petz, 2000] Petz Dénes - Lángné Lázi Márta: Matematika III., BME Matematika Intézet, 2000. (www.math.bme.hu/lazi/index.php?option=com_content&view=article&id=68&itemid=62) [Závoti] prof. Závoti József: A statisztika alapfogalmai (Internetes jegyzet, megtalálható: http://www.tankonyvtar.hu/en/tartalom/tamop425/0027_ma3-6/ch01s08.html) [1] Wikipedia (http://hu.wikipedia.org/wiki/neutron, http://hu.wikipedia.org/wiki/terra_sigillata) [2] http://efabis.univet.hu:8080/biostat/szotar/faktoranalizis [3] http://www.inf.unideb.hu/valseg/dolgozok/ispany/multivar/main.html [4] http://www.stanford.edu/~maureenh/quals/html/ml/node55.html [5] UPGMA: http://www.stanford.edu/~maureenh/quals/html/ml/node76.html [6] WPGMA: http://www.stanford.edu/~maureenh/quals/html/ml/node77.html [7] http://www.inf.unideb.hu/valseg/jegyzet/valseg/node153.htm [8] Centroid: http://www.stanford.edu/~maureenh/quals/html/ml/node78.html [9] Median: http://www.stanford.edu/~maureenh/quals/html/ml/node79.html [10] www.inf.unideb.hu/valseg/jegyzet/valseg/node123.htm, www.cs.elte.hu/~mori/statea05.html, www.tankonyvtar.hu/hu/tartalom/tamop425/0033_scorm_gemak6831b/sco_07_02.htm [11] A konzulensem javaslata alapján. 29

Függelék 30

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Ce 98,5 104 78,4 86,9 79,6 72,6 72,5 102 105 112 95,5 107 70,4 102 110 109 114 84 105 86,4 104 104 77,6 104 108 76,2 70,5 103 72,5 96,4 Co 33,9 35 22,6 18 21,2 24,9 23,4 40,7 29,3 25,5 33,5 25,2 23 24,6 19,7 21,4 21,3 20 19,2 22,6 18,6 26,1 21,8 20,2 21,6 22,6 20,9 19,8 22,1 12,2 Cr 139 123 118 116 120 159 123 128 140 141 128 129 132 138 127 135 137 125 127 131 143 160 127 123 124 125 128 130 127 86,4 Cs 12,5 15,8 7,9 7,5 6,8 6,7 8,9 14,5 13,8 17,5 40 17 8,7 14,4 18 12,4 16,4 8,3 17 6,9 18 16,2 8,2 17,3 13,9 7 6,65 14,8 7,24 73,6 Fe% 6,11 4,96 5,43 4,62 5,23 5,26 5,42 5 4,36 5,08 4,84 4,89 5,75 4,41 4,78 4,92 4,95 5,64 5,08 4,29 4,67 4,84 5,54 4,38 4,96 5,44 5,64 4,57 5,4 4,01 Hf 4,73 4,98 4,36 5,9 3,7 5,25 4,48 6,9 5,56 6,46 3,9 4,63 3,52 5,55 5,04 5,7 4,6 4,4 4,8 4,2 5,04 5,4 3,3 5,7 5,8 4,6 3,9 5,3 4,3 5,1 La 49,3 49,5 35,9 41,6 36 37,1 37,1 52,4 50,5 51,3 47,2 51,6 34,7 52,9 52,7 52,9 51,2 40,8 50,8 43,1 52,7 52 34,9 50 54,3 35,9 36,3 52,2 36,2 49,3 Lu 0,48 0,45 0,44 0,45 0,41 0,36 0,4 0,55 0,55 0,44 0,45 0,45 0,42 0,56 0,47 0,42 0,5 0,38 0,4 0,45 0,5 0,41 0,41 0,54 0,56 0,37 0,42 0,54 0,41 0,34 Rb 200 186 148 128 126 140 170 150 153 180 200 125 161 185 170 161 155 182 173 270 160 160 190 160 203 140 170 170 160 310 Sc 20 20,5 17,8 17,1 17,8 17,2 18 20,7 20,9 21 20,6 20,7 18,4 21,2 20,9 21 20,9 19,2 21,2 19,8 21,5 20,5 18,1 20,3 20,5 17,5 17,5 20,7 17,7 14,4 Sm 8,5 8,4 7 7,7 6,6 7,2 7 9 8,4 8,8 8 8,6 6,8 9,2 9,3 9,4 8,8 7,6 8,8 7 8,7 8,6 6,8 8,86 10 7,18 7,14 8,7 6,99 8,8 Th 13,2 13,9 12,3 12,6 11,7 11,4 12 13,5 13 13,8 12,6 14,1 12,8 15,3 14,3 13,8 13,3 13,5 15,2 12,7 14,3 14,3 12,5 14,4 14,6 11,8 12,3 13,9 11,8 20,1 Yb 3,6 3,7 3,4 4,14 2,9 3,04 2,56 3,9 3,23 3,63 3,3 3,56 2,88 3,44 3,67 3,5 3,33 3,02 4,1 3,1 3,1 3,4 3,6 3,26 4,3 3,08 2,88 3,9 3,35 2,6 Zn 500 410 330 360 420 1100 410 700 150 600 600 670 380 310 470 536 580 470 380 480 550 700 560 470 510 340 380 310 270 460 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 Ce 81 77,1 71,1 84,5 91,5 83,2 98,7 101 108 76 77,8 75,7 72,3 95,3 106 110 112 109 105 108 82 108 81 110 104 81 77 94 105 90 Co 20,7 20,7 25,2 20,8 21,1 21,6 20 19,5 19,1 24,2 24,3 20,7 22,6 18,6 19,9 19,8 17,7 18,8 18,8 22,9 19,4 20,1 21,4 21,4 17,9 23,1 22,4 14,3 21,3 25,4 Cr 110 125 125 128 118 121 130 138 140 120 134 137 120 125 178 143 130 132 140 140 113 130 125 144 120 108 105 76 105 133 Cs 8,4 8,3 7,1 55,9 51 56,8 48,6 50,7 18 9,4 9,33 8,3 8,54 7,5 16,6 14,7 18,5 18,2 16 14,9 4,4 12,8 9,2 14,3 15,4 7,3 5,8 5,7 7,4 54,8 Fe% 5,58 5,78 5,9 4,18 4,33 4,35 4,46 4,44 4,53 5,5 5,72 5,74 5,98 5,35 5,48 4,7 4,84 21,3 4,51 4,69 5,45 4,52 5,68 4,87 4,75 5,39 5,64 4,11 5,3 4,51 Hf 3,8 4,1 3,57 4,6 4,2 4,4 5 3,9 5,5 3,9 3,96 3,76 3,24 6 6,02 5,74 6,21 5,34 5,14 5,13 4 5,5 3,7 6,1 5,2 3,6 4,6 4,7 6,1 4,4 La 35,8 36,4 34,7 43,8 43,3 42,3 45,6 45,3 50,7 36,6 37,7 36,6 35,8 43,1 51,8 52,2 52,6 53,2 52,1 52,3 37,1 50,3 38,1 49,5 48,2 36,6 35,7 43,7 46,4 43 Lu 0,43 0,54 0,39 0,48 0,48 0,38 0,47 0,46 0,51 0,39 0,47 0,47 0,38 0,45 0,5 0,5 0,5 0,55 0,45 0,48 0,45 0,47 0,43 0,49 0,44 0,43 0,43 0,36 0,43 0,46 Rb 180 162 158 255 205 260 230 260 220 180 168 200 180 150 160 175 186 170 200 180 170 183 208 150 176 138 160 260 150 260 Sc 17,8 18,2 18,5 19,7 20,3 19,9 20,5 20,7 21 18,3 18,6 18,8 18,7 17,3 20,2 21,3 21,5 21,3 21,3 21,2 17,7 20,9 17,9 20,9 20,3 17,5 18 13,4 18,5 20,3 Sm 7,2 7,47 6,63 7,11 7,39 7,11 7,79 7,69 9,2 7,08 7,14 7,11 6,77 7,96 8,92 9,18 9,1 9,14 8,82 9,07 7,4 9,2 7,3 8,8 8,2 7 6,7 8,2 9,2 7,2 Th 12,5 12,1 11,9 11,8 11,9 12,2 13,2 13,1 14,6 11,4 12,3 13,6 12,2 14,4 13,6 14,1 15 14,8 15,1 15,5 12,4 15,5 13,4 14,3 13,8 11,8 11,8 16,9 15,7 12,1 Yb 3,02 3,19 3,24 3 3,6 3,1 3,5 3,1 4,1 2,9 3,24 3,3 3,24 3,33 3,19 3,75 3,73 3,65 3,62 3,59 3,2 3,9 3,3 3,9 3,2 3,2 3,2 2,5 3,2 2,9 Zn 450 130 320 270 660 430 450 480 520 450 450 420 300 290 350 320 360 460 360 370 150 155 150 190 156 170 150 180 170 158 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 Ce 81 77,1 71,1 84,5 91,5 83,2 98,7 101 108 76 77,8 75,7 72,3 95,3 106 110 112 109 105 108 Co 20,7 20,7 25,2 20,8 21,1 21,6 20 19,5 19,1 24,2 24,3 20,7 22,6 18,6 19,9 19,8 17,7 18,8 18,8 22,9 Cr 110 125 125 128 118 121 130 138 140 120 134 137 120 125 178 143 130 132 140 140 Cs 8,4 8,3 7,1 55,9 51 56,8 48,6 50,7 18 9,4 9,33 8,3 8,54 7,5 16,6 14,7 18,5 18,2 16 14,9 Fe% 5,58 5,78 5,9 4,18 4,33 4,35 4,46 4,44 4,53 5,5 5,72 5,74 5,98 5,35 5,48 4,7 4,84 21,3 4,51 4,69 Hf 3,8 4,1 3,57 4,6 4,2 4,4 5 3,9 5,5 3,9 3,96 3,76 3,24 6 6,02 5,74 6,21 5,34 5,14 5,13 3. táblázat: A 14 elem koncentrációja La 35,8 36,4 34,7 43,8 43,3 42,3 45,6 45,3 50,7 36,6 37,7 36,6 35,8 43,1 51,8 52,2 52,6 53,2 52,1 52,3 Lu 0,43 0,54 0,39 0,48 0,48 0,38 0,47 0,46 0,51 0,39 0,47 0,47 0,38 0,45 0,5 0,5 0,5 0,55 0,45 0,48 Rb 180 162 158 255 205 260 230 260 220 180 168 200 180 150 160 175 186 170 200 180 Sc 17,8 18,2 18,5 19,7 20,3 19,9 20,5 20,7 21 18,3 18,6 18,8 18,7 17,3 20,2 21,3 21,5 21,3 21,3 21,2 Sm 7,2 7,47 6,63 7,11 7,39 7,11 7,79 7,69 9,2 7,08 7,14 7,11 6,77 7,96 8,92 9,18 9,1 9,14 8,82 9,07 Th 12,5 12,1 11,9 11,8 11,9 12,2 13,2 13,1 14,6 11,4 12,3 13,6 12,2 14,4 13,6 14,1 15 14,8 15,1 15,5 Yb 3,02 3,19 3,24 3 3,6 3,1 3,5 3,1 4,1 2,9 3,24 3,3 3,24 3,33 3,19 3,75 3,73 3,65 3,62 3,59 Zn 450 130 320 270 660 430 450 480 520 450 450 420 300 290 350 320 360 460 360 370

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Ce 3,6 4 3,4 3,2 4 3,1 3,1 4 5 4 3,5 4 2,6 4 4 4 4 4,2 4 3,7 4 4 3,3 4 5 2,8 3 4 2,6 3,5 Co 1,5 1,3 1 0,8 1,1 1,3 1 1,7 1,3 1,1 1,4 1,3 1 1,1 1 1,1 1,1 0,9 1 1,5 0,9 1,3 1,1 0,9 1,1 0,8 0,9 0,8 0,8 0,7 Cr 7 6 7 5 7 8 6 9 7 8 7 6 7 6 7 1 8 7 7 7 1 9 7 6 8 5 7 7 5 6,5 Cs 0,7 0,5 0,5 0,5 0,6 0,7 0,6 1 1,2 0,9 1,5 1 0,4 0,7 0,8 1,1 0,8 0,6 0,7 2,2 0,7 0,9 0,6 0,9 0,9 0,4 0,51 0,7 0,4 2,4 Fe% 0,22 0,18 0,2 0,17 0,19 0,2 0,2 0,18 0,16 0,18 0,18 0,18 0,18 0,16 0,17 0,18 0,18 0,21 0,19 0,16 0,17 0,18 0,2 0,16 0,18 0,17 0,21 0,17 0,17 0,15 Hf 0,5 0,38 0,5 0,4 0,4 0,6 0,38 0,7 0,47 0,61 0,5 0,62 0,33 0,48 0,48 0,5 0,6 0,4 0,5 0,5 0,4 0,6 0,4 0,5 0,5 0,4 0,4 0,5 0,3 0,5 La 1,6 1,4 1,2 1,4 1 1,2 1,2 1,7 1,6 1,7 1,5 1,7 1,1 1,7 1,7 1,7 1,7 1,3 1,6 1,4 1,7 1,7 1,4 1,6 2,1 1,2 1,2 1,7 1,2 1,6 Lu 0,04 0,08 0,04 0,03 0,02 0,05 0,07 0,11 0,02 0,02 0,03 0,04 0,04 0,03 0,04 0,05 0,04 0,04 0,05 0,03 0,05 0,03 0,04 0,03 0,04 0,04 0,03 0,02 0,03 0,03 Rb 24 20 18 15 21 20 18 10 20 20 20 20 18 20 20 20 22 22 30 30 20 20 25 20 20 20 20 20 20 30 Sc 0,5 0,5 0,4 0,4 0,4 0,4 0,4 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,4 0,5 0,5 0,4 0,4 0,5 0,4 0,4 Sm 0,3 0,3 0,2 0,2 0,2 0,2 0,2 0,3 0,3 0,3 0,3 0,3 0,2 0,3 0,3 0,3 0,3 0,2 0,3 0,2 0,3 0,3 0,2 0,28 0,3 0,23 0,23 0,3 0,22 0,28 Th 0,6 0,6 0,6 0,5 0,3 0,7 0,6 0,8 0,6 0,8 0,6 0,7 0,5 0,6 0,6 0,7 0,7 0,7 0,7 0,6 0,6 0,7 0,6 0,6 0,7 0,5 0,5 0,6 0,5 0,8 Yb 0,2 0,2 0,2 0,18 0,3 0,3 0,15 0,5 0,14 0,21 0,25 0,27 0,15 0,6 0,22 0,7 0,74 0,2 0,3 0,2 0,1 0,4 0,2 0,31 0,3 0,35 0,17 0,2 0,17 0,2 Zn 30 30 34 30 50 70 20 40 16 30 40 40 30 25 30 33 70 30 30 30 30 40 30 30 30 20 30 20 20 40 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 Ce 3 2,8 2,6 3,6 3,3 3,6 4,2 4 5 2,8 3,3 4 2,7 3,2 5 5 4 5 4 4 3 4 3 5 4 3 3 3 6 3 Co 0,9 0,9 1 0,9 0,9 0,9 1 0,6 1 1 1 1 1,3 0,8 0,8 0,9 0,9 1 0,8 1 0,8 0,9 0,9 1 0,8 0,9 1 0,6 1,8 1,1 Cr 6 5 5 6 6 6 7 7 7 6 7 7 6 6 8 6 7 8 6 7 6 6 6 8 6 5 6 4 13 7 Cs 0,6 0,6 0,5 1,8 1,6 1,8 1,6 1,6 1,1 0,6 0,71 0,6 0,5 0,5 0,5 0,7 0,9 0,9 0,8 0,9 0,6 0,8 0,6 1 0,8 0,5 0,5 1,8 1,3 1,8 Fe% 0,2 0,19 0,2 0,15 0,16 0,16 0,16 0,16 0,17 0,2 0,2 0,21 0,2 0,2 0,21 0,18 0,18 0,6 0,17 0,18 0,2 0,17 0,21 0,18 0,17 0,17 0,21 0,13 0,27 0,17 Hf 0,4 0,4 0,31 0,4 0,5 0,4 0,5 0,4 0,6 0,4 0,5 0,43 0,37 0,4 0,5 0,4 0,53 0,51 0,4 0,44 0,4 0,5 0,4 0,6 0,4 0,3 0,4 0,3 1,1 0,4 La 0,9 1 1 1,2 1,2 1,2 1,5 1,2 1,6 1,2 1,1 1,1 1 1,2 1,5 1,5 1,5 1,5 1,5 1,5 1 1,4 1,1 1,6 1,3 1 1,2 1,2 1,8 1,2 Lu 0,02 0,03 0,07 0,1 0,03 0,03 0,03 0,09 0,05 0,04 0,03 0,04 0,02 0,04 0,02 0,02 0,04 0,02 0,03 0,02 0,02 0,1 0,17 0,06 0,02 0,02 0,02 0,02 0,07 0,03 Rb 20 16 18 25 20 20 20 30 30 20 22 24 20 20 20 20 20 20 20 20 20 20 20 22 20 15 20 20 25 24 Sc 0,4 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,6 0,6 0,6 0,6 0,6 0,4 0,5 0,4 0,5 0,5 0,4 0,5 0,3 0,6 0,5 Sm 0,2 0,24 0,21 0,23 0,24 0,23 0,25 0,25 0,3 0,23 0,24 0,24 0,23 0,26 0,3 0,31 0,3 0,3 0,3 0,3 0,2 0,3 0,2 0,3 0,3 0,2 0,2 0,3 0,3 0,2 Th 0,5 0,5 0,5 0,6 0,6 0,6 0,5 0,6 0,7 0,6 0,6 0,7 0,5 0,6 0,6 0,5 0,8 0,6 0,6 0,7 0,5 0,6 0,6 0,7 0,6 0,5 0,5 0,6 0,9 0,5 Yb 0,2 0,24 1 0,2 0,2 0,4 0,2 0,3 0,2 0,2 0,22 0,2 0,12 0,17 0,16 0,25 0,2 0,16 0,14 0,16 0,2 0,2 0,2 0,2 0,1 0,1 0,1 0,1 0,4 0,1 Zn 25 15 20 20 40 30 30 30 30 30 30 40 30 20 30 30 30 30 30 30 16 15 15 15 16 10 15 15 30 20 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 Ce 4 3 4 4 4 4 4 4 4 4 4 4 4 13 5 4 4 4 4 4 Co 1 1 0,9 0,7 1,2 0,9 1,3 1 1 0,9 0,8 1 0,2 0,9 1,1 0,7 0,8 0,7 0,8 0,5 Fe% 0,17 0,16 0,16 0,17 0,2 0,18 0,2 0,19 0,19 0,19 0,16 0,22 0,19 0,18 0,2 0,17 0,18 0,17 0,15 0,15 Hf 0,5 0,4 0,4 0,5 0,5 0,5 0,6 0,4 0,4 0,4 0,4 0,5 0,4 0,4 0,5 0,5 0,4 0,5 0,4 0,4 La 1,4 1,1 1,2 1,7 1,2 1,5 1,6 1,1 1,4 1,4 1,4 1,4 1,4 1,4 1,5 1,4 1,5 1,6 1,5 1,5 Lu 0,03 0,02 0,02 0,03 0,03 0,03 0,2 0,03 0,03 0,03 0,02 0,02 0,03 0,02 0,03 0,02 0,1 0,03 0,02 0,03 Cr 6 7 7 5 7 6 7 7 7 6 6 7 6 6 8 5 7 7 6 5 Cs 0,7 1,7 1,3 6 1,4 0,9 1,6 1,5 1,3 1,3 1,3 0,8 1,2 0,9 1 2,3 0,7 0,9 0,5 2,2 4. táblázat: Mérési eredmények becsült szórása nyomelemenként Rb 20 20 24 40 20 20 20 25 20 20 18 16 20 18 25 26 20 20 14 20 Sc 0,5 0,5 0,4 0,3 0,5 0,6 0,6 6 0,6 0,6 0,5 0,5 0,6 0,5 0,5 0,4 0,6 0,6 0,5 0,4 Sm 0,3 0,2 0,2 0,4 0,3 0,3 0,3 0,2 0,3 0,3 0,3 0,3 0,3 0,3 0,3 0,3 0,3 0,3 0,3 0,3 Th 0,6 0,5 0,6 1,3 0,6 0,5 0,7 0,6 0,6 0,5 0,5 0,6 0,5 0,5 0,7 0,7 0,6 0,5 0,6 0,6 Yb 0,1 0,1 0,2 0,2 0,2 0,2 0,2 0,2 0,3 0,2 0,1 0,2 0,1 0,2 0,2 0,2 0,2 0,1 0,2 0,2 Zn 15 15 15 12 20 30 20 20 15 20 20 20 20 20 20 20 14 20 20 20