Adatelemzés és adatbányászat MSc
|
|
- Zoltán Papp
- 9 évvel ezelőtt
- Látták:
Átírás
1 Adatelemzés és adatbányászat MSc 12. téma Klaszterezési módszerek Klaszterezés célja Adott az objektumok, tulajdonságaik együttese. Az objektumok között hasonlóságot és különbözőséget fedezhetünk fel. A klaszterezés célja, hogy az objektumok halmazán hasonlósági objektumcsoportokat hozzunk létre: - egymáshoz hasonló elemek egy csoportba kerülnek - egymástól különböző elemek különböző csoportba kerülnek. A feladat nehézségei: - objektumok reprezentálása - a hasonlóság mérésére különböző módszerek léteznek - klaszterhatárok kialakítása nem egyértelmű - nincs egyértelmű mérőszám a csoportképzés jóságának mérésére - nagy méretű feladatok kezelésének hatékonysága alacsony 1
2 Klaszterezés célja Klaszterezés alkalmazási területei - vásárlók csoportosítása, tipikus viselkedési minták kialakítása - újlenyomatok rendszerbe szervezése - csalások felismerése - biometrikus adatok alapján történő azonosítás - kártyahasználat ellenőrzése - biológia, génkutatás - képfeldolgozás, képek szegmensekre bontása - földrajzi területek csoportosítása Klaszterezés célja A klaszterezési módszerrel szembeni elvárások: - skálázhatóság, nagy méretű problémák kezelése - különböző típusú attributumok kezelése - bemenő paraméterek megadása minél kevesebb előismeretet feltételezzen - tetszőleges alakú klaszterek felismerése - zajos adatok kezelése - megszorítások figyelembe vételének támogatása - értelmezhetőség, felhasználhatóság - távolság egység invariencia - klaszter konzisztencia őrzés (Kleinberg) 2
3 Klaszterezési módszerek - Particonáló módszerek - K-átlag - SOM NN - Hierarchikus módszerek - HAC - DAC - Sűrűség alapú módszerek - DBSCAN - Rács alapú módszerek - STING - Modell alapú módszerek - Gauss Klaszterezési módszerek A klaszterek távolságának mérése: 1. A két legközelebbi pont távolsága 2. A két legtávolabbi pont távolsága 3. Pontok átlagos távolsága 3
4 Klaszterezés ábrázolása Dendogram A hasonló objektumok szomszédok lesznek, a hasonlóság a közös pont szintjének és az alappontok szintjei közötti különbséggel mérhető. A szintek különbségével vizualizálható az eltérés mértéke Klaszterezés ábrázolása A dendogram alkalmas arra, hogy az egyedi zajokat, kívülálló elemeket is feltárja. A térbeli elrendezés többet mutat, a dendogram kétdimenziós térben ábrázolja csak a viszonyokat. 4
5 HAC algoritmus HAC: hierarchikus agglomerativ klasztererzés Minden lépésben két közeli klasztert von össze egybe A leállás feltételei: - min. klaszterszám - maximális összevonási távolság Algoritmus: - minden elem egy önálló klaszter - a két legközelebbi klaszter meghatározása - a két legközelebbi klaszter összevonása egybe - a fenti eljárás folytatása, amíg a leállási feltétel ezt megengedi Fő költségelem: az összevonandó klaszterpár meghatározása monoton nő a távolság HDC algoritmus HDC: hierarchikus szétbontó klasztererzés Minden lépésben egy klasztert két részre választ szét A leállás feltételei: - max. klaszterszám - elemi klaszterek jöttek létre Algoritmus: - minden elem egyetlen klaszterben tárolódik - azon klaszter meghatározása, amelyen belül a legnagyobb a belső válaszvonal - a kiválasztott klaszter szétválasztása - a fenti eljárás folytatása, amíg a leállási feltétel ezt megengedi Fő költségelem: a hasítandó klaszterpár meghatározása 5
6 Hierarchikus algoritmusok HAC klaszterezés teljes menetét jól mutatja a dendogram Hierarchikus algoritmusok Egyszerűen követhető algoritmus Szemléletes, értelmezhető Nagy költségű alap: Célfüggvény: O( N 3 ) d( x, x ) c( x ) ( ) = c x2 d( x, x ) c( x ) ( ) c x2 min Triviális szélső eset: klaszterszám = N Távolságok eloszlásával függ össze a jóság, relatív 6
7 Hierarchikus algoritmus BIRCH algoritmusok Kiegyensúlyozott hierarchiát alkot (B+ fára hasonlít) Egy elem bejegyzése: CF-node: (N, L, D) N: gyerekek 0.-momentuma, darabszáma L: gyerekek összege, 1. momentuma D: gyerekek négyzetösszege, 2. momentuma CF-fa csomópont: CF-node bejegyzések listája, minden bejegyzés mögött egy gyerek fa-csomópont Fa feléptés menete: - az elemek levitele a levélig - a levélben klaszterek képzése - ha klaszterek mérete nagyobb lenne egy küszöbnél, akkor a levelet fel kell osztani és a szülőkbe delegálni a leíró CF-node-ot Egy klaszternek megadott méreten, kiterjedésen belül kell maradnia BIRCH algoritmusok A belső CF-node-ok gyerek elemekre, a levél CF-node-ok adatbucketekre mutatnak A keresésnél a klaszterek távolságán alapul az irány kijelölése: a legközelebbi CF-node felé megy tovább Minden klaszterhez tartozik maximális lefedési sugár Igen hatékony algoritmus 7
8 BIRCH algoritmusok Particionáló módszerek, K-means K-means algoritmus Az elemeket közvetlenül a klaszterhez rendeljük hozzá A hozzárendelés iteratív közelítésen alapszik. Előre adott az igényelt klaszterek darabszáma (K) Algoritmus: 1. induláskor felveszünk K darab középpontot, mint klaszter középpontot 2. minden elemet hozzárendeljük a legközelebbi középponthoz 3. a kapott csoportokra kiszámítjuk az elemei átlagát 4. a klaszter középpontot az új átlagba visszük át 5. ha egyik klaszterközéppont sem mozog már, leáll az algoritmus Egyes változatokban a közép helyett a k-medián módszert alkalmazzák 8
9 K-means Az induló állapot kiválasztása véletlenszerű Mind a K darabszám,mind a pozíció tetszőleges A középpontok vándorolnak az optimális hely felé Konvergencia figyelhető meg K-means A konvergencia háttere Az elrendezés jóságának mérőszáma a klaszteren belüli elemek egymástól való távolságnégyzeteinek összege Ezzel arányos a középponttól mért távolságok összege A módszer minden lépésében csökken ezen utóbbi függvény értéke 9
10 K-means CLARA: A k-means algoritmus adaptálása nagy adathalmazra A módszer a teljes adatbázis helyett annak csak agy reprezentatív mintájával dolgozik A középpontok helyét a mintákból számolja ki. K-means értékelése: - problematikus a kvalitatív változók kezelése (kategória értékek), mert nem lehet közép értéket számtani - nem tudja kezelni a zajokat - O(tkn) költségű K. Középpontszám, N elemszám, t: iterációszám SOM NN Célja: a magasabb dimenziószámú térben lévő objektumokhoz egy egy vagy kétdimenziós klasztertérképet készíteni. Neurális hálót alkalmaz Elemei: objektumok tere: objektumok és bázis elemek reprezentációs tér: rácselemek minden rácselem kapcsolt egy báziselemhez 10
11 SOM NN Tanulás menete: 1. a báziselemek véletlen eloszlással indulnak 2. Az objektumokat egyesével adjuk be az objektum térbe 3. minden új objektumnál megkeressük a hozzá legközelebb álló báziselemet 4. A nyerő báziselemet és annak rácsbeli szomszédaihoz tartozó báziselemeket elmozgatjuk az új objektum irányába 5. Az összes objektum feldolgozása után beállnak báziselemek 6. A kapcsolt báziselemek távolság viszonyait átvezetjük a a rácspontok közötti távolság viszonyokra SOM NN 11
12 Sűrűség alapú módszerek-denclue A klaszter kialakításánál a pontok elhelyezkedési sűrűségét vizsgálják: a sűrűn belakott területek lesznek a klaszterek. Előnye: - tetszőleges alakzat - zajok kezelése - domain független Hátránya: - időigényes, költséges Sűrűség alapú módszerek-denclue Alap módszer: 1. A térre rácshálót húzunk 2. A objektumokra sűrűségi távhatási függvényt helyezünk fel, ahol az objektum a függvény centruma 3. Kiszámoljuk a rácsháló minden pontjára az eredő sűrűséget 4. Ahol az eredő nagyobb, mint egy küszöb, sűrű pont lesz 5. Az összefüggő sűrű pontok alkotnak egy klasztert trapezoid távhatási függvény 12
13 Sűrűség alapú módszerek: DBSCAN Csak az objektumok halmazát vizsgálja, nincs külön rácsháló Mag elem: azon objektum, melynek egy megadott határsugarú környezetében megadott darabszámnál nagyobb másik objektum található. Határ elem: azon objektum, mely nem mag elem. Közvetlen kapcsolt elemek: egyik a másik határsugarú környezetében van. Közvetett kapcsolt elemek: közvetlen kapcsolatok láncán keresztül köthetők össze Klaszter: kapcsolt mag elemekből és a magokból közvetlenül elérhető objektumok Border Core Outlier Eps = 1cm MinPts = 5 Sűrűség alapú módszerek: DBSCAN A módszer algortimusa Tetszőleges p objektum kiválasztása A p ből elérhető, kapcsolt elemek kigyüjtése. Ha p magelem, akkor klasztert kaptunk Ha p határelem, akkor p elvetése a kapcsolt elemeivel együtt Az adatbázis összes elemének feldolgozása a fenti módon 13
14 Rács alapú módszerek Az objektumok terét téglalapokra bontja fel A téglalapok tartalmazási hierarchiát alkotnak A szülő, tartalmazó téglalapban a gyerekekre vonatkozó aggregált értékek tárolódnak - min - max - avg - stdev Az eredő szint jelzőiből lehet következtetni a gyerekek állapotaira A lekérdezés ezen aggregált jellemzőkön alapul A lekérdezés hierarchikus végrehajtású A lekérdezés ellenőrzi az adott szint aktuális téglalapjait Rács alapú módszerek A lekérdezés csak azon téglalapoknál megy tovább, ahol a feltétel teljesül A kiválasztott elemek gyerekeit dolgozza fel a módszer rekurzívan A lekérdezések hatékonyságjavítását szolgálja 14
15 Modell alapú módszerek Modell alapú módszerek Algoritmus lépései: 1. Klaszterdarabszám meghatározása 2. A gyes klasztereket leíró paraméterek inicializálása 3. A paraméterek alapján a klaszterek valószínűségi eloszlásainak meghatározása 4. A mért és számított eloszlások összevetése alapján ez eloszlások paramétereinek aktualizálása Az eltérés minimalizálása a cél 5. A fenti ciklus ismétlése, amíg jelentős az eltérés 15
16 Modell alapú módszerek Modell alapú megközeltés előnye: - általános, probléma terület független - O(tkn) hatékonyság - általánosítható különböző eloszlások felé Módszerek összevetése 16
17 Módszerek összevetése 17
Közösség detektálás gráfokban
Közösség detektálás gráfokban Önszervező rendszerek Hegedűs István Célkitűzés: valamilyen objektumok halmaza felett minták, csoportok detektálása csakis az egyedek közötti kapcsolatok struktúrájának a
Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék
Keresés képi jellemzők alapján Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Lusta gépi tanulási algoritmusok Osztályozás: k=1: piros k=5: kék k-legközelebbi szomszéd (k=1,3,5,7)
Adatbányászat: Klaszterezés Haladó fogalmak és algoritmusok
Adatbányászat: Klaszterezés Haladó fogalmak és algoritmusok 9. fejezet Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította Ispány Márton Logók és támogatás A tananyag a TÁMOP-4.1.2-08/1/A-2009-0046
Gyakorló feladatok adatbányászati technikák tantárgyhoz
Gyakorló feladatok adatbányászati technikák tantárgyhoz Buza Krisztián Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Klaszterezés kiértékelése Feladat:
Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék
Számítógépes képelemzés 7. előadás Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Momentumok Momentum-alapú jellemzők Tömegközéppont Irányultáság 1 2 tan 2 1 2,0 1,1 0, 2 Befoglaló
MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR
MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR Korszerű információs technológiák Klaszteranalízis Tompa Tamás tanársegéd Általános Informatikai Intézeti Tanszék Miskolc, 2018. október 20. Tartalom
Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.
Regresszió Csorba János Nagyméretű adathalmazok kezelése 2010. március 31. A feladat X magyarázó attribútumok halmaza Y magyarázandó attribútumok) Kérdés: f : X -> Y a kapcsolat pár tanítópontban ismert
Klaszterezés. Kovács Máté március 22. BME. Kovács Máté (BME) Klaszterezés március / 37
Klaszterezés Kovács Máté BME 2012. március 22. Kovács Máté (BME) Klaszterezés 2012. március 22. 1 / 37 Mi a klaszterezés? Intuitív meghatározás Adott dolgokból halmazokat klasztereket alakítunk ki úgy,
Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban
Intelligens Rendszerek Elmélete : dr. Kutor László Versengéses és önszervező tanulás neurális hálózatokban http://mobil.nik.bmf.hu/tantargyak/ire.html Login név: ire jelszó: IRE07 IRE 9/1 Processzor Versengéses
Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1
Statisztika - bevezetés 00.04.05. Méréselmélet PE MIK MI_BSc VI_BSc Bevezetés Véletlen jelenség fogalma jelenséget okok bizonyos rendszere hozza létre ha mindegyik figyelembe vehető egyértelmű leírás általában
Adatbányászati szemelvények MapReduce környezetben
Adatbányászati szemelvények MapReduce környezetben Salánki Ágnes salanki@mit.bme.hu 2014.11.10. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Felügyelt
Hálózati réteg. WSN topológia. Útvonalválasztás.
Hálózati réteg WSN topológia. Útvonalválasztás. Tartalom Hálózati réteg WSN topológia Útvonalválasztás 2015. tavasz Szenzorhálózatok és alkalmazásaik (VITMMA09) - Okos város villamosmérnöki MSc mellékspecializáció,
Képrekonstrukció 9. előadás
Képrekonstrukció 9. előadás Balázs Péter Képfeldolgozás és Számítógépes Grafika Tanszék Szegedi Tudományegyetem hv-konvex összefüggő halmazok Mag-burok-szerű rekonstrukció: S. Brunetti, A. Del Lungo, F.
Intelligens Rendszerek Elmélete. Párhuzamos keresés genetikus algoritmusokkal. A genetikus algoritmus működése. Az élet információ tárolói
Intelligens Rendszerek Elmélete dr. Kutor László Párhuzamos keresés genetikus algoritmusokkal http://mobil.nik.bmf.hu/tantargyak/ire.html login: ire jelszó: IRE07 IRE 5/ Természetes és mesterséges genetikus
Gépi tanulás a gyakorlatban. Bevezetés
Gépi tanulás a gyakorlatban Bevezetés Motiváció Nagyon gyakran találkozunk gépi tanuló alkalmazásokkal Spam detekció Karakter felismerés Fotó címkézés Szociális háló elemzés Piaci szegmentáció analízis
Adatbányászat. Klaszterezés Szociális hálózatok. Szegei Tudományegyetem. Lehetetlenségi tétel Hierarchikus eljárások Particionáló módszerek
Adatányászat Klaszterezés Szociális hálózatok Szegei Tudományegyetem Adatányászat Mit várhatunk egy klaszterezőtől? Az ojektumok olyan csoportjainak megtalálása, hogy az egy csoportan levő ojektumok hasonlóak
Miskolci Egyetem Gépészmérnöki és Informatikai Kar Informatikai Intézet Alkalmazott Informatikai Intézeti Tanszék
Miskolci Egyetem Gépészmérnöki és Informatikai Kar Informatikai Intézet Alkalmazott Informatikai Intézeti Tanszék 2016/17 2. félév 8. Előadás Dr. Kulcsár Gyula egyetemi docens Kereső algoritmusok alkalmazása
Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés
Gépi tanulás a gyakorlatban Kiértékelés és Klaszterezés Hogyan alkalmazzuk sikeresen a gépi tanuló módszereket? Hogyan válasszuk az algoritmusokat? Hogyan hangoljuk a paramétereiket? Precízebben: Tegyük
Mesterséges Intelligencia MI
Mesterséges Intelligencia MI Valószínűségi hálók - következtetés Dobrowiecki Tadeusz Eredics Péter, és mások BME I.E. 437, 463-28-99 dobrowiecki@mit.bme.hu, http://www.mit.bme.hu/general/staff/tade Következtetés
Képfeldolgozás Szegmentálás Osztályozás Képfelismerés Térbeli rekonstrukció
Mesterséges látás Miről lesz szó? objektumok Bevezetés objektumok A mesterséges látás jelenlegi, technikai eszközökön alapuló világunkban gyakorlatilag azonos a számítógépes képfeldolgozással. Számítógépes
Intelligens Rendszerek Gyakorlata. Neurális hálózatok I.
: Intelligens Rendszerek Gyakorlata Neurális hálózatok I. dr. Kutor László http://mobil.nik.bmf.hu/tantargyak/ir2.html IRG 3/1 Trend osztályozás Pnndemo.exe IRG 3/2 Hangulat azonosítás Happy.exe IRG 3/3
Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.
Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017. Vizuális feldolgozórendszerek feladatai Mesterséges intelligencia és idegtudomány Mesterséges intelligencia és idegtudomány Párhuzamos problémák
Klaszterezés, 2. rész
Klaszterezés, 2. rész Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 208. április 6. Csima Judit Klaszterezés, 2. rész / 29 Hierarchikus klaszterezés egymásba ágyazott klasztereket
IBM SPSS Modeler 18.2 Újdonságok
IBM SPSS Modeler 18.2 Újdonságok 1 2 Új, modern megjelenés Vizualizáció fejlesztése Újabb algoritmusok (Python, Spark alapú) View Data, t-sne, e-plot GMM, HDBSCAN, KDE, Isotonic-Regression 3 Új, modern
Számítógépes döntéstámogatás. Genetikus algoritmusok
BLSZM-10 p. 1/18 Számítógépes döntéstámogatás Genetikus algoritmusok Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu BLSZM-10 p. 2/18 Bevezetés 1950-60-as
Követelmény a 7. évfolyamon félévkor matematikából
Követelmény a 7. évfolyamon félévkor matematikából Gondolkodási és megismerési módszerek Elemek halmazba rendezése több szempont alapján. Halmazok ábrázolása. A nyelv logikai elemeinek helyes használata.
Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre
Statisztika I. 8. előadás Előadó: Dr. Ertsey Imre Minták alapján történő értékelések A statisztika foglalkozik. a tömegjelenségek vizsgálatával Bizonyos esetekben lehetetlen illetve célszerűtlen a teljes
BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA
BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA BESZÉDTUDOMÁNY Az emberi kommunikáció egyik leggyakrabban használt eszköze a nyelv. A nyelv hangzó változta, a beszéd a nyelvi kommunikáció
Újrahasznosítási logisztika. 7. Gyűjtőrendszerek számítógépes tervezése
Újrahasznosítási logisztika 7. Gyűjtőrendszerek számítógépes tervezése A tervezési módszer elemei gyűjtési régiók számának, lehatárolásának a meghatározása, régiónként az 1. fokozatú gyűjtőhelyek elhelyezésének
Intelligens Rendszerek Elmélete. Párhuzamos keresés genetikus algoritmusokkal
Intelligens Rendszerek Elmélete Dr. Kutor László Párhuzamos keresés genetikus algoritmusokkal http://mobil.nik.bmf.hu/tantargyak/ire.html login: ire jelszó: IRE0 IRE / A természet általános kereső algoritmusa:
S atisztika 2. előadás
Statisztika 2. előadás 4. lépés Terepmunka vagy adatgyűjtés Kutatási módszerek osztályozása Kutatási módszer Feltáró kutatás Következtető kutatás Leíró kutatás Ok-okozati kutatás Keresztmetszeti kutatás
Navigáci. stervezés. Algoritmusok és alkalmazásaik. Osváth Róbert Sorbán Sámuel
Navigáci ció és s mozgástervez stervezés Algoritmusok és alkalmazásaik Osváth Róbert Sorbán Sámuel Feladat Adottak: pálya (C), játékos, játékos ismerethalmaza, kezdőpont, célpont. Pálya szerkezete: akadályokkal
Kísérlettervezés alapfogalmak
Kísérlettervezés alapfogalmak Rendszermodellezés Budapest University of Technology and Economics Fault Tolerant Systems Research Group Budapest University of Technology and Economics Department of Measurement
7. Régió alapú szegmentálás
Digitális képek szegmentálása 7. Régió alapú szegmentálás Kató Zoltán http://www.cab.u-szeged.hu/~kato/segmentation/ Szegmentálási kritériumok Particionáljuk a képet az alábbi kritériumokat kielégítő régiókba
Felvételi tematika INFORMATIKA
Felvételi tematika INFORMATIKA 2016 FEJEZETEK 1. Természetes számok feldolgozása számjegyenként. 2. Számsorozatok feldolgozása elemenként. Egydimenziós tömbök. 3. Mátrixok feldolgozása elemenként/soronként/oszloponként.
Mérési struktúrák
Mérési struktúrák 2007.02.19. 1 Mérési struktúrák A mérés művelete: a mérendő jellemző és a szimbólum halmaz közötti leképezés megvalósítása jel- és rendszerelméleti aspektus mérési folyamat: a leképezést
KLASZTEREZÉS I. -- Előadás. A klaszterezés feladata és algoritmusai [Concepts 7]
1 KLASZTEREZÉS I. -- Előadás A klaszterezés feladata és algoritmusai [Concepts 7] A klaszterezés lényege, hogy előre nem definiált csoportokra szeretnénk osztani az adatainkat. Ennyiben tehát eltér az
Kísérlettervezés alapfogalmak
Kísérlettervezés alapfogalmak Rendszermodellezés Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Kísérlettervezés Cél: a modell paraméterezése a valóság alapján
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 4 IV. MINTA, ALAPsTATIsZTIKÁK 1. MATEMATIKAI statisztika A matematikai statisztika alapfeladatát nagy általánosságban a következőképpen
Minták automatikus osztályba sorolása a mintát leíró jellemzők alapján. Típusok: felügyelt és felügyelet nélküli tanuló eljárások
Minták automatikus osztályba sorolása a mintát leíró jellemzők alapján Típusok: felügyelt és felügyelet nélküli tanuló eljárások Különbség: előbbinél szükséges egy olyan tanulóhalmaz, ahol ismert a minták
Biomatematika 2 Orvosi biometria
Biomatematika 2 Orvosi biometria 2017.02.13. Populáció és minta jellemző adatai Hibaszámítás Valószínűség 1 Esemény Egy kísérlet vagy megfigyelés (vagy mérés) lehetséges eredményeinek összessége (halmaza)
Adatbányászat: Klaszterezés Alapfogalmak és algoritmusok
Adatbányászat: Klaszterezés Alapfogalmak és algoritmusok 8. fejezet Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította Ispány Márton Tan,Steinbach, Kumar Introduction to Data
Adatbányászat: Klaszterezés Alapfogalmak és algoritmusok
Adatbányászat: Klaszterezés Alapfogalmak és algoritmusok 8. fejezet Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította Ispány Márton Tan,Steinbach, Kumar Introduction to Data
Hatékonyság 1. előadás
Hatékonyság 1. előadás Mi a hatékonyság Bevezetés A hatékonyság helye a programkészítés folyamatában: csak HELYES programra Erőforrásigény: a felhasználó és a fejlesztő szempontjából A hatékonyság mérése
Babeş Bolyai Tudományegyetem, Kolozsvár Matematika és Informatika Kar Magyar Matematika és Informatika Intézet
/ Babeş Bolyai Tudományegyetem, Kolozsvár Matematika és Informatika Kar Magyar Matematika és Informatika Intézet / Tartalom 3/ kernelek segítségével Felügyelt és félig-felügyelt tanulás felügyelt: D =
A LEGKÖZELEBBI SZOMSZÉD ANALÍZISHEZ SZÜKSÉGES TERÜLETI ADATBÁZISOK KIALAKÍTÁSÁNAK MÓDSZERTANI KÉRDÉSEI
A LEGKÖZELEBBI SZOMSZÉD ANALÍZISHEZ SZÜKSÉGES TERÜLETI ADATBÁZISOK KIALAKÍTÁSÁNAK MÓDSZERTANI KÉRDÉSEI Pfening Viola ELTE TTK Regionális Tudományi Tanszék Társadalom és térinformatika Innovatív módszerek
A sokaság/minta eloszlásának jellemzése
3. előadás A sokaság/mnta eloszlásának jellemzése tpkus értékek meghatározása; az adatok különbözőségének vzsgálata, a sokaság/mnta eloszlásgörbéjének elemzése. Eloszlásjellemzők Középértékek helyzet (Me,
Képrekonstrukció 6. előadás
Képrekonstrukció 6. előadás Balázs Péter Képfeldolgozás és Számítógépes Grafika Tanszék Szegedi Tudományegyetem Diszkrét tomográfia (DT) A CT-hez több száz vetület szükséges időigényes költséges károsíthatja
Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén
Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén Dombi József Szegedi Tudományegyetem Bevezetés - ID3 (Iterative Dichotomiser 3) Az ID algoritmusok egy elemhalmaz felhasználásával
Adatszerkezetek II. 10. előadás
Adatszerkezetek II. 10. előadás Kombinatorikai algoritmusok A kombinatorika: egy véges halmaz elemeinek valamilyen szabály alapján történő csoportosításával, kiválasztásával, sorrendbe rakásával foglalkozik
STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás
ELŐADÁS ÁTTEKINTÉSE STATISZTIKA 9. Előadás Binomiális eloszlás Egyenletes eloszlás Háromszög eloszlás Normális eloszlás Standard normális eloszlás Normális eloszlás mint modell 2/62 Matematikai statisztika
Gépi tanulás a gyakorlatban. Lineáris regresszió
Gépi tanulás a gyakorlatban Lineáris regresszió Lineáris Regresszió Legyen adott egy tanuló adatbázis: Rendelkezésünkre áll egy olyan előfeldolgozott adathalmaz, aminek sorai az egyes ingatlanokat írják
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Klaszteranalízis Hasonló dolgok csoportosítását jelenti, gyakorlatilag az osztályozás szinonimájaként értelmezhetjük. A klaszteranalízis célja A klaszteranalízis alapvető célja, hogy a megfigyelési egységeket
Matematikai modellezés
Matematikai modellezés Bevezető A diasorozat a Döntési modellek című könyvhöz készült. Készítette: Dr. Ábrahám István Döntési folyamatok matematikai modellezése Az emberi tevékenységben meghatározó szerepe
STATISZTIKA I. Centrális mutatók. Helyzeti középértékek. Középértékek. Bimodális eloszlás, U. Módusz, Mo. 4. Előadás.
Centrális mutatók STATISZTIKA I. 4. Előadás Centrális mutatók 1/51 2/51 Középértékek Helyzeti középértékek A meghatározása gyakoriság vagy sorszám alapján Számítás nélkül Az elemek nagyság szerint rendezett
További programozási esetek Hiperbolikus, kvadratikus, integer, bináris, többcélú programozás
További programozási esetek Hiperbolikus, kvadratikus, integer, bináris, többcélú programozás Készítette: Dr. Ábrahám István Hiperbolikus programozás Gazdasági problémák optimalizálásakor gyakori, hogy
Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok. http://uni-obuda.hu/users/koczyl/statisztika1.
Statisztika I. 4. előadás Mintavétel http://uni-obuda.hu/users/koczyl/statisztika1.htm Kóczy Á. László KGK-VMI koczy.laszlo@kgk.uni-obuda.hu Sokaság és minta Alap- és mintasokaság A mintasokaság az a részsokaság,
Izgalmas újdonságok a klaszteranalízisben
Izgalmas újdonságok a klaszteranalízisben Vargha András KRE és ELTE, Pszichológiai Intézet Vargha András KRE és ELTE, Pszichológiai Intézet Mi a klaszteranalízis (KLA)? Keressük a személyek (vagy bármilyen
Területi statisztikai elemzések
Területi statisztikai elemzések KOTOSZ Balázs, SZTE, kotosz@eco.u-szeged.hu Módszertani dilemmák a statisztikában 2016. november 18. Budapest Apropó Miért különleges a területi adatok elemzése? A számításokhoz
Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása
Matematikai alapok és valószínőségszámítás Statisztikai becslés Statisztikák eloszlása Mintavétel A statisztikában a cél, hogy az érdeklõdés tárgyát képezõ populáció bizonyos paramétereit a populációból
Infobionika ROBOTIKA. X. Előadás. Robot manipulátorok II. Direkt és inverz kinematika. Készült a HEFOP P /1.0 projekt keretében
Infobionika ROBOTIKA X. Előadás Robot manipulátorok II. Direkt és inverz kinematika Készült a HEFOP-3.3.1-P.-2004-06-0018/1.0 projekt keretében Tartalom Direkt kinematikai probléma Denavit-Hartenberg konvenció
[Biomatematika 2] Orvosi biometria
[Biomatematika 2] Orvosi biometria 2016.02.15. Esemény Egy kísérlet vagy megfigyelés (vagy mérés) lehetséges eredményeinek összessége (halmaza) alkotja az eseményteret. Esemény: az eseménytér részhalmazai.
Társadalmi és gazdasági hálózatok modellezése
Társadalmi és gazdasági hálózatok modellezése 5. el adás Közösségszerkezet El adó: London András 2017. október 16. Közösségek hálózatban Homofília, asszortatívitás Newman modularitás Közösségek hálózatban
Összefoglalás és gyakorlás
Összefoglalás és gyakorlás High Speed Networks Laboratory 1 / 28 Hálózatok jellemző paraméterei High Speed Networks Laboratory 2 / 28 Evolúció alkotta adatbázis Önszerveződő adatbázis = (struktúra, lekérdezés)
R ++ -tree: an efficient spatial access method for highly redundant point data - Martin Šumák, Peter Gurský
R ++ -tree: an efficient spatial access method for highly redundant point data - Martin Šumák, Peter Gurský Recenzió: Németh Boldizsár Térbeli indexelés Az adatszerkezetek alapvetően fontos feladata, hogy
A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015
A mérés problémája a pedagógiában Dr. Nyéki Lajos 2015 A mérés fogalma Mérésen olyan tevékenységet értünk, amelynek eredményeként a vizsgált jelenség számszerűen jellemezhetővé, más hasonló jelenségekkel
Adaptív dinamikus szegmentálás idősorok indexeléséhez
Adaptív dinamikus szegmentálás idősorok indexeléséhez IPM-08irAREAE kurzus cikkfeldolgozás Balassi Márton 1 Englert Péter 1 Tömösy Péter 1 1 Eötvös Loránd Tudományegyetem Informatikai Kar 2013. november
KLASZTERANALÍZIS OSZTÁLYOZÁS
L G L z eseteket homogén csoportokba (ú.n. klaszterekbe) soroljuk. csoportosítás alapja egy adott metrika szerinti közelség, illetve egy adott hasonlósági mérték szerinti hasonlóság. C z esetek egy kategóriaváltozó
Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.
Tudásmodellezés Kereskedelmi Alkalmazásokban Dezsényi Csaba Ovitas Magyarország kft. Tudásmenedzsment Adat -> Információ -> Tudás Intézményi tudásvagyon hatékony kezelése az üzleti célok megvalósításának
Vállalati modellek. Előadásvázlat. dr. Kovács László
Vállalati modellek Előadásvázlat dr. Kovács László Vállalati modell fogalom értelmezés Strukturált szervezet gazdasági tevékenység elvégzésére, nyereség optimalizálási céllal Jellemzői: gazdasági egység
A Markovi forgalomanalízis legújabb eredményei és ezek alkalmazása a távközlő hálózatok teljesítményvizsgálatában
A Markovi forgalomanalízis legújabb eredményei és ezek alkalmazása a távközlő hálózatok teljesítményvizsgálatában Horváth Gábor ghorvath@hit.bme.hu (Horváth András, Telek Miklós) - p. 1 Motiváció, problémafelvetés
Minőségmenedzsment (módszerek) BEDZSULA BÁLINT
Minőségmenedzsment (módszerek) BEDZSULA BÁLINT Bedzsula Bálint gyakornok Menedzsment és Vállalatgazdaságtan Tanszék Q. épület A.314. bedzsula@mvt.bme.hu http://doodle.com/bedzsula.mvt Az előző előadás
Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok. http://uni-obuda.hu/users/koczyl/statisztika1.
Statisztika I. 4. előadás Mintavétel http://uni-obuda.hu/users/koczyl/statisztika1.htm Kóczy Á. László KGK-VMI koczy.laszlo@kgk.uni-obuda.hu Sokaság és minta Alap- és mintasokaság A mintasokaság az a részsokaság,
Információ megjelenítés Számítógépes ábrázolás. Dr. Iványi Péter
Információ megjelenítés Számítógépes ábrázolás Dr. Iványi Péter Raszterizáció OpenGL Mely pixelek vannak a primitíven belül fragment generálása minden ilyen pixelre Attribútumok (pl., szín) hozzárendelése
Funkcionális konnektivitás vizsgálata fmri adatok alapján
Funkcionális konnektivitás vizsgálata fmri adatok alapján Képalkotási technikák 4 Log Resolution (mm) 3 Brain EEG & MEG fmri TMS PET Lesions 2 Column 1 0 Lamina -1 Neuron -2 Dendrite -3 Synapse -4 Mikrolesions
Nagyméretű adathalmazok kezelése (BMEVISZM144) Reinhardt Gábor április 5.
Asszociációs szabályok Budapesti Műszaki- és Gazdaságtudományi Egyetem 2012. április 5. Tartalom 1 2 3 4 5 6 7 ismétlés A feladat Gyakran együtt vásárolt termékek meghatározása Tanultunk rá hatékony algoritmusokat
Hidraulikus hálózatok robusztusságának növelése
Dr. Dulovics Dezső Junior Szimpózium 2018. Hidraulikus hálózatok robusztusságának növelése Előadó: Huzsvár Tamás MSc. Képzés, II. évfolyam Témavezető: Wéber Richárd, Dr. Hős Csaba www.hds.bme.hu Az előadás
Térinformatikai algoritmusok Elemi algoritmusok
Cserép Máté 2016. szeptember 14. Analóg programozásnak nevezzük azt, amikor egy feladat megoldásához egy már ismert és megoldott feladat megoldását használjuk fel. Általában nem pontosan ugyanazt a feladatot
Gépi tanulás. Féligellenőrzött tanulás. Pataki Béla (Bolgár Bence)
Gépi tanulás Féligellenőrzött tanulás Pataki Béla (Bolgár Bence) BME I.E. 414, 463-26-79 pataki@mit.bme.hu, http://www.mit.bme.hu/general/staff/pataki Féligellenőrzött tanulás Mindig kevés az adat, de
Mesterséges Intelligencia MI
Mesterséges Intelligencia MI Problémamegoldás kereséssel ha sötétben tapogatózunk Dobrowiecki Tadeusz Eredics Péter, és mások BME I.E. 437, 463-28-99 dobrowiecki@mit.bme.hu, http://www.mit.bme.hu/general/staff/tade
6. Előadás. Vereb György, DE OEC BSI, október 12.
6. Előadás Visszatekintés: a normális eloszlás Becslés, mintavételezés Reprezentatív minta A statisztika, mint változó Paraméter és Statisztika Torzítatlan becslés A mintaközép eloszlása - centrális határeloszlás
Tartalomjegyzék. Tartalomjegyzék... 3 Előszó... 9
... 3 Előszó... 9 I. Rész: Evolúciós számítások technikái, módszerei...11 1. Bevezetés... 13 1.1 Evolúciós számítások... 13 1.2 Evolúciós algoritmus alapfogalmak... 14 1.3 EC alkalmazásokról általában...
DIGITÁLIS TEREPMODELL A TÁJRENDEZÉSBEN
DIGITÁLIS TEREPMODELL A TÁJRENDEZÉSBEN DR. GIMESI LÁSZLÓ Bevezetés Pécsett és környékén végzett bányászati tevékenység felszámolása kapcsán szükségessé vált az e tevékenység során keletkezett meddők, zagytározók,
The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék Adatelemzés intelligens módszerekkel Hullám Gábor Adatelemzés hagyományos megközelítésben I. Megválaszolandó
Mérési hibák 2006.10.04. 1
Mérési hibák 2006.10.04. 1 Mérés jel- és rendszerelméleti modellje Mérési hibák_labor/2 Mérési hibák mérési hiba: a meghatározandó értékre a mérés során kapott eredmény és ideális értéke közötti különbség
[Biomatematika 2] Orvosi biometria
[Biomatematika 2] Orvosi biometria 2016.02.08. Orvosi biometria (orvosi biostatisztika) Statisztika: tömegjelenségeket számadatokkal leíró tudomány. A statisztika elkészítésének menete: tanulmányok (kísérletek)
Feladatok MATEMATIKÁBÓL II.
Feladatok MATEMATIKÁBÓL a 12. évfolyam számára II. 1. Alakítsuk át a következő kifejezéseket úgy, hogy teljes négyzetek jelenjenek meg: a) x 2 2x + b) x 2 6x + 10 c) x 2 + x + 1 d) x 2 12x + 11 e) 2x 2
Mesterséges neurális hálózatok II. - A felügyelt tanítás paraméterei, gyorsító megoldásai - Versengéses tanulás
Mesterséges neurális hálózatok II. - A felügyelt tanítás paraméterei, gyorsító megoldásai - Versengéses tanulás http:/uni-obuda.hu/users/kutor/ IRE 7/50/1 A neurális hálózatok általános jellemzői 1. A
Tipikus időbeli internetezői profilok nagyméretű webes naplóállományok alapján
Tipikus időbeli internetezői profilok nagyméretű webes naplóállományok alapján Schrádi Tamás schraditamas@aut.bme.hu Automatizálási és Alkalmazott Informatikai Tanszék BME A feladat A webszerverek naplóállományainak
MATEMATIKA ÉRETTSÉGI május 8. EMELT SZINT
MATEMATIKA ÉRETTSÉGI 007. május 8. EMELT SZINT 1) Oldja meg a valós számok halmazán az alábbi egyenletet! x x 4 log 9 10 sin x x 6 I. (11 pont) sin 1 lg1 0 log 9 9 x x 4 Így az 10 10 egyenletet kell megoldani,
Általános algoritmustervezési módszerek
Általános algoritmustervezési módszerek Ebben a részben arra mutatunk példát, hogy miként használhatóak olyan általános algoritmustervezési módszerek mint a dinamikus programozás és a korlátozás és szétválasztás
Segítség az outputok értelmezéséhez
Tanulni: 10.1-10.3, 10.5, 11.10. Hf: A honlapra feltett falco_exp.zip-ben lévő exploratív elemzések áttanulmányozása, érdekességek, észrevételek kigyűjtése. Segítség az outputok értelmezéséhez Leiro: Leíró
Leggyakrabban használt adatbányászási technikák. Vezetői információs rendszerek
Leggyakrabban használt adatbányászási technikák ADATBÁNYÁSZÁS II. 1. A társításelemzés társítási szabályok (asszociációs szabályok) feltárását jelenti. Azt vizsgájuk, hogy az adatbázis elemei között létezik-e
Adatszerkezetek. Nevezetes algoritmusok (Keresések, rendezések)
Adatszerkezetek Nevezetes algoritmusok (Keresések, rendezések) Keresések A probléma általános megfogalmazása: Adott egy N elemű sorozat, keressük meg azt az elemet (határozzuk meg a helyét a sorozatban),
3D számítógépes geometria és alakzatrekonstrukció
3D számítógépes geometria és alakzatrekonstrukció 14. Digitális Alakzatrekonstrukció - Bevezetés http://cg.iit.bme.hu/portal/node/312 https://www.vik.bme.hu/kepzes/targyak/viiima01 Dr. Várady Tamás, Dr.
Normális eloszlás tesztje
Valószínűség, pontbecslés, konfidenciaintervallum Normális eloszlás tesztje Kolmogorov-Szmirnov vagy Wilk-Shapiro próba. R-funkció: shapiro.test(vektor) balra ferde eloszlás jobbra ferde eloszlás balra
További klaszterező módszerek november 8.
További klaszterező módszerek Ispány Márton és Jeszenszky Péter 2016. november 8. Tartalom Bevezetés A K-közép és DBSCAN összehasonĺıtása Klaszterezés keverék modellekkel (EM algoritmus) Önszervező háló
Biomatematika 2 Orvosi biometria
Biomatematika 2 Orvosi biometria 2017.02.05. Orvosi biometria (orvosi biostatisztika) Statisztika: tömegjelenségeket számadatokkal leíró tudomány. A statisztika elkészítésének menete: tanulmányok (kísérletek)
Kettőnél több csoport vizsgálata. Makara B. Gábor
Kettőnél több csoport vizsgálata Makara B. Gábor Három gyógytápszer elemzéséből az alábbi energia tartalom adatok származtak (kilokalória/adag egységben) Három gyógytápszer elemzésébô A B C 30 5 00 10
Kontrollcsoport-generálási lehetőségek retrospektív egészségügyi vizsgálatokhoz
Kontrollcsoport-generálási lehetőségek retrospektív egészségügyi vizsgálatokhoz Szekér Szabolcs 1, Dr. Fogarassyné dr. Vathy Ágnes 2 1 Pannon Egyetem Rendszer- és Számítástudományi Tanszék, szekersz@gmail.com