Gépi tanulás. Féligellenőrzött tanulás. Pataki Béla (Bolgár Bence)

Hasonló dokumentumok
Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

Adatbányászati szemelvények MapReduce környezetben

Intelligens orvosi műszerek VIMIA023

E x μ x μ K I. és 1. osztály. pontokként), valamint a bayesi döntést megvalósító szeparáló görbét (kék egyenes)

Közösség detektálás gráfokban

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Babeş Bolyai Tudományegyetem, Kolozsvár Matematika és Informatika Kar Magyar Matematika és Informatika Intézet

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Neurális hálózatok. Nem ellenőrzött tanulás. Pataki Béla. BME I.E. 414,

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Gépi tanulás Gregorics Tibor Mesterséges intelligencia

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Gyakorló feladatok adatbányászati technikák tantárgyhoz

[1000 ; 0] 7 [1000 ; 3000]

Gépi tanulás a gyakorlatban. Lineáris regresszió

VIII. INDUKTÍV TANULÁS

7. Régió alapú szegmentálás

Gépi tanulás a gyakorlatban. Bevezetés

Mesterséges Intelligencia MI

TANULÁS. I. Logikai formulák tanulása. Tanulási módok. Miért m ködik jól az induktív tanulás? Induktív tanulás

GRÁFELMÉLET. 7. előadás. Javító utak, javító utak keresése, Edmonds-algoritmus

Mesterséges Intelligencia MI







Normális eloszlás tesztje

1. gyakorlat. Mesterséges Intelligencia 2.

Klaszterezés, 2. rész

Mesterséges Intelligencia MI

Algoritmusok bonyolultsága

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

Konjugált gradiens módszer

Mesterséges Intelligencia MI

Diszkrét matematika 2. estis képzés

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

Szemidenit optimalizálás és az S-lemma

Modellezés, predikció és szimuláció a termelésoptimalizálásban

Minták automatikus osztályba sorolása a mintát leíró jellemzők alapján. Típusok: felügyelt és felügyelet nélküli tanuló eljárások

Operációkutatás vizsga

Mesterséges Intelligencia MI

Diszkrét matematika 2.C szakirány

HÁLÓZAT Maximális folyam, minimális vágás

Nem teljesen kitöltött páros összehasonlítás mátrixok sajátérték optimalizálása Newton-módszerrel p. 1/29. Ábele-Nagy Kristóf BCE, ELTE

1. hét. Neptun kód. Összesen. Név

Gépi tanulás. A szükséges mintaszám korlát elemzése. Pataki Béla (Bolgár Bence)

Gauss-Jordan módszer Legkisebb négyzetek módszere, egyenes LNM, polinom LNM, függvény. Lineáris algebra numerikus módszerei

Programozási módszertan. A gépi tanulás alapmódszerei

Az objektum leírására szolgálnak. Mire jók? Sokszor maga a jellemző az érdekes: Tömörítés. Objektumok csoportosítására

Példák jellemzőkre: - minden pixelérték egy jellemző pl. neurális hálózat esetében csak kis képekre, nem invariáns sem a megvilágításra, sem a geom.

Számítógép és programozás 2

Gráfok 2. Legrövidebb utak, feszítőfák. Szoftvertervezés és -fejlesztés II. előadás. Szénási Sándor

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

Diszkrét matematika 2.C szakirány

Random Forests - Véletlen erdők

Algoritmuselmélet. Legrövidebb utak, Bellmann-Ford, Dijkstra. Katona Gyula Y.

Diszkrét matematika 2.C szakirány

Gráfelméleti alapfogalmak

Diszkrét matematika 1. estis képzés

Aradi Bernadett. 2017/18 ősz. TensorFlow konvolúciós hálózatokhoz 2017/18 ősz 1 / 11

Neurális hálózatok bemutató

Diszkrét matematika 2. estis képzés

Diszkrét Matematika MSc hallgatók számára 7. Előadás Párosítási tételek Előadó: Hajnal Péter Jegyzetelő: Kovácsházi Anna

Algoritmuselmélet 18. előadás

Szociális hálózatok Gráf alapú módszerek. Adatbányászat. Klaszterezés Szociális hálózatok. Szegedi Tudományegyetem. Adatbányászat

Adatbányászat: Klaszterezés Haladó fogalmak és algoritmusok

Markov-láncok stacionárius eloszlása

Szúnyogháló bepattintása A szúnyogháló felengedése (A) (R) Tanács Portalanítás Tisztítás

Számítógép és programozás 2

Szalai Péter. April 17, Szalai Péter April 17, / 36

További programozási esetek Hiperbolikus, kvadratikus, integer, bináris, többcélú programozás

Adatelemzés és adatbányászat MSc

Strukturált Generátorrendszerek Online Tanulása és Alk-ai

Modellellenőrzés. dr. Majzik István BME Méréstechnika és Információs Rendszerek Tanszék

Hálózatszámítási modellek

Közösségi kezdeményezéseket megalapozó szükségletfeltárás módszertana. Domokos Tamás, módszertani igazgató

Babeş Bolyai Tudományegyetem, Matematika és Informatika Kar. szinte minden tudományterületen találkozhatunk. A sok fontos alkalmazás közül itt

Képrekonstrukció 9. előadás

2. A példahalmazban n = 3 negatív és p = 3 pozitív példa van, azaz a példahalmazt képviselő döntési fa információtartalma: I = I(1/2, 1/2) = 1 bit.

Legkisebb négyzetek módszere, Spline interpoláció

Genetikus algoritmusok

Diszkrét matematika 2.C szakirány

PIXEL SZINTŰ SZEGMENTÁLÁS CNN-EL

Példa Hajtsuk végre az 1 pontból a Dijkstra algoritmust az alábbi gráfra. (A mátrixban a c i j érték az (i, j) él hossza, ha nincs él.

Operációkutatás. Vaik Zsuzsanna. Budapest október 10. First Prev Next Last Go Back Full Screen Close Quit

MATEMATIKA JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

Navigáci. stervezés. Algoritmusok és alkalmazásaik. Osváth Róbert Sorbán Sámuel

Gauss-Seidel iteráció

Gépi tanulás a gyakorlatban SVM

Teljesen elosztott adatbányászat pletyka algoritmusokkal. Jelasity Márk Ormándi Róbert, Hegedűs István

c adatpontok és az ismeretlen pont közötti kovariancia vektora

Support Vector Machines

Adatbányászat. Klaszterezés Szociális hálózatok Szegedi Tudományegyetem

KOOPERÁCIÓ ÉS GÉPI TANULÁS LABORATÓRIUM

Intelligens adatelemzés

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

Matematikai geodéziai számítások 6.

Diszkrét matematika 2. estis képzés

Átírás:

Gépi tanulás Féligellenőrzött tanulás Pataki Béla (Bolgár Bence) BME I.E. 414, 463-26-79 pataki@mit.bme.hu, http://www.mit.bme.hu/general/staff/pataki

Féligellenőrzött tanulás Mindig kevés az adat, de különösen kevés a címkézett adat. A féligellenőrzött tanulásban a rendelkezésre álló ismert címkéjű (kívánt válaszú) és címkézetlen mintákat egyaránt felhasználjuk. Demópélda: Kmeans algoritmussal becsüljük a klaszterek középpontjait, de a tanítóminták egy részéről tudjuk, hogy melyik csoportba tartoznak.

Féligellenőrzött Kmeans algoritmus/1 A Kmeans ugyanúgy megy, mint az alapalgoritmus, csak az ismert besorolású adatok (címkézett, labelled) besorolása nem (mindig) a távolság alapján történik. 1. A címkézett adatokból számítjuk ki a klaszterközéppontok értékeit egyes iterációk során. a. Csak az első iterációnál használjuk fel a címkézett adatok címkéit, a későbbiekben a távolság alapján besoroljuk a legközelebbi középponthoz. (Iniciált Kmeans) b. Mindegyik iterációnál megőrizzük és használjuk az ismert címkéket. (Korlátozott Kmeans)

Demópélda: Kmeans algoritmussal becsüljük a klaszterek középpontjait, de a tanítóminták egy részéről tudjuk, hogy melyik csoportba tartoznak. Ha pl. az adatok 5%-ának ismerjük a besorolását: 5 O - ismert címkéjű (besorolású) minták (5%) Három 2D Gauss eloszlásból adódó mintahalmaz 0-5 -8-6 -4-2 0 2 4 6 8

A klaszterközéppontok becslésének hibája az ismert címkéjű pontok arányának függvényében

Féligellenőrzött Kmeans algoritmus/2: COP 2. Nem címkéket ismerünk, hanem összetartozást, illetve összeférhetetlenséget az adatok közt. COP: Constrained Pairwise x1 x2 x3 x4 xk xm xp xn x1 1 x2 1 x3 1 x4 1 xk 1 1-1 xm 1 1 xp -1 1 xn 1

Féligellenőrzött Kmeans algoritmus/2 kötelező kapcsolat (must link) kizáró kapcsolat (cannot link) A Kmeans algoritmust véletlen kezdőpontokkal indítjuk. Amikor egy olyan mintapont besorolásához érünk, amelyre kötöttség van, akkor: ha van olyan must link, amelynél a másik mintapontot már besoroltuk valahova, akkor ezt a mintapontot ugyanabba a klaszterbe tesszük ha van olyan cannot link, amelynél a másik mintapontot már besoroltuk valahova, akkor ezt az új pontot nem tesszük akkor se abba klaszterbe, ha annak középpontjához van a legközelebb. ha nem tudjuk besorolni, akkor új véletlen kiindulási helyzetből újrafuttatjuk az algoritmust xk -1 xm Lehet, hogy a kényszerek mátrixa ellentmondásos. +1 +1 xp

Transzduktív tanulás A transzduktív tanulást az induktívval való szembeállítással magyarázhatjuk. Az induktív (ellenőrzött) tanulás (konkrét, egyedi példákból általánosít) A tanítás folyamata: Kiinduló (tanító) mintahalmaz {(x n,d n )}, n=1,,n Például: x n =[x n1 =1,5 ; x n2 =1; x n2 = SZÉP,...] d n = IGAZ h(x) hipotézis, mintákból például: leszűrendő általános szabály/tudás Tanítási algoritmus (hogyan építsük be a mintákban hordozott tudást az eszközbe) Például: döntési fa kialakítása, növesztése A megtanított eszköz felhasználása Új, ismeretlen szituáció leírása: x új Például: x új =[x új1 =2,7 ; x új2 =0; x új3 = CSÚNYA,...] a minták alapján előzőleg megtanított h(x) hipotézis, Az új, ismeretlen szituációra ( x új ) javasolt válasz Például: h(x új )= NEM

Transzduktív tanulás A transzduktív tanulás csak címkézett és címkézetlen adatokkal dolgozik, azokra együttes optimumot keres nem általánosít, nem kezel máshogy címkézetlen és ismeretlen adatokat! Legyen L a címkézett (labeled, ismert besorolású) minták halmaza U pedig az ismeretlen besorolású (unlabeled, címkézetlen) minták halmaza. A transzduktív tanulás együtt optimalizál a két halmazon. Ha egy új minta jön, arra nem alkalmazza a kialakított optimumot (nem általánosít!), hanem hozzáveszi U-hoz az új mintát U, és az új U és L együttes optimalizálásával határozza meg az ismeretlen minta besorolását (az összes többi címkézetlennel együtt). Az ismeretlen új mintára adott válasz tulajdonképpen a kialakított új rendszer! Hasonlat: az induktív tanulás az osztályteremben megoldott vizsgafeladatsor, a transzduktív a hazavitt és otthon megoldott vizsgafeladatsor!

Transzduktív SVM Ismert besorolású minták:, +ismeretlen besorolású minták: +új minta: Az ezek alapján kialakított SVM: az ismeretlen mintákat is használó: +új minta:

Gráf alapú féligellenőrzött eljárások (MINCUT) A címkézett mintapontok a gráf csúcsai {0,1} címkékkel, ezen minták halmaza L. Vannak címkézetlen mintáikn a csúcspontokban, ezek halmaza U. Az éleken tüntetjük fel a két minta távolságát (hasonlóságot/különbözőséget jellemez). Matematikailag a következő veszteségfüggvényt kell minimalizálnunk: 2 ( ) 1 2 min yk yk wij yi y j p( k ) L 2 p( i) U, p( j) U L A minimumot az y i címkékkel keressük. Azt fejezi ki, hogy a címkézett mintáink mindenképpen az adott címkékkel rendelkezzenek, és a címkézetlenek minimális távolságösszeget adjanak a többi címkézett és címkézetlen mintával. PÉLDA külön pdf-ben Probléma: merev vágást eredményez. Soft- MINCUT : kis zajjal perturbáljuk a w ij súlyokat, és több MINCUT-ot alakítunk ki. A végső eredményt ezen eszközök többségi szavazása adja.