Gépi tanulás Gregorics Tibor Mesterséges intelligencia

Hasonló dokumentumok
VIII. INDUKTÍV TANULÁS

TANULÁS. I. Logikai formulák tanulása. Tanulási módok. Miért m ködik jól az induktív tanulás? Induktív tanulás

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

1. gyakorlat. Mesterséges Intelligencia 2.

Számítógép és programozás 2

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Adatbányászati szemelvények MapReduce környezetben

I. LABOR -Mesterséges neuron

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Mesterséges intelligencia. Gregorics Tibor people.inf.elte.hu/gt/mi

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Programozási módszertan. A gépi tanulás alapmódszerei

Mesterséges Intelligencia MI

Ellenőrző kérdések. 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t

Gépi tanulás a gyakorlatban. Lineáris regresszió

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Gépi tanulás. Féligellenőrzött tanulás. Pataki Béla (Bolgár Bence)

Számítógépes döntéstámogatás. Genetikus algoritmusok

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

Babeş Bolyai Tudományegyetem, Kolozsvár Matematika és Informatika Kar Magyar Matematika és Informatika Intézet

Matematika alapjai; Feladatok

19. AZ ÖSSZEHASONLÍTÁSOS RENDEZÉSEK MŰVELETIGÉNYÉNEK ALSÓ KORLÁTJAI

Neurális hálózatok bemutató

Bonyolultságelmélet. Monday 10 th October, 2016, 17:44

GRÁFELMÉLET. 7. előadás. Javító utak, javító utak keresése, Edmonds-algoritmus

Irányításelmélet és technika II.

Algoritmuselmélet. Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem. 13.

A 2017/2018 tanévi Országos Középiskolai Tanulmányi Verseny első fordulójának feladatai. INFORMATIKA II. (programozás) kategória

A következő feladat célja az, hogy egyszerű módon konstruáljunk Poisson folyamatokat.

Mohó algoritmusok. Példa:

Általános algoritmustervezési módszerek

V. Kétszemélyes játékok

Kétszemélyes játékok Gregorics Tibor Mesterséges intelligencia

Gráfkeresések A globális munkaterületén a startcsúcsból kiinduló már feltárt utak találhatók (ez az ún. kereső gráf), külön megjelölve az utak azon

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék. Neurális hálók. Pataki Béla

Közösség detektálás gráfokban

Algoritmuselmélet. Bonyolultságelmélet. Katona Gyula Y.

Algoritmuselmélet 7. előadás

Diszkrét matematika 2.C szakirány

A digitális számítás elmélete

5/1. tétel: Optimalis feszítőfák, Prim és Kruskal algorithmusa. Legrövidebb utak graphokban, negatív súlyú élek, Dijkstra és Bellman Ford algorithmus.

Optimalizálás alapfeladata Legmeredekebb lejtő Lagrange függvény Log-barrier módszer Büntetőfüggvény módszer 2017/

Adatszerkezetek II. 1. előadás

Intelligens orvosi műszerek VIMIA023

Diszkrét matematika 2.C szakirány

Nagyságrendek. Kiegészítő anyag az Algoritmuselmélet tárgyhoz. Friedl Katalin BME SZIT február 1.

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Obudai Egyetem RKK Kar. Feladatok a Matematika I tantárgyhoz

A félév során előkerülő témakörök

Matematika (mesterképzés)

Számítógép és programozás 2

KÖZELÍTŐ INFERENCIA II.

Biomatematika 2 Orvosi biometria

Algoritmusok helyességének bizonyítása. A Floyd-módszer

Adatbázisok elmélete 12. előadás

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Mesterséges Intelligencia I. (I602, IB602)

Algoritmizálás, adatmodellezés tanítása 8. előadás

Sapientia - Erdélyi Magyar TudományEgyetem (EMTE) Csíkszereda IRT- 4. kurzus. 3. Előadás: A mohó algoritmus

Tanulás tanuló gépek tanuló algoritmusok mesterséges neurális hálózatok

2. Visszalépéses keresés

Mesterséges Intelligencia MI

Algoritmusok Tervezése. 6. Előadás Algoritmusok 101 Dr. Bécsi Tamás

Mindent olyan egyszerűvé kell tenni, amennyire csak lehet, de nem egyszerűbbé.

1. Alapfogalmak Algoritmus Számítási probléma Specifikáció Algoritmusok futási ideje

14. Mediánok és rendezett minták

Keresések Gregorics Tibor Mesterséges intelligencia

Gépi tanulás. Egyszerű döntés tanulása (döntési fák) (Részben Dobrowiecki Tadeusz fóliáinak átdolgozásával) Pataki Béla (Bolgár Bence)

Specifikáció. B logikai formula, a bemeneti feltétel, K logikai formula, a kimeneti feltétel, A az algoritmus, amelyre az állítás vonatkozik.

[Biomatematika 2] Orvosi biometria

Sorozatok I. Brósch Zoltán (Debreceni Egyetem Kossuth Lajos Gyakorló Gimnáziuma)

2. A példahalmazban n = 3 negatív és p = 3 pozitív példa van, azaz a példahalmazt képviselő döntési fa információtartalma: I = I(1/2, 1/2) = 1 bit.

Gráfelmélet. I. Előadás jegyzet (2010.szeptember 9.) 1.A gráf fogalma

Logika és számításelmélet. 11. előadás

H=0 H=1. Legyen m pozitív egészre {a 1, a 2,, a m } különböző üzenetek halmaza. Ha az a i üzenetet k i -szer fordul elő az adásban,

Algoritmuselmélet gyakorlat (MMN111G)

Ionogram releváns területeinek meghatározása és elemzésének automatikus megvalósítása

Diszkrét matematika 2.C szakirány

Logika es sz am ıt aselm elet I. r esz Logika Negyedik el oad as 1/26

Feladatok és megoldások a 8. hétre Építőkari Matematika A3

[1000 ; 0] 7 [1000 ; 3000]

MATEMATIKA ÉRETTSÉGI május 8. EMELT SZINT

KÖZELÍTŐ INFERENCIA II.

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Programozás alapjai. 6. gyakorlat Futásidő, rekurzió, feladatmegoldás

Feladatok és megoldások az 1. sorozat Építőkari Matematika A3

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Osztott algoritmusok

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Mindent olyan egyszerűvé kell tenni, amennyire csak lehet, de nem egyszerűbbé. (Albert Einstein) Halmazok 1

Diszkrét matematika 2 (C) vizsgaanyag, 2012 tavasz

Monte Carlo módszerek a statisztikus fizikában. Az Ising modell. 8. előadás

Információs rendszerek elméleti alapjai. Információelmélet

Csima Judit november 15.

9. előadás. Programozás-elmélet. Programozási tételek Elemi prog. Sorozatszámítás Eldöntés Kiválasztás Lin. keresés Megszámolás Maximum.

Ellátási lánc optimalizálás P-gráf módszertan alkalmazásával mennyiségi és min ségi paraméterek gyelembevételével

Kereső algoritmusok a diszkrét optimalizálás problémájához

Diszkrét matematika 2. estis képzés

Átírás:

Gépi tanulás

Tanulás fogalma Egy algoritmus akkor tanul, ha egy feladat megoldása során olyan változások következnek be a működésében, hogy később ugyanazt a feladatot vagy ahhoz hasonló más feladatokat jobb eredménnyel, illetve jobb hatékonysággal képes megoldani, mint korábban. A tanulás során változhat a feladat reprezentációja (logikai formulák, valószínűségi hálók) megoldó algoritmusa (mély hálók, genetikus programozás) heurisztikája (B algoritmus) 2

Tanulási modellek Ha a megoldandó problémát egy φ : X Y leképezés modellezi, akkor ehhez egy olyan f : X Y leképezést kiszámító algoritmust tanulunk meg, amelyre f φ sokszor egy rögzített f : P X Y leképezést használunk, és a megfelelő Θ P paramétereket keressük hozzá: f (Θ, x) φ(x) Induktív tanulási modell f leképezést (annak paramétereit) x n X (n=1..n) bemenetek (minták) alapján tanuljuk Adaptív (inkrementális) tanulás Egy már megtanult f leképezést egy új minta anélkül módosíthat, hogy a korábbi mintákat újra megvizsgálnánk.

Induktív modellek tanulási módjai Felügyelt tanulás: ismeri a tanuláshoz használt minták elvárt kimenetét is, azaz az (x n, φ(x n )) (n=1..n) input-output párok alapján tanul. Felügyelet nélküli tanulás: nem ismeri a tanuláshoz használt minták elvárt kimenetét, csak (x n,) (n=1..n) lehetséges inputokat; a minták illetve az azokra kiszámolt kimenetek közötti összefüggéseket próbálja felismerni, azokat osztályozni. Megerősítéses tanulás: a minták kimenetének kiszámolásához szükséges lépéseket tanulja meg. Nincs visszajelzés arra, hogy egy adott helyzetben választható lépések közül melyek a jók, de egy lépés-sorozat eredményét összevetheti az adott inputra várt eredménnyel, így képes az egyes lépések hasznosságát becsülni.

1. Felügyelt tanulás Választunk egy f : P X Y paraméteres leképezést a vizsgált problémát modellező φ : X Y leképezés közelítéséhez, majd azon Θ P paramétert keressük (paraméteres tanulás), amelyre az (x n, y n ) (n=1..n) tanító minták mellett (ahol y n = φ(x n )) az alábbi kifejezés értéke elég kicsi (ettől reméljük, hogy f(θ, x ) φ( x )) 1 N N l ( f(θ, x n ), y n ) n=1 hiba függvény t n elvárt kimenet számított kimenet l :Y Y R hibafüggvény: l(t n, y n ) lehet például t n y n 1, t n y n 2, vagy Σ i y n i log t n i. 2

Megjegyzés Ez a tanulás akkor működik jól, ha N elég nagy, habár drága összegyűjteni az y n -eket f és l megfelelően vannak megválasztva Θ közel esik a paraméter globális optimumához A Θ megtalálása egy nemkonvex optimalizálási feladat: a Θ globális optimumát megtalálni NP-teljes probléma, de ez nem is cél, mert túl mohó módszert kapnánk (túltanulás). Fontos, hogy az f(θ, x) kiszámítása gyors legyen; nem baj, ha az ehhez megfelelő Θ megtalálása lassú, hiszen ezt a tanító minták segítségével előre számoljuk ki.

1.1. K legközelebbi szomszéd A tanító mintákból konstruált f függvény egy tetszőleges x X bemenethez a minták kimenetei közül annak a K darabnak az átlagát rendeli, amelyek bemenetei az x-hez legközelebb esnek: igaz állításra 1-et, különben 0-t ad f(θ, x) = N n=1 a Θ paraméter egyfelől maguk az {(x n, y n ) n=1..n} minták, amit nem kell optimalizálni, másfelől a K N, amit előre kell rögzíteni. a legközelebbi szomszédokat az x n x 2 távolságok sorba rendezésével választjuk ki előny: egyszerű leprogramozni I(x n az egyike az x-hez legközelebb eső K darab tanító minta inputjainak) y K n hátrány: ha N nagy, a tárolás, és a minták sorba rendezése erőforrásigényes 2?

1.2. Döntési fa Tegyük fel, hogy a φ : X Y leképezésben az x X bemeneteknek ismertek ugyanazon tulajdonságai (attribútumai). Képzeljük el azt az irányított fát, amelynek belső csúcsai egy attribútumot szimbolizálnak, és az abból kivezető éleket ezen attribútum lehetséges értékei címkézik ágai attribútum-érték párok sorozatát írják le leveleihez azon tanító minták részhalmaza tartozik, amelyek attribútumai a levélhez vezető út által kijelölt értékekkel rendelkeznek. Egy döntési fa birtokában megállapíthatjuk, hogy egy x bemenet a fa melyik levelére képződik le, és ekkor a levélhez tartozó tanító minták kimenetei alapján számítható az x-hez tartozó kimenetet.

Példa Elfogadjuk-e a megajánlott vizsgajegyet? Ha az ötös, akkor feltétlenül. Ha négyes és kevés vizsgánk van és értettük az előadást, akkor nem; feltéve, hogy a tárgy nem a mesterséges intelligencia. Ha hármas és az átlagot kell javítanunk, akkor nem. stb. Attribútumok: hányast ajánlottak meg (1, 2, 3, 4, 5) kevés vizsgánk van-e (igen, nem) kell-e átlagot javítani? (igen, nem) az MI tárgyról van-e szó? (igen, nem) értettük-e az előadást? (igen, nem)

A példa egy döntési fája Hányas? négyes Igen Kevés vizsgánk van? Kell átlagot javítani? MI Igen Nem Igen Igen Értettük az előadást? Nem Igen

Döntési fa felépítése A döntési fát egy (x n, y n ) (n=1..n) tanító mintahalmaz segítségével építjük fel (ahol y n = φ(x n )) úgy, hogy az optimális, azaz minél tömörebb, tehát egy-egy ága minél rövidebb legyen. Az építés során a csúcsokhoz a tanító minták egy részhalmaza tartozik, amelyet a csúcshoz választott attribútum diszjunkt darabokra vág szét, és azokat a csúcs gyermekei kapják meg. Egy levélcsúcs értékét a csúcshoz tartozó tanító minták kimenetei adják: átlaguk vagy leggyakoribb értékük. (Ha ez nem döntene, akkor a levélcsúcs szülőcsúcsát vizsgáljuk.) Egy tanító mintahalmazhoz több, azt kifejező döntési fa is megadható. A legkisebb döntési fa megadása egy NP-teljes probléma.

Étterem probléma (Russel-Norvig) Pl. Más Bár P/Sz Éhes Hány Ár Eső Fogl Fajt Idő Marad 1 I N N s I kevés drá N l I Fra 10 I 2 I N N I tele olcs N N Tha 60 N 3 N I N N kevés olcs N N Bur i 10 I 4 I N I I tele olcs N N Tha g 30 I 5 I N I N tele drá N I Fra i sok N 6 N I N I kevés köz I I Ol 10 I 7 N I N N senki olcs I N Bur 10 N 8 N N N I kevés köz I I Tha g 10 I 9 N I I N tele olcs I N Bur i sok N 10 I I I I tele drá N I Ol g 30 N 11 N N N N senki olcs N N Tha 10 N 12 I I I I tele olcs N N Bur i g 60 I

Döntési fa építésének első lépése +: 1,3,4,6,8,12 -: 2,5,7,9,10,11 Hány Más, Bár, P/Sz, Éhes, Hány, Ár, Eső, Fogl, Fajt, Idő senki kevés tele +: +: 1,3,6,8 +: 4,12 -: 7,11 -: -: 2,5,9,10 Nem Igen Más, Bár, P/Sz, Éhes, Ár, Eső, Fogl, Fajt, Idő

Alternatív lépések igen +: 1,4,12 -: 2,5, 10 Más nem +: 3, 5, 8 -: 7, 9,11 Fajt Hány senki kevés tele +: +: 1,3,6,8 +: 4,12 -: 7,11 -: -: 2,5,9,10 Burg +: 3,12 -: 7,9 Fra Ol Thai +: 1 +: 6 +: 4,8 -: 5 -: 10 -: 2,11

Heurisztika A döntési fa minél tömörebb, egy-egy ága minél rövidebb lesz, ha egy csúcsnál a kiválasztott attribútum (a) a mintákat olyan részhalmazokra vágja szét, amelyeken belül a minták minél homogénebbek, minél kevésbé különböznek, ezt valamilyen távolság fogalom (2-es norma, kereszt entrópia) alapján végezhetjük vagy speciálisan lehet az a célunk, hogy a szétvágás információs előnye, azaz a szétvágás előtti minta-halmaz információ tartalmának és az utána kapott mintarészhalmazok információ tartalmának (számosságuk szerinti súlyozott) összege közti különbség minél nagyobb legyen.

Információ tartalom (Entrópia) A P-beli minták információtartalma (entrópiája), ha csak kétféle kimenetű minta van: E(P) = E(p +, p _ ) = _ p + log 2 p + _ p _ log 2 p _ ahol p + a P-beli pozitív, p _ a negatív minták aránya (p + +p _ =1) Példa: Ha P-ben 2 pozitív és 3 negatív minta van: E(P) = E(2/5, 3/5 ) = 0.97 Ha P-ben 0 pozitív és 3 negatív minta van: E(P) = E(0/3, 3/3 ) = 0

Információs előny számítása P a a A v 1 v 2 v 3 P a=v1 P a=v2 P a=v3 C(P,a)= E(P) - v Érték(a) P a=v P E(P a=v ) ahol P a szülő csúcs mintái, a a választott attribútum, az Érték(a) az a attribútum által felvett értékek, és a P a=v ={ p P p.a=v }

A második lépés előkészítése Hány senki kevés tele Nem Igen +: 4,12 -: 2,5,9,10 E({2,4,5,9,10,12}) = = E(2/6,4/6) = 0.92 Ha a Más attribútumot választjuk, akkor a minták 1:5 arányban ketté válnak: {9} (Más= hamis), és {2, 4, 5, 10, 12} (Más=igaz), E({9}) = E(0/1, 1/1) = 0 E({2,4,5,10,12}) = E(2/5, 3/5)= 0.97 Más, Bár, P/Sz, Éhes, Ár, Eső, Fogl, Fajt, Idő Az információs előny: C({2,4,5,9,10,12}, Más)= E({2,4,5,9,10,12}) ( 1/6 E({9}) + 5/6 E({2,4,5,10,12}) ) = E(2/6,4/6) ( 1/6 E(0/1,1/1) + 5/6 E(2/5,3/5) ) = 0.92-0.81 = 0.11

A második lépés kiszámítása Más: 1/6 E(0/1,1/1)+ 5/6 E(2/5,3/5)= 0.81 Bár: 3/6 E(1/3,2/3)+ 3/6 E(1/3,2/3))= 0.92 P/Sz: 1/6 E(0/1,1/1)+ 5/6 E(2/5,3/5)= 0.81 Éhes: 4/6 E(2/4,2/4)+ 2/6 E(0/2,2/2)= 0.67 Ár: 4/6 E(2/4,2/4)+ 0/6 E(0,0)+ 2/6 E(0/2,2/2)= 0.67 Eső: 5/6 E(2/5,3/5)+ 1/6 E(0/1,1/1)= 0.81 Fog: 4/6 E(2/4,2/4)+ 2/6 E(0/2,2/2)= 0.67 Fajt: C({2,4,5,9,10,12},a)= 0.92-2/6 E(1/2,1/2)+ 1/6 E(0/1,1/1)+ 1/6 E(0/1,1/1)+ +2/6 E(1/2,1/2)= 0.67 Idő: 0/6 E(0,0 )+ 2/6 E(1/2,1/2)+2/6 E(1/2,1/2 ) + 2/6 E(0/2,2/2)= 0.67

A második lépés Hány senki kevés tele Nem Igen +: 4,12 -: 2,5,9,10 Más, Bár, P/Sz, Éhes, Hány, Ár, Eső, Fogl, Fajt, Idő Éhes Más, Bár, P/Sz, Éhes, Ár, Eső, Fogl, Fajt, Idő Más, Bár, P/Sz, Ár, Eső, Fogl, Fajt, Idő igen +: 4,12 -: 2,10 nem +: -: 5,9 Nem

Étterem probléma döntési fája Hány senki kevés tele Nem Igen Éhes igen Fajt nem Nem Fra Ol Thai Burg Igen Nem P/Sz Igen igen Igen nem Nem

Készítsünk algoritmust Egy fokozatosan épülő döntési fában vannak címkézett belső csúcsok, amelyek címkéje egy attribútum, kivezető élei az attribútum lehetséges értékei címkézett végleges levélcsúcsok, amelyek címkéje hozzájuk tartozó minták kimeneteiből számított eredmény (átlaga vagy a kimenetek többsége) címkézettlen ideiglenes levélcsúcsok, amelyek rendelkeznek a tanító minták egy P részhalmazával, és a még választható (a csúcshoz vezető út csúcsainak címkéiben még nem szereplő) A attribútumokkal.

Algoritmus Kezdetben a fa egyetlen címkézettlen csúcsból áll (ez lesz majd a gyökér), amelyhez az összes mintát és attribútumot rendeljük. Veszünk egy címkézettlen csúcsot: 1. Ha A=, akkor végleges levélcsúcsot kaptunk. 2. Ha P=, akkor végleges levélcsúcsot kaptunk, amelyhez a szülőcsúcsának mintáit rendeljük. 3. Ha P csupa azonos kimenetű mintából áll, akkor is végleges levélcsúcsnál vagyunk. 4. Egyébként...

Algoritmus (folytatás) 4. Egyébként a legnagyobb információs előnnyel járó a A attribútummal címkézzük az adott csúcsot, majd generáljuk a gyerekeit: a) Ezekhez az a lehetséges értékeivel címkézett élek vezetnek. b) Ha az a címkéjű csúcsból egy gyerekcsúcsába a v címkéjű él vezet, akkor a gyerekcsúcshoz rendelt minták: P a=v ={ p P p.a=v } választható attribútumok: A= A-{a} c) Végül minden gyerekre ismételjük meg rekurzív módon az 1-4 pontokat.

Megjegyzés Zaj: Két vagy több eltérő besorolású minta attribútum-értékei megegyeznek. Ilyenkor a minták válaszainak átlagolása félrevezethet Túlzott illeszkedés: Például a kocka dobásra annak színe és dátuma alapján értelmetlen szabályszerűségeket találunk. Megoldás a lényegtelen attribútumok (C(P,a) ~ 0) félreállítása. Általánosítások: Hiányzó adatok (attribútum értékek) problémája Sok-értékű attribútumok Folytonos értékű attribútumok

Tanulás döntési fával Egy x X bemenethez azon tanító minták kimeneteinek átlagát rendeli, amely minták az előzetesen felépített döntési fában az x-re kiszámolt levélcsúcshoz tartoznak N I(az x-re kiszámolt levélcsúcs K darab f(θ, x) = tanító mintájának egyike az x n ) y n=1 K n Itt a Θ a döntési fa, optimalizálása a fa mohó felépítése előny: jól értelmezhető (a mintákra tökéletes eredményt, a mintákhoz hasonló inputokra többnyire jó eredményt ad); a tanító minták helyett csak a döntési fát kell tárolni; x-re adott eredmény gyorsan számolható hátrány: a faépítés NP-teljes, mohó módszerrel csak lokálisan optimális

1.3. Véletlen erdő K darab döntési fát építünk fel a tanító minták alapján úgy, hogy egy-egy fa építéséhez a tanító mintáknak is, és a minták attribútumainak is csak egy-egy véletlen kiválasztott részhalmazát használjuk fel. Ez lesz a véletlen erdő. Egy véletlen erdő minden fájában külön-külön megállapíthatjuk, hogy egy tetszőleges x X bemenet a döntési fa melyik levelére képződik le. Ezen levelekhez tartozó tanító mintahalmazok kimeneteinek súlyozott átlagával becsüljük az x kimenetét.

Tanulás véletlen erdővel Egy x bemenethez tartozó kimenetet a minták kimeneteinek aszerinti súlyozott átlaga adja, hogy egy x n minta a véletlen erdő K darab döntési fájának x-re kiszámolt levélcsúcsaihoz tartozó mintahalmazok közül hányba esik bele, és az a halmaz hány elemű: I(k-adik fa x-re kiszámolt levélcsúcsához N K tartozó K k (x) darab minta egyike az x n ) f(θ, x) = y K K k (x) n n=1k=1 a Θ maga a véletlen erdő, optimalizálása az erdő felépítése előny: a tanító minták helyett csak az erdőt kell tárolni; a véletlen generálás miatt kevésbé mohó, elkerüli a túltanulást; az x-re adott eredmény számolása párhuzamosítható hátrány: az eredmény kevésbé értelmezhető; az erdő-építés NPteljes