Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Tanulás az idegrendszerben Structure Dynamics Implementation Algorithm Computation - Function

Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha az A sejt axonja elég közel van a B sejthez, és ismétlõdõen vagy folyamatosan hozzájárul annak tüzeléséhez, akkor valamely, egyik vagy mindkét sejtre jellemzõ növekedési folyamat vagy metabolikus változás következménye az lesz, hogy az A sejt hatékonysága a B sejt tüzeléséhez való hozzájárulás szempontjából megnõ."

A tanulás problémája matematikailag Modell paramétereinek hangolása adatok alapján Kettős dinamika Változók (bemenet-kimenet leképezés) - gyors Paraméterek - lassú Memória és tanulás különbsége Memória használatánál a bemenetre egy konkrét kimenetet szeretnék kapni a reprezentáció megváltoztatása nélkül Tanulásnál minden bemenetet felhasználok arra, hogy finomítsam a reprezentációt, miközben kimenetet is generálok Alapvető cél: predikciót adni a jövőbeli történésekre a múlt alapján

A tanulás alapvető típusai Felügyelt Az adat: bemenet-kimenet párok halmaza A cél: függvényapproximáció, klasszifikáció Megerősítéses A cél: optimális stratégia a jutalom maximalizálására Nem felügyelt, reprezentációs Az adat: állapotmegfigyelések és jutalmak Az adat: bemenetek halmaza A cél: az adat optimális reprezentációjának megtalálása / magyarázó modell felírása Egymásba ágyazások

Perceptron Bináris neuron: lineáris szeparáció Két dimenzióban a szeparációs egyenes: = x 1 w1 x 2 w 2 Logikai függvények x2 = w 1 x 1 w2 w2

Tanulásra alkalmas neurális rendszerek Egyetlen sejt Előrecsatolt hálózat Rekurrens hálózat Ezen az órán: rátamodell y =f ( xw θ) Paraméterek: súlyok, küszöbök Különböző kimeneti nemlinearitások Lépcső: H (Heavyside) Szigmoid: Lineáris neuron

Error-correcting tanulási szabályok Felhasználjuk azt az információt, hogy milyen messze van a céltól a rendszer Rosenblatt-algoritmus bináris neuron m m w(t+1)=w(t )+ϵ(t y ( x )) x m Delta-szabály Folytonos kimenetű neuron gradiens-módszer E w b (t +1)=w b (t ) ϵ wb 1 N m E= m ( t y (x m ))2 2 s N E = m (t m y (x m )) x m w b s lineáris neuronra, egy pontpárra vonatkozó közelítéssel: w(t+1)=w+ϵ(t m y ( x m)) x m Minsky-paper 1969: a neurális rendszerek csak lineáris problémákat tudnak megoldani

Error-correcting tanulási szabályok Rosenblatt-algoritmus bináris neuron W1 W2 W1 W2 Θ 1 y=h(w1+w2 Θ) b y=h(w1+w2+b) Egy konstans 1 bemenet és a b=-θ (bias) bevezetésével kitranszformáljuk a küszöböt. A bias tanulása így ekvivalens egy kapcsolatsúly tanulásával.

Error-correcting tanulási szabályok Rosenblatt-algoritmus bináris neuron w w v m v u m u m Rossz W Jó W Bemenet um Elvárt kimenet: vm=0 Jó W Rossz W Bemenet um Elvárt kimenet: vm=1

Error-correcting tanulási szabályok Rosenblatt-algoritmus bináris neuron w w v m v u m u m Bemenet um Elvárt kimenet: vm=1 Bemenet um Elvárt kimenet: vm=0 Jó W Rossz W Rossz W Megoldáskúp, Konvex probléma

Multi-Layer Perceptron Nemlineáris szeparáció regresszió egyenletesen sűrű l2-ben egy rejtett réteggel A reprezentációs képességet a rejtett réteg növelésével tudjuk növelni Idegrendszerben látórendszer...

What could be represented by a simple, one layered, feed forward network called perceptron? It is able to learn many functions, but there are some exceptions such as XOR. Problem: The linearly inseparable functions are more numerous as the dimension of the problem increases.

In two dimensions the problem can be transformed: this requires a two layered network With this two layered network, all the two dimensional Boolean-functions can be learned. But in higher dimensions? The weights and the thresholds appropriate to the XOR solution:

A possible solution: increasing the embedding dimension In three dimension the XOR problem is linearly separable. As the embedding dimension increases, the fraction of linearly inseparable logical functions vanishes

Soft-max kimeneti réteg, valószínűségi eloszlások reprezentációjára A logisztikus függvény 0 és 1 közé képzi le az aktivációt: 1 y =f ( z)= z (1+e ) A softmax réteg a logisztikus függvény általánosítása több változóra: pi = y i = e zi T e zi T yi = y i (1 y i) zi Nem lokális, a kimenet a softmax réteg Minden neuronjának bemenetétől függ, nem csak az adott neuronétól. T: hőmérséklet paraméter T->inf: egyenletes eloszlást ad T->0: konvergál a Max függvényhez A deriváltja szépen viselkedik és lokális, Mint a logisztikus függvény esetében

Error backpropagation Bemenet/aktiváció: z Elvárt kimenet: tn Aktuális kimenet: y A hibafüggvény parciális deriváltjai: Mivel gradiens-módszer, a hibafüggvény lokális minimumába fog konvergálni. z=xw +b 1 y =f ( z)= (1+e z) E E y z = w bi y z w bi E n =t y ( x) y dy = y (1 y ) dz z =x i w i w i (t +1)=wi (t )+( y t n) y (1 y ) xi δ j= y j (1 y j ) w jq δq

Lassú konvergencia a korrelált változók mentén Probléma: Erősen korrelált változók esetén a gradiens gyakran/általában majdnem merőleges a minimum valódi irányára. Lehetséges megoldások: Momentum módszer, Hessian mátrix Hessian mentes optimalizátor Konjugált Grádiensek Adaptív lépésköz

Rekurrens Hálózatok Lehetséges tanítási technikák Hiba visszaterjesztés az időben Echo state network Long short term memory

Hebb's rule When an axon of cell A is near enough to excite cell B, and repeatedly or consistently takes part in firing it, some growth process or metabolic change takes part in one or both cells such that A's efficiency, as one of cell firing B, is increased" (Hebb, The Organization of Behavior, 1949)

Hebb's rule in an experiment at population level LTP long term potentation LTD long term depression

Idegrendszeri plaszticitás A plaszticitás helye: szinapszisok, posztszinaptikus sejtek tüzelési küszöbei (excitabilitás) Potenciáció, depresszió STP: kalciumdinamika, transzmitterkimerülés tartam < 1 perc LTP: génexpresszió (induction, expression, maintenance), NMDA magnézium-blokkja tartam > 1 perc Korreláció a molekuláris és pszichológiai szint között

Rate-based and spike-time dependent learning rules

A Hebb-szabály Timing-dependent plasticity: Ha a posztszinaptikus neuron nagy frekvenciával közvetlenül a preszinaptikus után tüzel, akkor erősödik a kapcsolat Az alacsony frekvenciájú tüzelés gyengíti a kapcsolatot Sok más lehetőség A Hebb-szabály formalizációja: lineáris ráta-modellben dw w =v u dt

Stabilizált Hebb-szabályok Problémák a Hebb szabállyal: csak nőni tudnak a súlyok Nincs kompetíció a szinapszisok között inputszelektivitás nem megvalósítható Egyszerű megoldás: felső korlát a súlyokra BCM: a posztszinaptikus excitabilitás felhasználása a stabilizásra dw w =v u v u dt d u =v 2 u dt Szinaptikus normalizáció Szubsztraktív normalizáció w v 1 u 1 dw =v u dt Nu Globális szabály, de generál egyes megfigyelt mintázatokat (Ocular dominance) Oja-szabály w dw 2 =v u v u dt Lokális szabály, de nem generálja a megfigyelt mintázatokat

Principal component analysis

Principal component network, derivation of Oja's rule:

The Oja-rule and the pricipal component analysis y output x input w weight matrix y=wtx=xtw Δw=α(xy y2w) Oja's rule Substituting y: Δw=α(xxTw wtxxtww) Assuming mean(x)=0 & averaging over the input => xxt = C The convergence point: Δw=0 Cw wtcww=0 This is an eigenvector equation! E modification for Indenpendent Component analysis wtcw Δw=α(xy3 w) is scalar! If C=1

Independent component analysis (ICA)

The somatosensory map

Kohonen's self organizing map Winner take all

Kohonen's self organizing map Generates feature maps Captures the structure in the inputs

Asszociatív memória Heteroasszociatív Autoasszociatív pl. hely-objektum Töredékes jelből az eredetit Különbség a számítógép memóriája és az AM között: címzés módja Kapacitás: hány mintát tudunk eltárolni úgy, hogy azok visszahívhatók legyenek (többféle definíció) Stabilitás: minden mintára a legközelebbi tárolt mintát szeretnénk visszakapni

Attraktorhálózatok Attraktorok típusai Pont Periodikus Kaotikus Vonzási tartományok Realizáció: rekurrens neurális hálózatok Attraktorok tárolása: szinaptikus súlyokon Offline tanulás Online tanulás One-shot learning Előhívás: konvergencia tetszőleges pontból egy fix pontba

W. J. Freeman

Hopfield-hálózat Asszociatív memória Bináris MCP-neuronok Minták tárolása: bináris vektorok Szimmetrikus súlymátrix Offline learning tanulandó minták: 1 N {s s } x t 1 Dale's law: egy sejt nem lehet egyszerre serkentő és gátló ezt most megsértjük Rekurrens (dominánsan) hálózatok az agyban: hippokampusz CA3 régió,... 1 W ij = N t =sgn W x N n x n n si s j t +1 k Hebbi szabály K =sgn( i W ik x i θ k ) Léptetési szabályok: szinkron és szekvenciális t

A HN dinamikája Nemlineáris rendszerek stabilitás-analízise: Lyapunov-függvény segítségével definiáljuk az állapotokhoz rendelhető energiát. Ha a függvény: Korlátos Belátható, hogy a léptetési dinamika mindig csökkenti (növeli) Akkor a rendszer minden bemenetre stabil fix pontba konvergál. Hopfield-hálózat Lyapunov-függvénye: 1 T E = x W x x 2 Attraktorok az eltárolt mintáknál, de más helyeken is A HN használható kvadratikus alakra hozható problémák optimalizációjára is

A HN kapacitása Információelméleti kapacitás A tárolandó mintákat tekintsük Bernoulli-eloszlású változók halmazának P s ni =1 =P s in=0 =0.5 Követeljük meg az egy valószínűségű konvergenciát a a lim n P s =sgn Ws =1 a=1 M Ekkor (sok közelítő lépéssel) megmutatható, hogy N 2 log 2 N Összehasonlítás a CA3-mal M Kb. 200000 sejt, kb. 6000 minta tárolható Más becslések figyelembevéve a minták ritkaságát P s ni =1 = M N 1 1 log 2

Boltzmann-gép Eloszlások reprezentációja mennyiségek közti statisztikai összefüggések Sztochasztikus állapotátmenet I =Wu Mv P v t 1 a 1 =1 = I 1 e a A hálózat határeloszlása Energia: 1 T T E v = v Wu v Mv 2 Boltzmann-eloszlás: e E v P v = E v e v

Tanulás Boltzmann-géppel Felügyelt tanulás, csak W-re, M analóg Hiba: Kullback-Leibler-divergencia a közelítendő és a megvalósított eloszlás között nem függ W-től P v u D KL [ P v u, P v u, W ]= v P v u ln P v u, W a P v u -val súlyozott kimeneti összegzés helyett bemeneteke vett átlag: D KL = 1 m m ln P v u, W K Ns Gradient descent egyetlen bemenetre ln P v m u m, W =v mi u mj v P v um, W v i u mj W ij Delta-szabály az összes lehetséges kimenetre való átlagot az aktuális értékkel közelítjük W ij W ij w v mi u mj v i um u mj Két fázis: a Boltzmann-eloszlásból hebbi Nem felügyelt D KL [ P u, P u, W ] anti-hebbi

Tanulás Boltzmann-géppel Felügyelt tanulás, csak W-re, M analóg Hiba: Kullback-Leibler-divergencia a közelítendő és a megvalósított eloszlás között nem függ W-től P v u D KL [ P v u, P v u, W ]= v P v u ln P v u, W a P v u -val súlyozott kimeneti összegzés helyett bemeneteke vett átlag: D KL = 1 m m ln P v u, W K Ns Gradient descent egyetlen bemenetre ln P v m u m, W =v mi u mj v P v um, W v i u mj W ij a Boltzmann-eloszlásból Delta-szabály az összes lehetséges kimenetre való átlagot az aktuális értékkel közelítjük W ij W ij w v mi u mj v i um u mj Két fázis: hebbi anti-hebbi

Tanulás Boltzmann-géppel Felügyelt tanulás, csak W-re, M analóg Hiba: Kullback-Leibler-divergencia a közelítendő és a megvalósított eloszlás között nem függ W-től P v u D KL [ P v u, P v u, W ]= v P v u ln P v u, W a P v u -val súlyozott kimeneti összegzés helyett bemeneteke vett átlag: D KL = 1 m m ln P v u, W K Ns Gradient descent egyetlen bemenetre ln P v m u m, W =v mi u mj v P v um, W v i u mj W ij Delta-szabály az összes lehetséges kimenetre való átlagot az aktuális értékkel közelítjük W ij W ij w v mi u mj v i um u mj Két fázis: a Boltzmann-eloszlásból hebbi Nem felügyelt D KL [ P u, P u, W ] anti-hebbi

Megerősítéses tanulás Állapottér: a szenzorikus (vagy egyéb bemeneti) változók lehetséges értékeinek kombinációjából előálló halmaz Jutalomszignál: bizonyos állapotokban kapunk információt a cselekvésünk sikerességéről Cselekvés: a tanuló megvalósít egy állapotátmenetet (legalábbis megpróbálja) Cél: a jutalom hosszú távú maximalizálása Értékfüggvény: az egyes állapotokhoz rendelt hasznosság Értékfüggvény reprezentációja: Táblázattal (machine learningben) Általános függvényapproximátorral pl. előrecsatolt neurális hálózat Beágyazhatunk egy felügyelt rendszert a megerősítésesbe a háló tanítására

Temporal difference learning Prediction error felhasználása a tanuláshoz Az állapotérték frissítése neurális reprezentációban: w w t u t t = r t v t A prediction error kiszámítása A teljes jövőbeli jutalom kellene hozzá Egylépéses lokális közelítést alkalmazunk r t v t r t v t 1 Ha a környezet megfigyelhető, akkor az optimális stratégiához konvergál A hibát visszaterjeszthetjük a korábbi állapotokra is (hasonlóan a backpropagation algoritmushoz) Akciókiválasztás: exploration vs. exploitation

TD tanulás neurális hálózattal Gerald Tesauro: TD-Gammon Bemenet: a lehetséges lépések nyomán elért állapotok Kimenet: állapotérték (nyerési valószínűség) Minden lépésben meg kell határozni a hálózat kimeneti hibáját Előrecsatolt hálózat Reward signal alapján Eredmény: a legjobb emberi játékosokkal összemérhető

The effect of reward in dopaminerg cell of basal ganglia An interpretation: Dopamine cells signals the difference between the expected and received reward.

Problémák tanulórendszerekben Bias-variance dilemma Strukturális hiba: a modell optimális paraméterekkel is eltérhet a közelítő függvénytől (pl lineáris modellt illesztünk köbös adatra) Közelítési hiba: a paraméterek pontos hangolásához végtelen tanítópontra lehet szükség Pontosság vs. általánosítás A sokparaméteres modellek jól illeszkednek, de rosszul általánosítanak: túlillesztés A magyarázó képességük is kisebb (lehet): Ockham borotvája