Optimalitáselmélet formális megközelítésben

Optimalitáselmélet formális megközelítésben 7. hét (2015. 04. 17.) Biró Tamás BBN-ENY-450SZ:F3, BMA-ENYD-321:F3, P/NY/ENY-10::F3, P/NY/ANY-8.02 biro.tamas@btk.elte.hu http://birot.web.elte.hu/courses/2015-formot/ Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 1

Feladott cikkek Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 2

Feladott cikkek Bruce Tesar, Jane Grimshaw and Alan Prince (1999). Linguistic and cognitive explanation in Optimality Theory. In Ernest Lepore and Zenon Pylyshyn (eds.): What is Cognitive Science? 295326. Malden, MA: Blackwell. http://ruccs.rutgers.edu/~prince/hold/introot.pdf Prince, Alan, and Paul Smolensky (1997). Optimality: From neural networks to universal grammar. Science 275: 1604-1610. Újra kiadva: Paul Smolensky and Géraldine Legendre (eds.): The Harmonic Mind: From Neural Computation to Optimality-Theoretic Grammar (Vol. 1: Cognitive architecture). MIT Press, 2006, chapter 4. Tamás Biró: Elephants and Optimality Again: SA-OT accounts for pronoun resolution in child language. In: B. Plank et al. (eds.). Computational Linguistics in the Netherlands 2009. LOT, 2009, pp. 9-24. Ki vállal prezentációt? Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 3

Variáció az OT-ben (ism. és kieg.) Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 4

Részbenrendezett konsztréntek R részbenrendezés U -n, ha teljesül minden a, b, c U -ra a reexivitás: ara, az antiszimmetria: ha arb és bra, akkor a = a, és a tranzitivitás: ha arb és brc, akkor arc. R teljes rendezés (a.k.a., lineáris rendezés, rendezés) U -n, ha R (reexív, antiszimmetrikus és tranzitív) részbenrendezés, és minden a, b U -ra, arb vagy bra. (Trichotómia az irreexív, aszimmetrikus értelemben vett rendezésre: minden a, b U -ra, az arb, bra és a = b állítások közül pontosan egy teljesül). Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 5

Részbenrendezett konsztréntek Anttila Nagy és Reynolds Példa: C 1 C 2, C 3, C 4 C 5 C 1 { C 2 C 3 C 4 }, Cf C 5 6 különböz teljes rendezéssé nomítható 4 különböz teljes rendezéssé nomítható C 1 C 1 C 2 C 2 C 3 C 4 C 3 C 4 C f C 5 C 5 Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 6

Sztochasztikus OT, sztochasztikus HG (Boersma) (ism.) Nyelvtan = constraint ranking = az r i vagy w i értékek rendszere. Minden egyes EVAL-alkalmazás során (at evaluation time): minden C i konsztrénthez: r i = r i + ɛ i, ahol az ɛ i zaj értékek valamely (például egyenletes vagy normális) valószín ségi eloszlás(ok)ból származnak. Sztochasztikus OT: a konsztrénteket az r i selection point értékek szerint rendezzük, és ezen pillanatnyi hierarchia választja ki az optimális jelölt(ek)et. Sztochasztikus HG: az r i -kb l számítjuk a w i súlyokat, H(x) = w i C i(x). Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 7

OT mainstream és variánsok (ism.) Az optimális jelölt a grammatikus alak. 1. Több optimális alak is létezik. 2. A második, harmadik... alakok is megjelenhetnek a felszínen (Coetzee). 3. Lokális optimumok a felszínen (Biró; harmónikus szerializmus). 4. Minden alak megjelenhet a felszínen, a harmóniájuk függvényében (Maximum Entrópia = MaxEnt OT). (e = 2.7182...) P (x u) = e H(x) Z(u) = e [ ni=1 w i C i (x)] y Gen(u) e [ n i=1 w i C i (y)] Sharon Goldwater and Mark Johnson. Learning OT constraint rankings using a maximum entropy model. Proceedings of the Stockholm workshop on variation within Optimality Theory. 2003, pp. 111-120. Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 8

Az OT és a HG viszonya (ismétl.) Kumulativitás: alacsonyabbra rendezett sértések összeadódnak, és súlyosabbak, mint egy magasabbra rendezett sértés. Két fajtája: Counting cumulativity: alacsonyabbra rendezett constraint többszörös sértése. Ganging-up cumulativity: két alacsonyabb constraint sértése összeadódik. C 2 C 1 H w = 2 1 HG x 1! 0 2 OT y 0 3 3 C 3 C 2 C 1 H w = 4 3 2 HG x 1! 0 0 4 OT y 0 1 1 5 Standard OT-ben egyik sincs. HG-ban mindkett lehetséges. Boersma-féle sztochasztikus OT: ganging-up van, counting nincs. V.ö. Jäger, G., & Rosenbach, A. (2006). The winner takes it allalmost: Cumulativity in grammatical variation. Linguistics, 44(5), 937-971. Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 9

Kumulativitás sztochasztikus modellekben Milyen valószín séget tulajdonít egy modell két jelöltnek, két kompetícióban? Pontosabb deníciók: ld. Jäger és Rosenbach cikkét. NB: w 2 > w 1 > 0. Counting cumulativity, ha lehetséges, hogy P (x) > P (x ). /A/ C 2 C 1 H probab. x 0 1 w 1 P (x) y 1 0 w 2 P (y) /B/ C 2 C 1 H probab. x' 0 2 2w 1 P (x ) y' 1 0 w 2 P (y ) Standard determinisztikus OT: nem lehetséges, P (x) = P (x ) = 1. Standard determinisztikus HG: lehetséges, ha pl. w 1 = 1 és w 2 = 1.5 (ha w 1 < w 2 < 2w 1 ), mert P (x) = 1 (nyer), de P (x ) = 0 (veszít). Sztochasztikus OT : nem lehetséges, mert P (x) = P (x ) = 1 az átrendezés valószín sége, ami a két konsztrént zajának átfedését l függ, és nem függ a sértések számától. MaxEntrópia OT : mindig, mert exp( w 1 ) exp( w 1 )+exp( w 2 ) > exp( 2w 1 ) exp( 2w 1 )+exp( w 2 ). Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 10

Kumulativitás sztochasztikus modellekben Milyen valószín séget tulajdonít egy modell két jelöltnek, két kompetícióban? Pontosabb deníciók: ld. Jäger és Rosenbach cikkét. NB: w 3 > w 2 > w 1 > 0. Ganging-up cumulativity, ha lehetséges, hogy P (x) > P (x ). /A/ C 3 C 2 C 1 H probab. x 0 1 0 w 2 P (x) y 1 0 0 w 3 P (y) /B/ C 3 C 2 C 1 H probab. x' 0 1 1 w 1 +w 2 P (x ) y' 1 0 0 w 3 P (y ) Standard determinisztikus OT: nem lehetséges, P (x) = P (x ) = 1. Standard determinisztikus HG: lehetséges, ha w 2 < w 3 < w 1 + w 2 (pl. w 1 = 2, w 2 = 3, w 3 = 4), és P (x) = 1 (nyer), de P (x ) = 0 (veszít). Sztochasztikus OT : lehetséges, ha a C 1 C 3 C 2 átrendezés nem nulla valószín séggel el fordul! Minden más permutáció esetén azonos a két kompetíció eredménye. MaxEntrópia OT : mindig, exp( w 2 ) exp( w 2 )+exp( w 3 ) > exp( (w 1 +w 2 )) exp( (w 1 +w 2 ))+exp( w 3 ). Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 11

OT-változatok jóslatai a variánsok frekvenciáira Adott u mögöttes alakhoz/bemenethez: Determinisztikus nyelvtan: egyetlen felszíni alak/kimenet tartozik (az u-hoz tartozó kimenet, SF(u) S, a lehetséges kimenetek halmaza). Variációs nyelvtan: felszíni alakok/kimenetek (kis) halmaza tartozik (az u-hoz tartozó grammatikus kimenetek halmaza, SF(u) S). Sztochasztikus nyelvtan: felszíni alakokok/kimenetek egy valószín ségi eloszlása tartozik (0 SF(u)[x] 1 és x S SF(u)[x] = 1). Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 12

OT-változatok jóslatai a variánsok frekvenciáira Coetzee: a kevésbé harmónikus jelölt ritkább, de kvantitatív jóslatot nem tud, és nem is akar tenni. Anttila, valamint Nagy & Reynolds: t.f.h. a részbenrendezés n különböz teljes rendezéssé nomítható. Ha egyáltalán akarunk kvantitatív jóslatot tenni, feltételezzük, hogy mindegyik nomítás egyenl valószín ség. A k különböz teljes rendezés mellett gy ztes jelölt gyakoriságára tett predikció: k/n. Anttila predikciója: kvantitatív gyakorisági adatok k/m! alakúak. Boersma: nomhangolható. Nem lehet bármi, ha feltételezzük, hogy minden konsztrént zaja azonos eloszlásból származik. Például a grammatikus alak frekvenciája nagyobb a többi alakénál. Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 13

Implementing Optimality Theory Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 14

OT és a kognitív folyamatok leírási szintjei 1. Komputációs szint: az adott kognitív képesség, a folyamat (mint függvény, vagy mint komputációs feladat), amelyet az adott kognitív rendszer képes elvégezni. 2. Algoritmikus szint: (a) a reprezentációk (adatstruktúrák), (b) az azokon végzett m veletek, és (c) ezen m veletek sorozata, mint algoritmus vagy architektúra. 3. Fizikai szint: az algoritmus implementációja valamely hardveren (vagy wetware-ben). 1. Komputációs szint: a nyelv, mint kognitív képesség, egy függvény: az u bemenethez (pl. mögöttes alakhoz) hozzárendeli SF(u) = arg opt c Gen(u) H(c) kimenetet (felszíni alakot). 2. Algoritmikus szint: eljárás, amely (jól-rosszul; determinisztikusan vagy sztochasztikusan) kiszámítja u-hoz, Gen-hez, H-hoz, stb. SF(u)-t. 3. Fizikai szint: az optimalizáció implementációja hardveren. Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 15

Implementations of Optimality Theory How to nd the most harmonic element of Gen(u)? Exhaustive search Finite state representations Dynamic programming / chart parsing Genetic algorithms Simulated annealing ICS: Integrated Connectionist/Symbolic Cognitive Architecture Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 16

Errors of the mental computation static knowledge processing in the brain Optimality Theory Simulated Annealing for OT Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 17

Errors of the mental computation Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 18

Basic idea of Simulated Annealing Step 1 introducing landscape: Horizontal: universal neighbourhood structure (a.k.a. topology) on the universal candidate set. Vertical: grammar-dependent harmony (violation prole of the constraints). Random walk in this landscape. Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 19

Basic idea of Simulated Annealing Step 2 walking in this landscape: Pick a random neighbour of your position. If neighbour is more optimal: move. If less optimal: move in the beginning, don't move later. (Exponential expression applied to vector-valued target function.) Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 20

Basic idea of Simulated Annealing Step 3 performing a random walk on this landscape: Start random walk from some initial position. End position returned as output of algorithm: form produced Hopefully, global optimum (grammatical form) found. Yet, Neighbourhood structure local optima, where random walker can get stuck. Performance errors. Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 21

Basic idea of Simulated Annealing Step 4 Precision of the algorithm Precision of the algorithm: chance of ending up in global optimum, and hence returning grammatical form. Precision of the algorithm depends on its speed. Trade precision for speed just like human mind! Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 22

Basic idea of Simulated Annealing Level its product its model the product in the model Competence in narrow standard globally sense: static knowledge grammatical form OT optimal of the language grammar candidate Dynamic language acceptable or SA-OT local production process attested forms algorithm optima Performance in its acoustic (phonetics, outmost sense signal, etc. pragmatics)?? Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 23

How to nd optimum: Gradient Descent 1 w := w_init ; Repeat w':= best element of set Neighbours(w); Delta := E(w') - E(w) ; if Delta < 0 then w := w' ; else do nothing end-if Until stopping condition = true Return w # w is an approximation to the optimal solution Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 24

How to nd optimum: Gradient Descent 2 w := w_init ; Repeat Randomly select w' from the set Neighbours(w); Delta := E(w') - E(w) ; if Delta < 0 then w := w' ; else do nothing end-if Until stopping condition = true Return w # w is an approximation to the optimal solution Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 25

The Simulated Annealing Algorithm w := w_init ; t := t_max ; Repeat Randomly select w' from the set Neighbours(w); Delta := E(w') - E(w) ; if Delta < 0 then w := w' ; else generate random r uniformly in range (0,1) ; if r < exp(-delta / t) then w := w' ; end-if t := alpha(t) Until stopping condition = true # decrease t Return w # w is an approximation to the optimal solution Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 26

Deterministic Gradient Descent for OT McCarthy (2006): persistent OT (harmonic serialism, cf. Black 1993, McCarthy 2000, Norton 2003). Based on a remark by Prince and Smolensky (1993/2004) on a restraint of analysis as opposed to freedom of analysis. Restricted Gen Eval Gen Eval... (n times). Gradual progress toward (locally) max. harmony. Employed to simulate traditional derivations, opacity. Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 27

Sim. annealing with non-real valued target function Exponential weights if upper bound on C i (w) violation levels: E(w) = C N (w) q N +C N 1 (w) q N 1 +...+C 1 (w) q+c 0 (w) Polynomials: E(w)[q] = C N (w) q N +C N 1 (w) q N 1 +...+C 1 (w) q+c 0 (w) Ordinal weights: E(w) = ω N C N (w) +... + ωc 1 (w) + C 0 (w) Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 28

Sim. annealing with non-real valued target function Transition probability if w worse than w: what is e E(w ) E(w) t? Polynomials: T [q] = K T, t [q] = t q K T P (w w ) E(w )[q] E(w)[q] T [q] = lim q + e T [q] Ordinals: move i the generated r [0, 1] is s.t. α N + : r α > 2 q ( ( E(w ),E(w) ) α,t ) Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 29

Domains for temperature and constraints Temperature: T = K T, t Z R + (or Z R + ). Constraints associated with domains of K T : C 0 C 1 C 2... K = 1 K = 0 K = 1 K = 2...... 0.5 1.0 1.5 2.0 2.5... 0.5 1.0 1.5 2.0 2.5... 0.5 1.0 1.5 2.0 2.5... 0.5 1.0 1.5 2.0 2.5 Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 30

Rules of moving Rules of moving from w to w at temperature T = K T, t : If w is better than w: move! P (w w T ) = 1 If w loses due to fatal constraint C k : If k > K T : don't move! P (w w T ) = 0 If k < K T : move! P (w w T ) = 1 If k = K T : move with probability P = e (C k(w ) C k (w))/t Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 31

The SA-OT algorithm w := w_init ; for K = K_max to K_min step K_step for t = t_max to t_min step t_step CHOOSE random w' in neighbourhood(w) ; COMPARE w' to w: C := fatal constraint d := C(w') - C(w); if d <= 0 then w := w'; else w := w' with probability P(C,d;K,t) = 1, if C < K = exp(-d/t), if C = K = 0, if C > K end-for end-for return w Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 32

SA-OT as a model of linguistic performance Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 33

Proposal: three levels Level its product its model the product in the model Competence in narrow standard globally sense: static knowledge grammatical form OT optimal of the language grammar candidate Dynamic language acceptable or SA-OT local production process attested forms algorithm optima Performance in its acoustic (phonetics, outmost sense signal, etc. pragmatics)?? Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 34

The art of using Simulated Annealing Optimality Theory Take a traditional OT model Add convincing neighbourhood structure to candidate set Local (non-global) optima = alternation forms Run simulation (e.g., http://www.let.rug.nl/~birot/sa-ot): Slowly: likely to return only the grammatical form Quickly: likely to return local (non-global) optima Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 35

Parameters of the algorithm t step (and t max, t min ) K max (and K min ) K step w 0 (inital candidate) Topology (neighbourhood structure) Constraint hierarchy Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 36

How to make the topology convincing? A connected (weighted) graph; universal;... Observation-driven strategies: Many phenomena in many languages or even better: cross-linguistic typologies Based on existing theories based on cross-linguistic observations (cf. Hayes's metrical stress theory) Theory-driven strategies: Principles (e.g. minimal set of basic transformations) Psycholinguistically relevant notions of similarity, etc. Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 37

Example: Fast speech: Dutch metrical stress fo.to.toe.stel uit.ge.ve.rij stu.die.toe.la.ge per.fec.tio.nist camera' `publisher' study grant' `perfectionist' susu ssus susuu usus fó.to.tòe.stel ùit.gè.ve.ríj stú.die.tòe.la.ge per.fèc.tio.níst fast: 0.82 fast: 0.65 / 0.67 fast: 0.55 / 0.38 fast: 0.49 / 0.13 slow: 1.00 slow: 0.97 / 0.96 slow: 0.96 / 0.81 slow: 0.91 / 0.20 fó.to.toe.stèl ùit.ge.ve.ríj stú.die.toe.là.ge pèr.fec.tio.níst fast: 0.18 fast: 0.35 / 0.33 fast: 0.45 / 0.62 fast: 0.39 / 0.87 slow: 0.00 slow: 0.03 / 0.04 slow: 0.04 / 0.19 slow: 0.07 / 0.80 Simulated / observed (Schreuder) frequencies. In the simulations, T step = 3 used for fast speech and T step = 0.1 for slow speech. Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 38

Example: Irregularities Local optimum that is not avoidable. Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 39

Example: string-grammar Candidates: {0, 1,..., P 1} L E.g. (L = P = 4): 0000, 0001, 0120, 0123,... 3333. Neighbourhood structure: w and w neighbours i one basic step transforms w to w. Basic step: change exactly one character ±1, mod P (cyclicity). Each neighbour with equal probability. Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 40

Example: string-grammar Markedness Constraints (w = w 0 w 1...w L 1, 0 n < P ): No-n: *n(w) := L 1 i=0 (w i = n) No-initial-n: *Initialn(w) := (w 0 = n) No-nal-n: *Finaln(w) := (w L 1 = n) Assimilation Assim(w) := L 2 i=0 (w i w i+1 ) Dissimilation Dissim(w) := L 2 i=0 (w i = w i+1 ) Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 41

Example: string-grammar Faithfulness to UR σ: Faith σ (w) = L 1 i=0 d(σ i, w i ) where d(a, b) = min( a b, b a ) (binary square, feature-combination?) Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 42

Example: string-grammar L = P = 4, T max = 3, T min = 0, K step = 1. Each of the 256 candidates used 4 times as w 0. Grammar: *0 Assim Faithf σ=0000 *Init1 *Init0 *Init2 *Init3 *Fin0 *Fin1 *Fin2 *Fin3 *3 *2 *1 Dissim Globally optimal form: 3333 Many other local optima, e.g.: 1111, 2222, 3311, 1333, etc. Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 43

Example: string-grammar Output frequencies for dierent T step values: output 0.0003 0.001 0.003 0.01 0.03 0.1 1111 0.40 0.40 0.36 0.35 0.32 0.24 3333 0.39 0.39 0.41 0.36 0.34 0.21 2222 0.14 0.14 0.15 0.18 0.19 0.17 3311 0.04 0.04 0.04 0.05 0.06 0.05 1133 0.03 0.04 0.04 0.04 0.05 0.04 others 0.04 0.29 Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 44

What does SA-OT oer to standard OT? A new approach to account for variation: Non-optimal candidates also produced (cf. Coetzee); As opposed to: more candidates with same violation prole; more hierarchies in a grammar. A topology (neighbourhood structure) on the candidate set. Additional ranking arguments (cf. McCarthy 2006) learning algorithms (in progress). Arguments for including losers (never winning candidates). Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 45

The dis-harmonic mind? ICS (Integrated Connectionist/Symbolic Cognitive Architecture): [T]here is no symbolic algorithm whose internal structure can predict the time and the accuracy of processing; this can only be done with connectionist algorithms (Smolensky and Legendre (2006): The Harmonic Mind, vol. 1, p. 91). SA-OT: symbolic computation only predicts tme and accuracy of processing Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 46

Summary of SA-OT Implementing OT: lang. technology? cognitively plausible? A model of variation / performance phenomena. Errare humanum est : heuristics in cognitive science. Time and accuracy with a symbolic-only architecture. Much work needed: learnability, linguistic examples, etc. Demo at http://www.let.rug.nl/~birot/sa-ot. Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 47

Jöv hétre: Ki vállal prezentációt? Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 48

Viszlát jöv pénteken! Biró Tamás, ELTE, Optimalitáselmélet formális megközelítésben p. 49