statisztikai és nyelvi eszközökkel Témalabor 2. beszámoló Témavezet : Vámos Gábor 2009. január 9.
Mir l lesz szó? A cél: tesztelni és tanítani 1 A cél: tesztelni és tanítani Eszközök és célok Szókincs fejlesztése 2 El -gráf építése El -gráf sz rése 3 Információértékek és szócsoportok
Eszközök és célok Szókincs fejlesztése Eszközök és célok Milyen célt lehet kit zni? Mit lehet elvárni? Mik a lehetséges eszközök?
Eszközök és célok Szókincs fejlesztése Eszközök és célok Milyen célt lehet kit zni? Mit lehet elvárni? Mik a lehetséges eszközök? Eszközök: internet korpusz (rendelkezésre áll) szavak, szófajuk, ragozatlan alakjuk (például: megy/ige/menni) statisztika (szavak gyakorisága) adatbányászat (összefüggések kinyerése)
Eszközök és célok Szókincs fejlesztése Eszközök és célok Milyen célt lehet kit zni? Mit lehet elvárni? Mik a lehetséges eszközök? Eszközök: Célok: internet korpusz (rendelkezésre áll) szavak, szófajuk, ragozatlan alakjuk (például: megy/ige/menni) statisztika (szavak gyakorisága) adatbányászat (összefüggések kinyerése) alkalmazkodni a tanuló tudásszintjéhez szavak tanítása szókapcsolatok, szószerkezetek tanítása a nyelv egy lehetséges modellje: kész mondatsémák
Eszközök és célok Szókincs fejlesztése Szókincs fejlesztése Két lépésben valósul meg: szótesztel és szótanító. Ma az els t mutatom be.
Eszközök és célok Szókincs fejlesztése Szókincs fejlesztése Két lépésben valósul meg: szótesztel és szótanító. Ma az els t mutatom be. Mit kezdünk az információval, hogy az adott szót tudja-e vagy sem? ha ismeretlen megtanítani ha ismert mely szavakat ismerheti még, amiket nem kell megkérdezni?
Eszközök és célok Szókincs fejlesztése Szókincs fejlesztése Két lépésben valósul meg: szótesztel és szótanító. Ma az els t mutatom be. Mit kezdünk az információval, hogy az adott szót tudja-e vagy sem? ha ismeretlen megtanítani ha ismert mely szavakat ismerheti még, amiket nem kell megkérdezni? Ehhez kell: szavak struktúráját, kapcsolatrendszerét feltárni véletlenített kérdez eljárás, mely tudja, hogy mikor kell megállni (statisztika, hipotézisvizsgálat)
El -gráf építése El -gráf sz rése Naiv módszer: a gyakori szavak az érdekesek. Minden szóhoz kigy jtjük a gyakoriságát.
El -gráf építése El -gráf sz rése Naiv módszer: a gyakori szavak az érdekesek. Minden szóhoz kigy jtjük a gyakoriságát. De ez nem elég! aki ismer néhányat a leggyakoribb szavak közül, az feltehet leg ismeri az alapszókincset
El -gráf építése El -gráf sz rése Naiv módszer: a gyakori szavak az érdekesek. Minden szóhoz kigy jtjük a gyakoriságát. De ez nem elég! aki ismer néhányat a leggyakoribb szavak közül, az feltehet leg ismeri az alapszókincset megoldás: szócsoportok kialakítása szócsoporton belül az ismert szavak arányának megállapítása
El -gráf építése El -gráf sz rése Naiv módszer: a gyakori szavak az érdekesek. Minden szóhoz kigy jtjük a gyakoriságát. De ez nem elég! aki ismer néhányat a leggyakoribb szavak közül, az feltehet leg ismeri az alapszókincset megoldás: szócsoportok kialakítása szócsoporton belül az ismert szavak arányának megállapítása bizonyos szavak összetartoznak. Pl.: globális...
El -gráf építése El -gráf sz rése Naiv módszer: a gyakori szavak az érdekesek. Minden szóhoz kigy jtjük a gyakoriságát. De ez nem elég! aki ismer néhányat a leggyakoribb szavak közül, az feltehet leg ismeri az alapszókincset megoldás: szócsoportok kialakítása szócsoporton belül az ismert szavak arányának megállapítása bizonyos szavak összetartoznak. Pl.: globális... kéne egy gráfszerkezet súlyokkal, következési valószín ségekkel a gráf pontjai a szavak, élei a következtetések ha ismeri ezt a szót, p valószín séggel ismeri a másikat is, hiszen feltehet, hogy szövegb l tanulta is, akárcsak a gép
El -gráf építése El -gráf sz rése Naiv módszer: a gyakori szavak az érdekesek. Minden szóhoz kigy jtjük a gyakoriságát. De ez nem elég! aki ismer néhányat a leggyakoribb szavak közül, az feltehet leg ismeri az alapszókincset megoldás: szócsoportok kialakítása szócsoporton belül az ismert szavak arányának megállapítása bizonyos szavak összetartoznak. Pl.: globális... kéne egy gráfszerkezet súlyokkal, következési valószín ségekkel a gráf pontjai a szavak, élei a következtetések ha ismeri ezt a szót, p valószín séggel ismeri a másikat is, hiszen feltehet, hogy szövegb l tanulta is, akárcsak a gép Ilyen típusú szabályokat keresünk: A p B (ahol A, B egy-egy szó, p [0, 1] egy valószín ség). Példa: globális 0.6 felmelegedés.
El -gráf építése A cél: tesztelni és tanítani El -gráf építése El -gráf sz rése Az adatbázis nagy (2 GB). Egy tesztfuttatás rövid. Egy menetben feldolgozunk 1-2 véletlenszer en választott szöveget.
El -gráf építése A cél: tesztelni és tanítani El -gráf építése El -gráf sz rése Az adatbázis nagy (2 GB). Egy tesztfuttatás rövid. Egy menetben feldolgozunk 1-2 véletlenszer en választott szöveget. Feldolgozás = minden szóra (pont) és szópárra (él) eltároljuk a gyakoriságukat, vagy hozzáadjuk a meglév khöz.
El -gráf építése A cél: tesztelni és tanítani El -gráf építése El -gráf sz rése Az adatbázis nagy (2 GB). Egy tesztfuttatás rövid. Egy menetben feldolgozunk 1-2 véletlenszer en választott szöveget. Feldolgozás = minden szóra (pont) és szópárra (él) eltároljuk a gyakoriságukat, vagy hozzáadjuk a meglév khöz. Probléma: memóriakorlát. A gráf építéséhez gyors hozzáférés kéne.
El -gráf építése A cél: tesztelni és tanítani El -gráf építése El -gráf sz rése Az adatbázis nagy (2 GB). Egy tesztfuttatás rövid. Egy menetben feldolgozunk 1-2 véletlenszer en választott szöveget. Feldolgozás = minden szóra (pont) és szópárra (él) eltároljuk a gyakoriságukat, vagy hozzáadjuk a meglév khöz. Probléma: memóriakorlát. A gráf építéséhez gyors hozzáférés kéne. Megoldás: sejtekben tároljuk az adatokat (pont-sejtek és él-sejtek). fels korlát a méretre. Ha megtelik, osztódik. sejten belül a tömb rendezett, így a sejteknek egymáshoz képest is kialakul egy sorrendjük sejtkatalógus - vö. Révai Nagy Lexikonból ami a könyvespolcról látszik
El -gráf sz rése A cél: tesztelni és tanítani El -gráf építése El -gráf sz rése Hány szó, hány szópár lesz? Ha a gráfban n pont van, akkor az élek száma n 2.
El -gráf sz rése A cél: tesztelni és tanítani El -gráf építése El -gráf sz rése Hány szó, hány szópár lesz? Ha a gráfban n pont van, akkor az élek száma n 2. Végeredmény: 8 pont-sejt, 382 (!) él-sejt. Pedig minden sejt fels korláta 100 KB. Oka?
El -gráf sz rése A cél: tesztelni és tanítani El -gráf építése El -gráf sz rése Hány szó, hány szópár lesz? Ha a gráfban n pont van, akkor az élek száma n 2. Végeredmény: 8 pont-sejt, 382 (!) él-sejt. Pedig minden sejt fels korláta 100 KB. Oka? a szavak közül mindig ugyanazok a gyakoriak kerülnek el, nagy többségben, csak az számlálójukat növeltem viszont minden mondatban újabb és újabb szópárok keletkeznek, melyek az egész világon csak ebben az egy mondatban szerepelnek rengeteg szópár gyakorisága 1, ill. 2
El -gráf sz rése A cél: tesztelni és tanítani El -gráf építése El -gráf sz rése Hány szó, hány szópár lesz? Ha a gráfban n pont van, akkor az élek száma n 2. Végeredmény: 8 pont-sejt, 382 (!) él-sejt. Pedig minden sejt fels korláta 100 KB. Oka? a szavak közül mindig ugyanazok a gyakoriak kerülnek el, nagy többségben, csak az számlálójukat növeltem viszont minden mondatban újabb és újabb szópárok keletkeznek, melyek az egész világon csak ebben az egy mondatban szerepelnek rengeteg szópár gyakorisága 1, ill. 2 Ha ezeket töröljük, elférnek a memóriában. A szavak közül csak a leggyakoribbakat hagyom meg, annyit, amennyi még éppen elfér.
El -gráf építése El -gráf sz rése Mikor vezessen él egy szóból a másikba a végleges gráfban?
El -gráf építése El -gráf sz rése Mikor vezessen él egy szóból a másikba a végleges gráfban? Ha a két szó egymással összefügg. Ha függetlenek, akkor ne vezessen él, ekkor ugyanis a kapott eredmény megtéveszt lenne. (Hasonló a helyzet: adatbányászat, asszociációs szabályok.)
El -gráf építése El -gráf sz rése Mikor vezessen él egy szóból a másikba a végleges gráfban? Ha a két szó egymással összefügg. Ha függetlenek, akkor ne vezessen él, ekkor ugyanis a kapott eredmény megtéveszt lenne. (Hasonló a helyzet: adatbányászat, asszociációs szabályok.) Függetlenségvizsgálatot hajtunk végre. A és B két szót jelöl. A A B a 11 a 12 a 11 + a 12 B a 21 a 22 a 21 + a 22 a 11 + a 21 a 12 + a 22 n
El -gráf építése El -gráf sz rése Mikor vezessen él egy szóból a másikba a végleges gráfban? Ha a két szó egymással összefügg. Ha függetlenek, akkor ne vezessen él, ekkor ugyanis a kapott eredmény megtéveszt lenne. (Hasonló a helyzet: adatbányászat, asszociációs szabályok.) Függetlenségvizsgálatot hajtunk végre. A és B két szót jelöl. A A B a 11 a 12 a 11 + a 12 B a 21 a 22 a 21 + a 22 a 11 + a 21 a 12 + a 22 n Ha a kontingenciatáblázat minden eleme nagyobb tíznél, χ 2 -próbát alkalmazunk. Ha nem, binomiális próbát. Ha elvetjük a nullhipotézist (függetlenség), akkor az oda-élet és vissza-élet is behúzzuk. Az A p B él súlya: p = gyak(a,b) gyak(a).
Információértékek és szócsoportok Információértékek és szócsoportok Minden pontnak és minden élnek van egy súlya. A pontok súlya: a megfelel szó gyakorisága (hányszor fordul el ). Az élek súlya: a következési valószín ség.
Információértékek és szócsoportok Információértékek és szócsoportok Minden pontnak és minden élnek van egy súlya. A pontok súlya: a megfelel szó gyakorisága (hányszor fordul el ). Az élek súlya: a következési valószín ség. Egy pont információértéke nulladik közelítésben: a pont súlya. Els közelítésben: a pont súlya, plusz a leszármazottainak élsúlyokkal súlyozott információértékeinek összege.
Információértékek és szócsoportok Információértékek és szócsoportok Minden pontnak és minden élnek van egy súlya. A pontok súlya: a megfelel szó gyakorisága (hányszor fordul el ). Az élek súlya: a következési valószín ség. Egy pont információértéke nulladik közelítésben: a pont súlya. Els közelítésben: a pont súlya, plusz a leszármazottainak élsúlyokkal súlyozott információértékeinek összege. Azaz: ha az ábrán pirossal jelölt pontot a tanuló ismeri (mint szót), akkor a megfelel valószín ségek szerint a bel le elérhet ket is ismeri. Ha nem, akkor a piros ponttal együtt (valószín leg) a bel le elérhet ket is megtanítjuk!
Információértékek és szócsoportok Információértékek és szócsoportok Minden pontnak és minden élnek van egy súlya. A pontok súlya: a megfelel szó gyakorisága (hányszor fordul el ). Az élek súlya: a következési valószín ség. Egy pont információértéke nulladik közelítésben: a pont súlya. Els közelítésben: a pont súlya, plusz a leszármazottainak élsúlyokkal súlyozott információértékeinek összege. Azaz: ha az ábrán pirossal jelölt pontot a tanuló ismeri (mint szót), akkor a megfelel valószín ségek szerint a bel le elérhet ket is ismeri. Ha nem, akkor a piros ponttal együtt (valószín leg) a bel le elérhet ket is megtanítjuk! Az információérték a szó gyakoriságának általánosítása. A szavakat információértékük alapján sorbarakjuk, majd a kapott listát egyenletesen n szócsoportra osztjuk.
Információértékek és szócsoportok Két céllal kérdezhetünk rá egy szóra: statisztikai vagy tanítási céllal.
Információértékek és szócsoportok Két céllal kérdezhetünk rá egy szóra: statisztikai vagy tanítási céllal. statisztikai cél: megtudni egy szócsoportban az ismert szavak eloszlását. Utána vizsgáljuk azt a hipotézist, hogy szignikáns-e már a minta (hipergeometrikus eloszlás). Így kétféle szócsoport alakul ki: amiben a minta már szignikáns, és amiben még nem.
Információértékek és szócsoportok Két céllal kérdezhetünk rá egy szóra: statisztikai vagy tanítási céllal. statisztikai cél: megtudni egy szócsoportban az ismert szavak eloszlását. Utána vizsgáljuk azt a hipotézist, hogy szignikáns-e már a minta (hipergeometrikus eloszlás). Így kétféle szócsoport alakul ki: amiben a minta már szignikáns, és amiben még nem. tanítási cél: olyan szót találni, ami gyakori (nagy információérték ), de még nem ismeri a tanuló.
Információértékek és szócsoportok Két céllal kérdezhetünk rá egy szóra: statisztikai vagy tanítási céllal. statisztikai cél: megtudni egy szócsoportban az ismert szavak eloszlását. Utána vizsgáljuk azt a hipotézist, hogy szignikáns-e már a minta (hipergeometrikus eloszlás). Így kétféle szócsoport alakul ki: amiben a minta már szignikáns, és amiben még nem. tanítási cél: olyan szót találni, ami gyakori (nagy információérték ), de még nem ismeri a tanuló. Ha egy szócsoportban a minta szignikáns lett, megszorozzuk az ott található szavak információértékét az ISMERETLEN szavak arányával. Az így kapott mér szám szemléletes jelentése: ha erre a szóra rákérdezünk, mi az ezáltal megtanítható szavak várható értéke.
Információértékek és szócsoportok Két céllal kérdezhetünk rá egy szóra: statisztikai vagy tanítási céllal. statisztikai cél: megtudni egy szócsoportban az ismert szavak eloszlását. Utána vizsgáljuk azt a hipotézist, hogy szignikáns-e már a minta (hipergeometrikus eloszlás). Így kétféle szócsoport alakul ki: amiben a minta már szignikáns, és amiben még nem. tanítási cél: olyan szót találni, ami gyakori (nagy információérték ), de még nem ismeri a tanuló. Ha egy szócsoportban a minta szignikáns lett, megszorozzuk az ott található szavak információértékét az ISMERETLEN szavak arányával. Az így kapott mér szám szemléletes jelentése: ha erre a szóra rákérdezünk, mi az ezáltal megtanítható szavak várható értéke. A végleges algoritmusban a kétféle kérdéstípust váltogatjuk.
Információértékek és szócsoportok Mennyiben függ a kérdés a tanulótól? Azaz: mennyire adaptív az algoritmus?
Információértékek és szócsoportok Mennyiben függ a kérdés a tanulótól? Azaz: mennyire adaptív az algoritmus? a gráf alapján: ha egy szóról kiderül, hogy ismert, valószín leg a leszármazottai is azok
Információértékek és szócsoportok Mennyiben függ a kérdés a tanulótól? Azaz: mennyire adaptív az algoritmus? a gráf alapján: ha egy szóról kiderül, hogy ismert, valószín leg a leszármazottai is azok csökkentem az információértéküket
Információértékek és szócsoportok Mennyiben függ a kérdés a tanulótól? Azaz: mennyire adaptív az algoritmus? a gráf alapján: ha egy szóról kiderül, hogy ismert, valószín leg a leszármazottai is azok csökkentem az információértéküket a szócsoportok alapján: ha egy szócsoportról kiderül, hogy magas szinten ismert, valószín leg a meg nem kérdezett elemei is azok
Információértékek és szócsoportok Mennyiben függ a kérdés a tanulótól? Azaz: mennyire adaptív az algoritmus? a gráf alapján: ha egy szóról kiderül, hogy ismert, valószín leg a leszármazottai is azok csökkentem az információértéküket a szócsoportok alapján: ha egy szócsoportról kiderül, hogy magas szinten ismert, valószín leg a meg nem kérdezett elemei is azok súlyozódik az információérték az ISMERETLENEK relatív gyakoriságával, így csökken
Információértékek és szócsoportok Köszönöm a gyelmet! Köszönöm a gyelmet!