Dinamikus adat- és szövegbányászat (alkalmazói oldalról) Kampis György - ELTE Tudományfilozófia Tanszék - Collegium Budapest gk@hps.elte.hu
I. A kontextus
A petabyte- ok kora
A petabyte- ok kora Film: The 2009 movie Avatar is reported to have taken over 1 petabyte of local storage at Weta Digital for the rendering of the 3D CGI effects.
Mindent (digitálisan) archiválni Google mail (ahol már nem lehet törölni...) YouTube, Picasa, Facebook, egyéb megosztók Virtuális obszervatóriumok : tudományos adatok az asztrofizikától az evolúcióbiológiáig Google Books Folyamatban: minden film, hang, kép... Egy házi példa: www.cmdbase.org
Google Books
Az adatok általánossá válása Mindenki határtalanul sok adatot birtokol vagy fér hozzá (A nyito_ hozzáférés ugyanakkor külön kérdés)...és egyre nő (szenzorok, tagging, self- archiving..) a data deluge (adat- özön) Egy módszertani megjegyzés: minden szöveg
Minden o_ van, de mi van o_?
II. Adat- és szövegbányászat Az adekvát válasz Információk kinyerése: mintázatok és trendek Két alapepus: strukturált és strukturálatlan információ (pl. ömleszte_ szöveg vagy hierarchikus, annotalt adatbázis eleme) A strukturálás költséges (idő, erőforrás, eljárás) Meta- adatok jelentősége (a szövegre és elemeire vonatkozóan, pl. cím és szerző, ill. köznév vagy mennyiség)
Kemény és puha alkalmazások Kemény: elemzés nem robosztus kudarc nagy költségű Pl. rendszerbiológia: fehérjefunkció- jóslás Puha: elemzés robosztus kudarc kis költségű Pl. digitális bölcsészet
Egy (kicsit pontatlan) illusztráció Középkori szövegek digitalizálása
III. Plug and Play Macroscopes Integráció Intuiev elemzés Könnyű bővíthetőség ( csomagolás révén) Adatelemzés és vizualizáció
Orange CIShell/NWB/Sci2
www.textrend.hu Együ_működő partnerek a TexTrend projektben: Universitas Press Kn. (Prof. Kampis György) MKIK GVI Kn. (Dr. Tóth István János) Glia Kn. (Dr. Bencsik Apla) ELTE (Prof. Vicsek Tamás, akadémikus) SZTAKI (Dr. Benczúr András) SZTE (Prof. Csirik János) TEXTREND: Gazdasági és kormányzar döntéshozást támogató keretrendszer létrehozása trendelemző és szövegfeldolgozó eszközökkel Verziók: A TexTrend rendszer háromféle felhasználói réteg számára különböző változatokban készül: 1. Elemző- fejlesztő (programozási szint) 2. Szakértő elemző (sémafejlesztési szint) 3. Végfelhasználó (séma alkalmazási szint) Jelenleg az 1.- 2. szint támogato_. A teljes rendszer átadásra kerül 2010 november 30.- ig. A szonver keretrendszer szolgáltatásai: Valamennyi eljárás integráltan, intuieven használható ISI adatok feldolgozása, dinamikus hálózatelemzés Hálózar jellemzők (pl. klikkek, tud. iskolák) azonosítása Teljes szöveges adathalmazok kezelése...és sok egyéb: összesen több tucat funkció, pl. UIMA, WEKA A szonver(ek) szabadon letölthető(k)
Magyar tudomány 2001-2010 MTA SOTE SZTE ELTE DTE BME PTE SZIE PANN CEU CORV COLBUD ONK ELTE PSYNEU MTA SOTE HEIM DTE SZTE BME PTE
0 5000 10000 15000 20000 25000 30000 SZTE és ELTE IDÉZÉS/PUBLIKÁCIÓ 2 4 6 8 10 MTA SOTE SZTE ELTE DE BME PTE SZIE PANN CEU CORV ONK RICHT NATHIS ME NYME KAP PSYNEU PAZM HEIM COLBUD BAY EGIS NYIR MAFI ATK OEP országos átlag PANN SZIE PTE BME ELTE DE SOTE SZTE MTA CEU 0 5000 10000 15000 PUBLIKÁCIÓK SZÁMA
www.mtmt.hu MTMT.hu
Publish or Perish
MTMT Adatbevitel
Mi hiányzik? A magyar folyóiratok feldolgozása Számos akadémiai tudományterületen kulcs Van: MATARKA katalógus, E. Periodika Ada_ár Nincs: citációk, kivonatok, tárgykategóriák
A következő lépés Magyar folyóiratok teljes digitális anyagának automarkus feldolgozása, illesztés a katalógushoz (Az anyag megvan (?), részben hozzáférhető) WOS ISI szerű rekordok létrehozása, feldolgozása Publish or Perish / Google Scholar HU Normalizált mutatók
Egyetemi rangsorok h_p://www.rmeshighereducaron.co.uk/world- university- rankings/
Felvi.hu rangsorok
Szavazás, vélemény Nagy integrátor (sok faktort összegez) Fogadásként hatékony (predicron market) Rejte_ fogadás (majority game) De: rangsornál önbeteljesító jóslat lehet
A következő lépés (?) Teljes egyetemi honlaphalmazok alapján automarkusan Page rank vagy hasonló eljárással Vagy egészen másként: letöltésszámmal (?)... Kapcsolat PoP- vel... Személyekre bontás (elvben) Vö: slágerlista és eladási lista
Mi van a könyvekben? pl. OSZK... Vagy egyéb Egyenetlen helyzet a teljes tartalom terén Olvassuk el (már most van mit)
Alkalmazások Nyelv- és fogalomtörténet, dinamikus gyakoriságok Lényegkiemelés dinamikus klaszterezéssel A ke_ő kombinációja (pl. összetartozó fogalmak evolúciója) alap: Google trends (TexTrend kb. tudja)
Google desktop? 1 könyv = 1(..5) MB, 1 GB= 1000 könyv (v. Britannica cum iconibus), 1 TB =1000 GB= 1 millió könyv
Dinamikus klaszterezés h_p://www.dynanets.org/, Downloads tab, DyA package
IV. Mire jó mindez? Mire jó mindez? Az adat hatalom - akinek adata van, mindene van. "Királyi út" - olvasás olvasás nélkül Az igazság pillanata - adat vélemény helye_. Részvételi demokrácia - intelligens város, intelligens ország Végül:Adatözön x adatözön =?
Végül... Adatözön x adatözön =?
Köszönöm a figyelmet This research was parrally supported by the Hungarian Government (Anyos Jedlik programme managed by the Naronal Office for Research and Technology: Tex- Trend project (www.textrend.org), contract no. NKFP 07 A2 (2007)TEXTREND) and the European Union s Seventh Framework Programme: DynaNets, FET- Open project no. FET- 233847 (www.dynanets.org). The supports are gratefully acknowledged.