Dinamikus adat- és szövegbányászat (alkalmazói oldalról)



Hasonló dokumentumok
KAMPIS GYÖRGY: A magyar tudományos teljesítmény jellege, regionális szerkezete és dinamikája

KAMPIS GYÖRGY 1,4 SOÓS SÁNDOR 2 GULYÁS LÁSZLÓ 1,3 : A magyar tudomány szerveződése és teljesítményei

KAMPIS GYÖRGY: Látni és látva lenni a társadalomtudományban bibliometria és publikációs stratégia

Közlemények feltöltése az MTMT-be. ELTE Egyetemi Könyvtár Mátyás Melinda, Szabó Panna november 6.;

Adatbázisok 2018-ban ADT- ARCANUM DIGITÁLIS TUDOMÁNYTÁR AKADÉMIAI KIADÓ FOLYÓIRATAI AKADÉMIAI KIADÓ MERSZ ADATBÁZIS AKADÉMIAI KIADÓ SZÓTÁRAI CAMBRIDGE

A magyar doktori iskolák nemzetköziesedésének vizsgálata. Dr. Kovács Laura Tempus Közalapítvány június 5.

Az Eszterházy Károly Egyetem Könyvtári szolgáltatásai szeptember 17. Gál Tibor Tittel Pál Könyvtár

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

Oktatói önéletrajz Bozóki Sándor

Üzleti lehetőségek a nyílt forráskódú fejlesztésben

Oktatói önéletrajz Bozóki Sándor

Tartalom. Google szolgáltatásai. Googol Google. Története. Hogyan működik? Titka

Pécsi Tudományegyetem

Az egyetemi nyílt hozzáférésű publikációk és kiadói tevékenység tudománymetriai vizsgálata

A JGrid rendszer biztonsági architektúrája. Magyaródi Márk Juhász Zoltán Veszprémi Egyetem

Oktatói önéletrajz Dr. Szabó Zoltán

Worldwide LHC Computing Grid

Új fejlesztések, együttműködések a Magyar Elektronikus Könyvtárban, 2011-ben

TANANYAGTÁRHÁZAK SZEREPE AZ ELEARNINGBEN. Vágvölgyi Csaba - Papp Gyula. Kölcsey Ferenc Református Tanítóképző Főiskola Debrecen

Mezőgazdasági külső információs rendszerek fejlesztése

Az Eszterházy Károly Egyetem könyvtárai szeptember 22.

EISZ Programtanács ülés június 22.

Az ERC-pályázatok eddigi magyar eredményei

KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems

A Jövő Internet Nemzeti Kutatási Program és eredményei

A pályakövetés tudománymetriai módszerei. Soós Sándor MTA KIK Tudománypolitikai és Tudományelemzési Osztály

A Humanus adatbázis a Magyar Tudományos Művek Tára human-reál egyensúlyának

Az információs portáloktól a tudásportálokig

MKE 44. Vándorgyűlés Győr,

Scanners. Info. Buyer. Version changes Contract award. Description. Original text:

Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS)

Rejtett tartalmak nyomában

A pozicionális elit összetétele digitalizált választási jegyzőkönyvekben

Tudományos láthatóság vizsgálata a gazdálkodás- és szervezéstudományok területén

Pedagógiai információforrások, adatbázisok. Tittel Pál Könyvtár és Médiacentrum Gál Tibor március 4.

Fekete Csaba Csongor Üzleti intelligencia vezető Citibank ZRt.

KIEMELT PROJEKT ÚTMUTATÓ a Társadalmi Megújulás Operatív Program

JOURNAL CITATION REPORTS Tóth Szász Enikő Customer Education Specialist

NYÍLT HOZZÁFÉRÉS ÉS INTÉZMÉNYI

Az InCites használata az intézményi produktivitás

Publikációs stratégia, tudománymetria, open access, szakirodalmi adatbázisok április 11.

AZ ORSZÁGOS SZÉCHÉNYI KÖNYVTÁR DIGITALIZÁLÁSI TEVÉKENYSÉGE

SZTE Nyílt Forrású Szoftverfejlesztő és Minősítő Kompetencia Központ

Közgyűjteményi Digitalizálási Stratégia (KDS) Mintaprojekt Szépművészeti Múzeum 2019

"A tízezer mérföldes utazás is egyetlen lépéssel kezdődik."

KSH NKI kutatás hazai és nemzetközi kihívások között

MTMT feltöltési ismeretek doktoranduszoknak. ELTE Egyetemi Könyvtár Mátyás Melinda, Szabó Panna október 16.,

Az MTMT intézményi kezelése 2011 március 10. Dr. Makara B. Gábor akadémikus, az MTMT Felügyelő Testületének elnöke

Java-ról Kotlinra. Ekler Péter AutSoft BME AUT. AutSoft

Magyar Tudományos Művek Tára Elmélet és feltöltési alapok. ELTE Egyetemi Könyvtár Szabó Panna október 8.,

Mérnök informatikus mesterszak mintatanterve (GE-MI) nappali tagozat/ MSc in, full time Érvényes: 2011/2012. tanév 1. félévétől, felmenő rendszerben

Oktatói önéletrajz Dr. Hufnagel Levente

Engineering services. Info. Buyer. Version changes Contract award. Description. Version 3. Publish date 10/22/2013 4:26 AM

Csoportkezelés a szövetségben

Oktatói önéletrajz Dr. Molnár Bálint

Big Data adattárházas szemmel. Arató Bence ügyvezető, BI Consulting

Változások, tendenciák a bibliográfiai szolgáltatásban

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

ESZTERHÁZY KÁROLY FŐISKOLA, EGER. Beszámoló könyvtári szakmai gyakorlatról

Jövő Internet Nemzeti Technológiai Platform ülése

hatékony felhasználókezelés felhasználói roaming Bajnok Kristóf/Mohácsi János NIIF Intézet Budapest, június 2.

MEGHÍVÓ. Infokommunikációs technológiák és a jövő társadalma (FuturICT.hu) TÁMOP C-11/1/KONV


Bognár Adrienn (PTE) - Janky Béla (MTA TK SZI, BME) Menekültek: Médiareprezentáció, hírfogyasztás és véleményalkotás 2015 őszén

Felhő rendszerek és felhő föderációk. Kacsuk Péter MTA SZTAKI

Az Eszterházy Károly Egyetem könyvtári rendszere, tudományos tartalomszolgáltatás Oszlánczi Krisztina Gál Tibor

30 MB INFORMATIKAI PROJEKTELLENŐR

VÁLTOZÁSOK, IRÁNYOK A MAGYARORSZÁGI FELSŐOKTATÁSI KÖNYVTÁRAKBAN

Eszterházy Károly Egyetem Tittel Pál Könyvtár október 13.

PhD dolgozatok repozitóriumi elhelyezése, DOI azonosítóval való megjelölése

INNOMET - a szakmai továbbképzés támogatása

Az ATON szakfolyóirat indítása

Oktatói önéletrajz Kő Andrea

AZ MTA ÉS AZ EGYETEMEK

A közgyűjtemények és az e-infrastruktúra szolgáltatók

Ember és robot együttműködése a gyártásban Ipar 4.0

Hivatkozásokra vezérlő kalauz

Szolgáltatás és Minőségfejlesztés a Corvinus Egyetemen Kiss György János Mogyorósi János

Képi információk hatékony feldolgozása széles társadalmi rétegeket érintő egészségügyi problémákban

KÖFOP VEKOP A jó kormányzást megalapozó közszolgálat-fejlesztés

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.

REAL az MTA Könyvtárának repozitóriuma

Office and computing machinery, equipment and supplies except furniture and software packages

AZ OFI SZEREPE ÉS FELADATAI A PEDAGÓGUSOK SZAKMAI MUNKÁJÁNAK TÁMOGATÁSÁBAN

Fényipar. Szabó Gábor SZTE Optikai és kvantumelektronikai Tanszék, MTA-SZTE Fotoakusztikus kutatócsoport

Önálló labor feladatkiírásaim tavasz

Az MTMT és az Intézeti Repozitóriumok összekapcsolása bevezetési tapasztalatok SZLUKA PÉTER SEMMELWEIS EGYETEM KÖZPONTI KÖNYVTÁR

TÁMOP B.2-13/

BME-Ipar. Win-Win. Intelligens környezetek és e-technológiák. Dr. Charaf Hassan Fókuszban a Műegyetem és az ipar kapcsolata

Változások előtt hol áll a banki (adat)elemzés? Nándorfi György

Mesterséges Intelligencia Elektronikus Almanach

PROJEKT IRÁNYÍTÁSI KÉZIKÖNYV

Hát én immár mit válasszak?

Az MTA Cloud projekt MTA Cloud projektzáró június 28.

Szemantikus világháló a BME-n

Networkshop Kaposvár Balaskó Á., Kozlovszky M., Karóczkai K., Márton I., Kacsuk P. MTA SZTAKI

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

EFOP

A kibontakozó új hajtóerő a mesterséges intelligencia

Az NIIF optikai alapú országos gerinchálózata

Átírás:

Dinamikus adat- és szövegbányászat (alkalmazói oldalról) Kampis György - ELTE Tudományfilozófia Tanszék - Collegium Budapest gk@hps.elte.hu

I. A kontextus

A petabyte- ok kora

A petabyte- ok kora Film: The 2009 movie Avatar is reported to have taken over 1 petabyte of local storage at Weta Digital for the rendering of the 3D CGI effects.

Mindent (digitálisan) archiválni Google mail (ahol már nem lehet törölni...) YouTube, Picasa, Facebook, egyéb megosztók Virtuális obszervatóriumok : tudományos adatok az asztrofizikától az evolúcióbiológiáig Google Books Folyamatban: minden film, hang, kép... Egy házi példa: www.cmdbase.org

Google Books

Az adatok általánossá válása Mindenki határtalanul sok adatot birtokol vagy fér hozzá (A nyito_ hozzáférés ugyanakkor külön kérdés)...és egyre nő (szenzorok, tagging, self- archiving..) a data deluge (adat- özön) Egy módszertani megjegyzés: minden szöveg

Minden o_ van, de mi van o_?

II. Adat- és szövegbányászat Az adekvát válasz Információk kinyerése: mintázatok és trendek Két alapepus: strukturált és strukturálatlan információ (pl. ömleszte_ szöveg vagy hierarchikus, annotalt adatbázis eleme) A strukturálás költséges (idő, erőforrás, eljárás) Meta- adatok jelentősége (a szövegre és elemeire vonatkozóan, pl. cím és szerző, ill. köznév vagy mennyiség)

Kemény és puha alkalmazások Kemény: elemzés nem robosztus kudarc nagy költségű Pl. rendszerbiológia: fehérjefunkció- jóslás Puha: elemzés robosztus kudarc kis költségű Pl. digitális bölcsészet

Egy (kicsit pontatlan) illusztráció Középkori szövegek digitalizálása

III. Plug and Play Macroscopes Integráció Intuiev elemzés Könnyű bővíthetőség ( csomagolás révén) Adatelemzés és vizualizáció

Orange CIShell/NWB/Sci2

www.textrend.hu Együ_működő partnerek a TexTrend projektben: Universitas Press Kn. (Prof. Kampis György) MKIK GVI Kn. (Dr. Tóth István János) Glia Kn. (Dr. Bencsik Apla) ELTE (Prof. Vicsek Tamás, akadémikus) SZTAKI (Dr. Benczúr András) SZTE (Prof. Csirik János) TEXTREND: Gazdasági és kormányzar döntéshozást támogató keretrendszer létrehozása trendelemző és szövegfeldolgozó eszközökkel Verziók: A TexTrend rendszer háromféle felhasználói réteg számára különböző változatokban készül: 1. Elemző- fejlesztő (programozási szint) 2. Szakértő elemző (sémafejlesztési szint) 3. Végfelhasználó (séma alkalmazási szint) Jelenleg az 1.- 2. szint támogato_. A teljes rendszer átadásra kerül 2010 november 30.- ig. A szonver keretrendszer szolgáltatásai: Valamennyi eljárás integráltan, intuieven használható ISI adatok feldolgozása, dinamikus hálózatelemzés Hálózar jellemzők (pl. klikkek, tud. iskolák) azonosítása Teljes szöveges adathalmazok kezelése...és sok egyéb: összesen több tucat funkció, pl. UIMA, WEKA A szonver(ek) szabadon letölthető(k)

Magyar tudomány 2001-2010 MTA SOTE SZTE ELTE DTE BME PTE SZIE PANN CEU CORV COLBUD ONK ELTE PSYNEU MTA SOTE HEIM DTE SZTE BME PTE

0 5000 10000 15000 20000 25000 30000 SZTE és ELTE IDÉZÉS/PUBLIKÁCIÓ 2 4 6 8 10 MTA SOTE SZTE ELTE DE BME PTE SZIE PANN CEU CORV ONK RICHT NATHIS ME NYME KAP PSYNEU PAZM HEIM COLBUD BAY EGIS NYIR MAFI ATK OEP országos átlag PANN SZIE PTE BME ELTE DE SOTE SZTE MTA CEU 0 5000 10000 15000 PUBLIKÁCIÓK SZÁMA

www.mtmt.hu MTMT.hu

Publish or Perish

MTMT Adatbevitel

Mi hiányzik? A magyar folyóiratok feldolgozása Számos akadémiai tudományterületen kulcs Van: MATARKA katalógus, E. Periodika Ada_ár Nincs: citációk, kivonatok, tárgykategóriák

A következő lépés Magyar folyóiratok teljes digitális anyagának automarkus feldolgozása, illesztés a katalógushoz (Az anyag megvan (?), részben hozzáférhető) WOS ISI szerű rekordok létrehozása, feldolgozása Publish or Perish / Google Scholar HU Normalizált mutatók

Egyetemi rangsorok h_p://www.rmeshighereducaron.co.uk/world- university- rankings/

Felvi.hu rangsorok

Szavazás, vélemény Nagy integrátor (sok faktort összegez) Fogadásként hatékony (predicron market) Rejte_ fogadás (majority game) De: rangsornál önbeteljesító jóslat lehet

A következő lépés (?) Teljes egyetemi honlaphalmazok alapján automarkusan Page rank vagy hasonló eljárással Vagy egészen másként: letöltésszámmal (?)... Kapcsolat PoP- vel... Személyekre bontás (elvben) Vö: slágerlista és eladási lista

Mi van a könyvekben? pl. OSZK... Vagy egyéb Egyenetlen helyzet a teljes tartalom terén Olvassuk el (már most van mit)

Alkalmazások Nyelv- és fogalomtörténet, dinamikus gyakoriságok Lényegkiemelés dinamikus klaszterezéssel A ke_ő kombinációja (pl. összetartozó fogalmak evolúciója) alap: Google trends (TexTrend kb. tudja)

Google desktop? 1 könyv = 1(..5) MB, 1 GB= 1000 könyv (v. Britannica cum iconibus), 1 TB =1000 GB= 1 millió könyv

Dinamikus klaszterezés h_p://www.dynanets.org/, Downloads tab, DyA package

IV. Mire jó mindez? Mire jó mindez? Az adat hatalom - akinek adata van, mindene van. "Királyi út" - olvasás olvasás nélkül Az igazság pillanata - adat vélemény helye_. Részvételi demokrácia - intelligens város, intelligens ország Végül:Adatözön x adatözön =?

Végül... Adatözön x adatözön =?

Köszönöm a figyelmet This research was parrally supported by the Hungarian Government (Anyos Jedlik programme managed by the Naronal Office for Research and Technology: Tex- Trend project (www.textrend.org), contract no. NKFP 07 A2 (2007)TEXTREND) and the European Union s Seventh Framework Programme: DynaNets, FET- Open project no. FET- 233847 (www.dynanets.org). The supports are gratefully acknowledged.