Rejte% tartalmak nyomában Mire jó a Textplore dokumentumelemző szo7ver? Czibik Ágnes Tóth István János Sajtóbemutató Puskin kávéház, Budapest, Semmelweis u. 2. 2011. október 25. 10 óra
Tartalom A projektről A szohver jellemzői Mintaelemzések: v Magyarország a New York Times- ban v Siemens és korrupció az online sajtóban v Az őszödi beszéd az Indexen és az Origo- n v Ítélőtáblák adatközlési gyakorlata v Stohl András balesete négy hazai hírportálon
A projektről
A projektről A Textplore program a TEXTREND (h%p://www.textrend.org/) projekt keretében a Nemze\ Innovációs Hivatal Jedlik Ányos programjának támogatásával készül (2008- ). (Projekt száma: NKFP_07_A2- TEXTREND, Szerződésszám: OM- 00002/2008). Konzorcium: Universitas Press Felsőoktatás- kutató Műhely KH.; Eötvös Lóránd Tudományegyetem; Glia Számítástechnikai és Tanácsadó KH.; MKIK GVI; MTA SZTAKI; Szegedi Tudományegyetem.
Jellemzők, lehetőségek
A koncepció Cloud concept: v Online: h%ps://www.textplore.org/ v A program, az adatok, az eredmények a szerveren, de letölthetőek Kvan\taov és kvalitaov szövegelemzés v Nagy mennyiségű szöveg gyors feldolgozása v Szógyakoriságokra és szókörnyezetekre alapuló elemzések v Korlátok: v Szövegek értelmezésére a szohver nem képes v Az elemze% adatok \sztasága nem automa\kus: Azt mérjük vajon, amit szeretnénk?
Elemezhető dokumentumok Saját dokumentumok Internetről gyűjtö% tartalom: hírportálok, kutatóintézetek 1.500.000+ cikk jelenleg. LETÖLTÉSI KORLÁTOK! Dokumentumok honlapokról amit a felhasználó kiválaszt Kereséssel érhetőek el és választhatóak ki elemzésre: kulcsszó, dátum, formátum, hossz alapján
Elemzési lehetőségek A dokumentumok általános adatai: dátum, hossz, forrás, (cím, szerző) Pl. egy téma lefutása cikkekben Szókörnyezet: kulcsszó elő% és után 10 szó bemutatása Korlátozo% kvalitaov eszköz Szókörnyezet- sta\sz\ka - Milyen szavak szerepelnek a kulcsszó közvetlen közelében? Szósta\sz\ka: hányszor szerepelnek megado% szavak a dokumentumokban? Az eredmény exportálható sta\sz\kai programokba, alapinformáció a kvan\taov elemzéshez Saját sta\sz\kai eszközök: keresz%ábla, korreláció Szavak köz\ kapcsolat mérésére, különböző dokumentumok köz\ szóhasznála\ különbségek mérésére Kísérle\ állapotban: tulajdonnév- felismerés
Lehetséges felhasználók kormányzat üzle\ szféra, non- profit szektor egyetemek, kutatók egyéb érdeklődők Elérhetőség: v jelenleg zárt (kapacitás- korlátok) v A GVI készít elemzéseket v Üzle\ céllal: pl. Energiaklub Szakpoli\kai Intézet A fukusimai katasztrófa megjelenése az online médiában v Tudományos céllal
Tesztelemzések A tesztelemzéseket készíte%ék: Czibik Ágnes Makó Ágnes Miskolczi Erna Nyírő Zsanna Priksz Tamás Tóth István János Várhalmi Zoltán
Magyarországról a New York Times 2011. első féléves polimkai cikkeiben
Adatok Minta a NYTimes 2010.nov- 2011. ápr. cikkeiből: 37 db Milyen országokra vonatkoznak a cikkek? Magyarország, poszt- szocialista országok, egyéb országok Tulajdonnév- felismerés Milyen témákat érintenek? gazdasági, poli\kai, társadalmi Szógyakoriságok alapján Milyen irányú értékelést tartalmaznak? poziov, semleges, negaov Szógyakoriságok alapján
Cikkek száma havonta 2011 márciusában jelent meg a legtöbb cikk
Országok és országcsoportok Kifejeze%en Magyarországra vonatkozó cikkek száma 1 fele%: januárban és áprilisban (médiatörvény és Alaptörvény)
Az értékelés iránya Magyarország döntően negaov kontextusban jelenik meg A vizsgált cikkek fele negaovként értékelhető
Az értékelés iránya és országcsoportok Ha Magyarország a téma akkor a cikkek 8/9- e negaov; de o% is erősen negaov, ahol más ország a voltaképpeni téma (pl. nők diszkriminálása Olaszországban) negaav semleges poziav Magyarország 8 1 0 K- K- Európa 2 1 0 Más országok 8 14 2
A Siemens és a korrupció a magyar online sajtóban
A Siemens megjelenése Index és Origo cikkekben (2000-2010) A cikkek száma: 1512 Nagy ingadozás a cikkek számában A két portál nem mindig mozog együ% (2002-2003)
A Siemens és a korrupció együ%es megjelenése Forrásonként máskor tetőzik (2007 és 2008) Nemzetközi Siemens- botrány, Combino- szerződés, hivatkozó cikkek Eltérő mértékben foglalkozik a két portál a témával vagy csak a szóhasználat tér el? botrány vagy korrupció
Gyurcsány Ferenc őszödi beszéde az Index és az Origo cikkeiben
Vizsgált időszak: 2006. szept. - 2011. ápr. A cikkek száma: 559 Hangvétel szerin\ vizsgálat: poziov, negaov, semleges szavak Szakszavak és köznyelvi kategóriába sorolt szavak vizsgálata Elemzési egység: cikk Fontos továbblépés lehetne: bekezdések, kijelentések elemzése
Sok cikk: a megjelenés után és a 2010- es választások elő%. Közte: csend Indexen általában több cikk
A cikkek hangvétele Poziov szavak: lehetőség, bizalom, őszinte, nyílt, önálló, bátorság, önvizsgálat, igazságbeszéd Negaov szavak: hazugság, botrány, kudarc, elhibázo%, brutális, hülye Hangvétel mutató: cikkek hosszával normálva, poziov és negaov szavak egyenlegét véve, az összes szó arányában vizsgálva Index: nagyobb ingadozás cikkek közö%, éves átlagban viszont kiegyenlíte%ebb Index: poziovabb hangvétel
A cikkek hangvétele A csend ala% a leginkább negaov a cikkek hangvétele (p- n) /(p+n+s) p: 1000 karakterre jutó poziov szavak száma n: negaov szavakra analóg módon s: semleges szavakra analóg módon
Szakszavak/köznyelvi szavak Szakszavak (politológiai, szociológiai, közgazdaságtani): pl. államadósság, paradigma, pártpoli\kai, kiadáscsökkentés, integráció Köznyelvi szavak: pl. népszerűség, következmény, tárgyalás, kemény, kiszivárgás Szakszó- használa\ fok: +tudományos) tudományos/(köznyelvi Az Origo némileg több elvont politológiai- közgazdaságtani kifejezést használt az őszödi beszédet érintő cikkeiben, mint az Index
Szakszó- használa\ fok időbeli változása
Hangvétel és szakszavak A köznyelvi térfélben nagyobb szórás A leginkább negaov sávban Origo- dominancia A szakértői térfélen enyhe Origo- dominancia
Ítélőtáblák internetes adatközlési gyakorlata
Öt ítélőtábla: feladatuk elsősorban a helyi, illetve megyei bíróságok határozatai ellen előterjeszte% jogorvoslatok elbírálása Feladatuk, működésük, felépítésük, jogi há%erük megegyezik, vonatkozik rájuk az Elektronikus információ- szabadság törvény (Eitv.) Adatközlési gyakorlatuk is azonos? A vizsgált dokumentumok: doc és pdf formátum, a honlapokról automa\kusan letöltve, összesen 642 dokumentum
A felte% dokumentumok száma Győr, Debrecen: sajtócikkeket is feltesznek ezt nem vesszük figyelembe Győr: doc- ok is vannak, máshol csak pdf Nagy különbségek
Dokumentumok tartalma Győrben a leginkább sokszínű: v kollégiumi vélemények, ajánlások, határozatok éves bontásban, v közérdekű adatok (alapító okirat, SzMSz, ügyelosztási rendek, költségvetési okmányok, működés értékelésére vonatkozó dokumentumok) v tárgyalási jegyzékek v a megnyitó ünnepség beszédeinek szövege v az ítélőtáblát érintő, a sajtóban megjelent cikkek UGYANAKKOR: ETI (Elektronikus Információ- szabadság Törvény\sztelet Index) v Győr: 37,3 v Debrecen: 63
Közlések időben, honlap- frissítés Győr, (Főváros): egyenletes, évente frissül, hasonló mennyiség Pécs, Debrecen: első 1-2 évben sok dokumentum, utána kevés Szeged: először kevés, majd egy évben nagyon sok (váltás?)
Stohl András a Magyar Nemzet, a Népszabadság, a Velvet és a Blikk online cikkeiben
A vizsgált cikkek 2010. május 2011. augusztus Csak balese%el kapcsolatos cikkek: 304 db NOL (36), MNO (48), Velvet (100), Blikk (120)
A cikkek száma összesen Kiugró cikkszámok: 1.: közvetlenül a baleset után 2: nyomozás lezárása 3: elsőfokú tárgyalás 4: elsőfokú ítélet 5: másodfokú tárgyalás
Kapcsolódó altémák Milyen témakörök azonosíthatóak szó- előfordulások alapján? Drog- és alkoholfogyasztás, pl: i%as, drog, díler, pszichotrop Jogi PR: vezeklés, pl: megbán, szégyell, tanulság, vezeklés Negaov jellemrajz, pl: átmulato%, botrány, cserbenhagyás, megérdemel
Az addikciót említő cikkek aránya Kis különbségek A NOL- on található a legtöbb addikciót NEM említő cikk
Addikciós szavak előfordulása A NOL szól legkevésbé arról, hogy Stohl András drogokat és alkoholt fogyaszto% a baleset elő%
Jogi PR szavak előfordulása Az MNO szól legkevésbé arról, hogy Stohl András megbánta azt amit te%, és ezért drogellenes kampányba kezde%
Negaov jellemrajz szavak előfordulása Az MNO cikkeiben rajzolódik ki leginkább negaov kép Stohlról
Köszönjük a figyelmet! A minta- elemzések elérhetősége: h%ps://www.textplore.org/ Elemzések menüpont