Rejtett tartalmak nyomában Mire jó a Textplore dokumentumelemző szoftver? Czibik Ágnes Tóth István János Sajtóbemutató Puskin kávéház, Budapest, Semmelweis u. 2. 2011. október 25. 10 óra
Tartalom A projektről A szoftver jellemzői Mintaelemzések: Magyarország a New York Times-ban Siemens és korrupció az online sajtóban Az őszödi beszéd az Indexen és az Origo-n Ítélőtáblák adatközlési gyakorlata Stohl András balesete négy hazai hírportálon
A projektről
A projektről A Textplore program a TEXTREND (http://www.textrend.org/) projekt keretében a Nemzeti Innovációs Hivatal Jedlik Ányos programjának támogatásával készül (2008- ). (Projekt száma: NKFP_07_A2-TEXTREND, Szerződésszám: OM-00002/2008). Konzorcium: Universitas Press Felsőoktatás-kutató Műhely Kft.; Eötvös Lóránd Tudományegyetem; Glia Számítástechnikai és Tanácsadó Kft.; MKIK GVI; MTA SZTAKI; Szegedi Tudományegyetem.
Jellemzők, lehetőségek
Cloud concept: A koncepció Online: https://www.textplore.org/ A program, az adatok, az eredmények a szerveren, de letölthetőek Kvantitatív és kvalitatív szövegelemzés Nagy mennyiségű szöveg gyors feldolgozása Szógyakoriságokra és szókörnyezetekre alapuló elemzések Korlátok: Szövegek értelmezésére a szoftver nem képes Az elemzett adatok tisztasága nem automatikus
Elemezhető dokumentumok Saját dokumentumok Internetről gyűjtött tartalom: hírportálok, kutatóintézetek 1.500.000+ cikk jelenleg. LETÖLTÉSI KORLÁTOK! Dokumentumok honlapokról amit a felhasználó kiválaszt Kereséssel érhetőek el és választhatóak ki elemzésre: kulcsszó, dátum, formátum, hossz alapján
Elemzési lehetőségek A dokumentumok általános adatai: dátum, hossz, forrás, (cím, szerző) Pl. egy téma lefutása cikkekben Szókörnyezet: kulcsszó előtt és után 10 szó bemutatása Korlátozott kvalitatív eszköz Szókörnyezet- statisztika - Milyen szavak szerepelnek a kulcsszó közvetlen közelében? Szóstatisztika: hányszor szerepelnek megadott szavak a dokumentumokban? Az eredmény exportálható statisztikai programokba, alapinformáció a kvantitatív elemzéshez Saját statisztikai eszközök: kereszttábla, korreláció Szavak közti kapcsolat mérésére, különböző dokumentumok közti szóhasználati különbségek mérésére Kísérleti állapotban: tulajdonnév-felismerés
Lehetséges felhasználók kormányzat üzleti szféra, non-profit szektor egyetemek, kutatók egyéb érdeklődők Elérhetőség: jelenleg zárt (kapacitás-korlátok) A GVI készít elemzéseket Üzleti céllal: pl. Energiaklub Szakpolitikai Intézet A fukusimai katasztrófa megjelenése az online médiában Tudományos céllal
Tesztelemzések A tesztelemzéseket készítették: Czibik Ágnes Makó Ágnes Miskolczi Erna Nyírő Zsanna Priksz Tamás Tóth István János Várhalmi Zoltán
Magyarországról a New York Times 2011. első féléves politikai cikkeiben
Adatok Minta a NYTimes 2010.nov-2011. ápr. cikkeiből: 37 db Milyen országokra vonatkoznak a cikkek? Magyarország, poszt-szocialista országok, egyéb országok Tulajdonnév-felismerés Milyen témákat érintenek? gazdasági, politikai, társadalmi Szógyakoriságok alapján Milyen irányú értékelést tartalmaznak? pozitív, semleges, negatív Szógyakoriságok alapján
Cikkek száma havonta 2011 márciusában jelent meg a legtöbb cikk
Országok és országcsoportok Kifejezetten Magyarországra vonatkozó cikkek száma 1 felett: januárban és áprilisban (médiatörvény és Alaptörvény)
Az értékelés iránya Magyarország döntően negatív kontextusban jelenik meg A vizsgált cikkek fele negatívként értékelhető
Az értékelés iránya és országcsoportok Ha Magyarország a téma akkor a cikkek 8/9-e negatív; de ott is erősen negatív, ahol más ország a voltaképpeni téma (pl. nők diszkriminálása Olaszországban) negatív semleges pozitív Magyarország 8 1 0 K-K-Európa 2 1 0 Más országok 8 14 2
A Siemens és a korrupció a magyar online sajtóban
A Siemens megjelenése Index és Origo cikkekben (2000-2010) A cikkek száma: 1512 Nagy ingadozás a cikkek számában A két portál nem mindig mozog együtt (2002-2003)
A Siemens és a korrupció együttes megjelenése Forrásonként máskor tetőzik (2007 és 2008) Nemzetközi Siemensbotrány, Combino- szerződés, hivatkozó cikkek Eltérő mértékben foglalkozik a két portál a témával vagy csak a szóhasználat tér el? botrány vagy korrupció
Gyurcsány Ferenc őszödi beszéde az Index és az Origo cikkeiben
Vizsgált időszak: 2006. szept. - 2011. ápr. A cikkek száma: 559 Hangvétel szerinti vizsgálat: pozitív, negatív, semleges szavak Szakszavak és köznyelvi kategóriába sorolt szavak vizsgálata Elemzési egység: cikk Fontos továbblépés lehetne: bekezdések, kijelentések elemzése
Sok cikk: a megjelenés után és a 2010-es választások előtt. Közte: csend Indexen általában több cikk 50 45 40 35 30 25 20 15 10 5 0 44 32 27 Az őszödi beszéddel kapcsolatosan megjelent cikkek száma az index.hu-n és az origo.hu-n (2006. IV. negyedév - 2011. I. negyedév), darab, N=559 12 20 18 28 21 17 14 7 3 18 11 11 6 17 13 13 12 11 10 10 10 8 5 30 30 21 19 13 16 Index Origo 12 10 IV I II III IV I II III IV I II III IV I II III IV I 2006 2007 2008 2009 2010 2011 Forrás: GVI - Textplore 6 4
A cikkek hangvétele Pozitív szavak: lehetőség, bizalom, őszinte, nyílt, önálló, bátorság, önvizsgálat, igazságbeszéd Negatív szavak: hazugság, botrány, kudarc, elhibázott, brutális, hülye Hangvétel mutató: cikkek hosszával normálva, pozitív és negatív szavak egyenlegét véve, az összes szó arányában vizsgálva Index: nagyobb ingadozás cikkek között, éves átlagban viszont kiegyenlítettebb Index: pozitívabb hangvétel
A cikkek hangvétele A csend alatt a leginkább negatív a cikkek hangvétele (p-n) /(p+n+s) p: 1000 karakterre jutó pozitív szavak száma n: negatív szavakra analóg módon s: semleges szavakra analóg módon
Szakszavak/köznyelvi szavak Szakszavak (politológiai, szociológiai, közgazdaságtani): pl. államadósság, paradigma, pártpolitikai, kiadáscsökkentés, integráció Köznyelvi szavak: pl. népszerűség, következmény, tárgyalás, kemény, kiszivárgás Szakszó-használati fok: tudományos/(köznyelvi+tudományos) Az Origo némileg több elvont politológiai-közgazdaságtani kifejezést használt az őszödi beszédet érintő cikkeiben, mint az Index
Szakszó-használati fok időbeli változása
Hangvétel és szakszavak A köznyelvi térfélben nagyobb szórás hangvétel 0,4 0,3 Az őszödi beszéddel kapcsolatosan megjelent cikkek "hangvétele" és "szakértelmi foka" az index.hu-n és az origo.hu-n, N=559 KÖZÉRTHETŐ POZITÍV SZAKÉRTŐI POZITÍV 0,2 A leginkább 0,1 R² = 0,1182 negatív sávban Origodominancia 0-0,1-0,2 R² = 0,1474 A szakértői térfélen enyhe Origodominancia -0,3 SZAKÉRTŐI NEGATÍV -0,4 toltes Index -0,5 KÖZÉRTHETŐ NEGATÍV Sorozatok2 Origo -0,6 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Forrás: GVI - Textplore szakértelmi fok
Ítélőtáblák internetes adatközlési gyakorlata
Öt ítélőtábla: feladatuk elsősorban a helyi, illetve megyei bíróságok határozatai ellen előterjesztett jogorvoslatok elbírálása Feladatuk, működésük, felépítésük, jogi hátterük megegyezik, vonatkozik rájuk az Elektronikus információ-szabadság törvény (Eitv.) Adatközlési gyakorlatuk is azonos? A vizsgált dokumentumok: doc és pdf formátum, a honlapokról automatikusan letöltve, összesen 642 dokumentum
A feltett dokumentumok száma Győr, Debrecen: sajtócikkeket is feltesznek ezt nem vesszük figyelembe Győr: doc-ok is vannak, máshol csak pdf Nagy különbségek 350 300 250 200 150 100 50 0 Az ítélőtáblák honlapján megtalálható dokumentumok száma 102 Fővárosi Ítélőtábla 122 Szegedi Ítélőtábla 56 Pécsi Ítélőtábla 322 Győri Ítélőtábla 40 Debreceni Ítélőtábla
Dokumentumok tartalma Győrben a leginkább sokszínű: kollégiumi vélemények, ajánlások, határozatok éves bontásban, közérdekű adatok (alapító okirat, SzMSz, ügyelosztási rendek, költségvetési okmányok, működés értékelésére vonatkozó dokumentumok) tárgyalási jegyzékek a megnyitó ünnepség beszédeinek szövege az ítélőtáblát érintő, a sajtóban megjelent cikkek UGYANAKKOR: ETI (Elektronikus Információ-szabadság Törvénytisztelet Index) Győr: 37,3 Debrecen: 63
Közlések időben, honlap-frissítés Győr, (Főváros): egyenletes, évente frissül, hasonló mennyiség Pécs, Debrecen: első 1-2 évben sok dokumentum, utána kevés Szeged: először kevés, majd egy évben nagyon sok (váltás?) 60 A letölthető dokumentumok publikálásának időbeli megoszlása az egyes ítélőtáblák esetében, % 50 40 30 20 10 Fővárosi Ítélőtábla Szegedi Ítélőtábla Pécsi Ítélőtábla Győri Ítélőtábla Debreceni Ítélőtábla 0 2004 2005 2006 2007 2008 2009 2010 2011
Stohl András a Magyar Nemzet, a Népszabadság, a Velvet és a Blikk online cikkeiben
A vizsgált cikkek 2010. május 2011. augusztus Csak balesettel kapcsolatos cikkek: 304 db NOL (36), MNO (48), Velvet (100), Blikk (120)
A cikkek száma összesen Kiugró cikkszámok: 1.: közvetlenül a baleset után 2: nyomozás lezárása 3: elsőfokú tárgyalás 4: elsőfokú ítélet 5: másodfokú tárgyalás
Kapcsolódó altémák Milyen témakörök azonosíthatóak szóelőfordulások alapján? Drog- és alkoholfogyasztás, pl: ittas, drog, díler, pszichotrop Jogi PR: vezeklés, pl: megbán, szégyell, tanulság, vezeklés Negatív jellemrajz, pl: átmulatott, botrány, cserbenhagyás, megérdemel
Az addikciót említő cikkek aránya Kis különbségek A NOL-on A NOL-on található a legtöbb addikciót NEM említő cikk
Addikciós szavak előfordulása A NOL szól legkevésbé arról, hogy Stohl András drogokat és alkoholt fogyasztott a baleset előtt
Jogi PR szavak előfordulása Az MNO szól legkevésbé arról, hogy Stohl András megbánta azt amit tett, és ezért drogellenes kampányba kezdett
Negatív jellemrajz szavak előfordulása Az MNO cikkeiben rajzolódik ki leginkább negatív kép Stohlról
Köszönjük a figyelmet! A minta-elemzések elérhetősége: https://www.textplore.org/ Elemzések menüpont