Az online sajtó elemzése segít a beruházások előrejelzésében Tartalomelemzés 21 január és 213 december között megjelent cikkek alapján 214. május
Az MKIK Gazdaság- és Vállalkozáskutató Intézet olyan nonprofit kutatóműhely, amely elsősorban alkalmazott közgazdasági kutatásokat folytat. Célja, hogy elméletileg és empirikusan megalapozott ismereteket és elemzéseket nyújtson a magyar gazdaság és a magyar vállalkozások helyzetét és kilátásait befolyásoló gazdasági és társadalmi folyamatokról. MKIK GVI Institute for Economic and Enterprise Research Hungarian Chamber of Commerce and Industry A tanulmányt írta: Türei Gergely, elemző, GVI Kutatásvezető: Tóth István János, tudományos főmunkatárs, MTA KRTK KTI, ügyvezető, GVI MKIK Gazdaság- és Vállalkozáskutató Intézet Budapest A kézirat lezárva: 214. május 25. Cím: MKIK GVI 134 Budapest, Bécsi út. Tel: 235-5-84 Fax: 235-7-13 e-mail: gvi@gvi.hu Internet: http://www.gvi.hu/ 2 / 13
Bevezetés Rövid elemzésünkben a beruházások internetes sajtóban való megjelenéseivel foglalkozunk. Azt tűztük ki célul, hogy megvizsgáljuk: a beruházásokra vonatkozó magyarországi on-line megjelenések, tudósítások és cikkek alapján tudunk-e becslést adni a beruházások tényleges magyarországi alakulására? Az alapötlet az, hogy amikor elkezdenek tervezni egy beruházást, az online médiában cikkek jelennek meg róla. A beruházás elkészülése időbe telik és még további idő, amíg a KSH oldalán megjelenik a beruházási statisztikák között. Ezért, ha gyorsan akarunk értesülni a beruházások alakulásáról érdemes lehet az online sajtót figyelni. Így már az adott negyedév végén információhoz juthatunk a beruházási aktivitás alakulásáról, nem csak a következő negyedév közepén, amikor a hivatalos adatközlésre sor kerül. E feladat elvégzéséhez az elérhető megjelenések elemzését, a megfigyelhető legfontosabb jellegzetességek feltárását végeztük el egyszerű tartalomelemzési technikák alkalmazásával. Az elemzési mintát az elmúlt négy évből gyűjtöttük össze. Nyolc internetes portálról használtuk fel az összes olyan cikket, amelyben bármilyen módon említik a beruházásokat, vagyis amelyekben előfordul a beruházás szó. Az általunk vizsgált időszak 21. januártól 213. decemberig tartott. Összesen 12.215 cikket elemeztünk, amelyeket a mno.hu, hvg.hu, nol.hu, vg.hu, index.hu, origo.hu, hir24.hu és a hetivalasz.hu portálokról gyűjtöttük össze. Az elemzéshez a GVI által fejlesztett Textplore (https://www.textplore.org/) szövegelemző/tartalomelemző szoftvert használtuk. A Textplore szoftver célja, hogy online módon lehetővé tegye interneten megtalálható dokumentumok például folyóiratok cikkei, kutatóműhelyek tanulmányai és a felhasználók saját dokumentumainak szövegelemzését. Szövegelemzéssel olyan információhoz juthatunk hozzá, amely nem érhető el a dokumentumok tartalmának egyszerű elolvasásával. Áttekinthetjük egy dokumentumhalmaz szerkezetét, hogy elemei milyen főbb témakörökhöz sorolhatók; megfigyelhetjük a különböző forrásból származó, azonos témájú írások szóhasználati és ezáltal interpretációs különbségeit, fényt deríthetünk a dokumentumok rejtett tartalmára. A szoftvert az MKIK Gazdaság- és Vállalkozáskutató Intézet fejleszti a Nemzeti Innovációs Hivatal volt Nemzeti Kutatási és Technológiai Hivatal támogatásával a Textrend projekt keretében. 3 / 13
A beruházások alakulása A beruházások online sajtóban történő megjelenésének tartalomelemzési áttekintése előtt érdemes megnézni, hogyan alakulnak ténylegesen a beruházások Magyarországon. A KSH legfrissebb adatközlése a 213 IV. negyedévre vonatkozó adatokat tartalmaz. A gazdaság egészében megfigyelt beruházási aktivitást az egy évvel korábbi, 212-es év azonos időszakához viszonyított volumenindex értéke 114,9. A volumenindex alakulása az 1. ábrán látható. Ez a növekedés a gazdaság különböző szektoraiban nagyjából azonos, mégis érdemes áttekinteni a meglévő különbségeket. Gazdasági ágak szerinti bontásban majdnem minden területen többet szántak beruházásra, mint egy évvel korábban. A kivételt az ingatlanügyletek, valamint a villamosenergia-, gáz-, gőzellátás és légkondicionálás továbbá a pénzügyi és biztosítási tevékenységek jelentik. Területileg is egyenletesnek mondható a beruházási tevékenység bővülési üteme: egy régió, Nyugat- Dunántúl kivételével mindenhol nőtt a beruházások volumene. Jelentős különbség van azonban a versenyszféra illetve a kormányzati szféra által megvalósított beruházások volumenének növekedési üteme között. Előbbi esetében 14,8, míg utóbbinál 15,8 a volumenindex értéke 213/IV negyedévben. 1. Ábra: Beruházások volumenindexe Az előző év azonos negyedévéhez képest, 21/I 213/IV Az előző évhez képest, 1985-213 16 15 14 13 8 7 6 Nemzetgazdaság összesen Versenyszféra Költségvetés Forrás: KSH 4 / 13
1 4 7 1 1 4 7 1 1 4 7 1 1 4 7 1 Az elemzett cikkek mintája Az elemzésbe azokat a cikkeket vontuk be, amelyben bármilyen módon említik a beruházásokat, vagyis amelyekben előfordul a beruházás szó. A 21. januártól 213. decemberig tartó időszakot elemeztük, a vizsgált szöveganyag pedig a mno.hu, hvg.hu, nol.hu, vg.hu, index.hu, origo.hu, hir24.hu és a hetivalasz.hu portálokról származó, összesen 12.215 cikk. Az egyes hónapokra jutó internetes megjelenések száma erős éven belüli szezonalitást mutat. Minden év esetében alacsony a január, február, illetve december során megjelent cikkek száma. Május és október között jelenik meg a legtöbb cikk, de itt eltérést láthatunk az évek között. Egyrészt szembetűnő, hogy 21 folyamán jelentősen kevesebb cikk jelent meg, mint a 211-től kezdve. Másrészt a 213-as év első három negyedévében lényegesen alacsonyabb volt a megjelenések száma, mint a 211-es vagy a 212-es év azonos időszakában. Így 213-ban szeptember és október hónapban több cikk jelent meg, mint a nyár folyamán. A megjelenések számának időbeli alakulását láthatjuk az 2. ábrán. Ugyanezt negyedévenként ábrázolva összevethetjük a beruházási volumenindex értékeivel. 2. Ábra: Az internetes megjelenések száma és a beruházási volumenindex alakulása Internetes megjelenések számának alakulása, darab, 21- Internetes megjelenések számának alakulása (darab), 213 havonta illetve a beruházási volumenindex, 21-213 4 35 3 25 2 15 5 115 15 95 85 8 8 6 4 2 Beruházási volumen index, teljes gazdaság Cikkek száma Forrás: Textplore, KSH. Megjegyzés: a zöld háttér azokat az időszakokat jelzi, amikor egy irányba változott a két mutató. 5 / 13
A 2. ábrán látható idősorok közti kapcsolatot nem lehet egyértelműen klasszifikálni a vizsgált időszak rövidsége miatt. Az alapján, amit tudunk, vagy függetlenek, vagy gyenge pozitív összefüggés áll fenn közöttük. A mintában szereplő cikkek portálok közti eloszlása nem egyenletes; a legnagyobb arányt az mno.hu (3514 db, 29%), a hvg.hu (2231 db, 18%), a nol.hu (1696db, 14%) és a vg.hu (156db, 13%) képviseli. A cikkek a hetivalasz.hu, az origo.hu és a nol.hu esetében a leghosszabbak; az mno.hu esetében pedig a legrövidebbek. 1. táblázat: A vizsgált cikkek megoszlása a portálok között Cikkek száma Cikkek százaléka Szavak átlagos száma cikkenként hetivalasz.hu 373 3% 671 hir24.hu 692 6% 339 hvg.hu 2231 18% 353 index.hu 1361 11% 465 mno.hu 3514 29% 292 nol.hu 1696 14% 52 origo.hu 788 6% 551 vg.hu 156 13% 338 Forrás: Textplore Az alkalmazott tartalomelemzési módszerek A mintában szereplő cikkek alapján a beruházásokhoz kapcsolódó asszociációkat fogunk azonosítani, majd kísérletet teszünk a beruházás különböző interpretációinak feltárására. Az első lépés a beruházás szó környezetében, vele azonos mondatban előforduló szavak összegyűjtése. Ennek segítségével felmérhetjük, mivel hozható összefüggésbe, milyen asszociációk kapcsolódhatnak a beruházás szóhoz. Azokat a szavakat gyűjtöttük össze, amelyek legalább kétszáz esetben fordulnak elő közös mondatban a beruházás szóval. Az önálló jelentést nem hordozó szavaktól, a tárgyhoz nem kapcsolódó szavaktól, valamint a több jelentésű szavaktól eltekintve nyolcvanegy ilyen szót találtunk. Az összegyűjtött szavakat osztályozhatjuk, tartalmuk szerint kategóriákba sorolhatjuk. Mi a következő kategóriákat állítottuk fel, a szavakat a következő öt csoportba soroltuk: üzleti/gazdasági, adminisztratív, fizikai/konkrét, politikai/absztrakt, térbeli/időbeli/számszerű. Ezeket a szavakat és a belőlük összeállított kategóriákat az 2. táblázatban mutatjuk be. 6 / 13
2. táblázat: A beruházás szó környezetében leggyakrabban előforduló, releváns kifejezések Kat1.: Fizikai, konkrét Kat2: Jogi, adminisztratív Kat3: Politikai, absztrakt Kat4: Térbeli, időbeli, számszerű Kat5: Üzleti, gazdasági fejlesztés cég Magyarország első döntés felújítás eljárás cég euró fejlesztés gyár hirdetés európai ezer felújítás központ kft. fontos forint forrás munka kormány jelentős forintos gazdasági település képviselő kiemel három keret terület nyer kiemelt idén kerül társaság polgármester kormány idő kérdés város projekt magyar jelenleg költség épít pályázat nemzetgazdasági jövő munkahely építés rendszer ország milliárd pénz épül szakasz polgármester millió terv épület szerződés uniós pénz tervezett út szükség vezető rész tervez üzem támogatás állam százalék uniós állami százalékos vállalat önkormányzat tavaly vállalkozás település önkormányzat terület több várható város év összeg Forrás: Textplore A kategóriák mérhetőek, vagyis minden cikkel kapcsolatban megfigyelhető, hogy milyen mértékben tartozik az egyes kategóriákba. Ezt az adott cikkben található, az adott kategóriába tartozó szavak és a cikk hosszának arányaként tehetjük meg. Így minden cikket jellemezhetünk öt szám megadásával. A mérhetőség meghatározásával létrehoztunk egy absztrakt teret, amelyben elhelyezhetők a téma cikkei. Ezzel lehetőségünk nyílik arra, hogy egymáshoz hasonló cikkeket keressünk; így csoportokat különíthetünk el, tendenciákat, típusokat ismerhetünk fel a cikkek mintáján belül. A mintát egyszerűen hasonló szóhasználatú cikkeket tartalmazó részekre osztottuk fel, a k- közép klaszterezési eljárás segítségével 1. A típusalkotás azért szükséges, mert láttuk a minta bemutatása során (a 3. ábrán), hogy a megjelenések egésze nincs szoros kapcsolatban a beruházások volumenének alakulásával. Azt reméljük, hogy tudunk olyan típusokat elkülöníteni a cikkek mintáján belül, amelyek szorosabb kapcsolatban állnak a beruházások mutatói közül valamelyikkel (a költségvetési szféra, a versenyszféra vagy a teljes gazdaság beruházási 1 Az eljárásról: http://goo.gl/ltlikf 7 / 13
volumenindexével). Ez után azt is megvizsgáljuk, hogy az egyes elkülönített típusok mely portálokon jelentek meg. Eredmények A típusokra osztás eredményeit a 3. táblázatban rögzítettük. Négy típust különítettünk el. 3. Táblázat: Az egyes típusokat megadó klaszterek középpontjai és elemszámai Típus neve Fizikaikonkrét Politikaiabsztrakt Jogiadminisztratív Tér, idő, szám Üzleti, gazdasági Cikkek száma Cikkek százaléka Szavak száma Benchmark,64,422,653,717,26 6471 53% 374 Absztrakt, jogi,499,2234,1664,2445,388 1 9% 382 Konkrét, jogi,647,36,858,6522,38 367 3% 46 Konkrét, üzleti,1868,3,657,1633,66 964 8% 248 Forrás: a GVI saját számításai a Textplore alapján Az első típusba tartozó cikkekre jellemző, hogy mind a négy szókategóriát az átlagosnál kisebb arányban használják. Ugyanakkor találunk közöttük néhány olyan szöveget is, amelyek bőven tartalmaznak a fizikai, konkrét kategóriába tartozó szavakat. Legkevésbé a térbeli, időbeli, számszerű, adminisztratív kérdésekről esik szó ezekben a cikkekben. Ebbe a típusba tartozik a legtöbb cikk, 6471 darab, ami a cikkek több mint felét jelenti. Ez egy referencia vagy benchmark csoportnak tekinthető, ahogy semleges vagy tényközlő írásokat találunk. A második típusban a jogi, adminisztratív és a politikai, absztrakt kategóriába tartozó szavak nagyarányú használata jellemző. Ez a 3. táblázatból, de a 3. ábra második oszlopáról is jól látszik. Ugyanakkor itt a legalacsonyabb a fizikai, konkrét vonatkozások említési aránya. Az adminisztratív kérdéseken kívül a politikai/absztrakt vonatkozások említése gyakori. Ez alapján itt elsősorban uniós pályázatokkal, projektekkel kapcsolatos közlemények lehetnek, továbbá a beruházások makro vonatkozásaival foglalkozó írások. A harmadik és negyedik típus szóhasználata igen hasonló egymáshoz. Mindkettőben magas a térbeli, időbeli, számszerű és fizikai, konkrét vonatkozású szóhasználat aránya; a különbség, hogy a negyedikben még magasabb. Ez a negyedik ábra harmadik és negyedik oszlopában látható. A négyes típusban ehhez üzleti, gazdaági kifejezések 8 / 13
Adott kategóriába tartozó szavak aránya használata is társul. Ez a két típus tartalmaz beszámolókat, tényközléseket, riportokat; vagy rövid, konkrét projekthez köthető elemző jellegű írásokat. A politikai és absztrakt beszédmód ebben a két csoportban fordul elő legkevésbé. 3. ábra: Az egyes kategóriákba tartozó szavak jellemző aránya a négy cikk típusban,25,2,15,1,5 Benchmark Absztrakt, jogi Konkrét, jogi Konkrét, üzleti Fizikai-konkrét Politikai-absztrakt Jogi-adminisztratív Tér, idő, szám Üzleti, gazdasági Forrás: a GVI saját számításai a Textplore adatai alapján A 3. ábrán az egyes cikk típusok és a szókategóriák közti kapcsolatot láthatjuk, vagyis az egyes típusokban jellemző szóhasználatot. Ezt a 3. táblázatból már ismerhetjük. Az elemzés következő és talán legfontosabb pontja az, hogy melyik általunk kialakított cikktípusok közül melyik megfigyelésével tudunk pontosabb becslést adni a beruházások tényleges alakulására. Az 4. ábrán a beruházási volumen alakulását és az egyes cikktípusokba tartozó cikkek gyakoriságát vethetjük össze. A magyar gazdaságban a beruházások volumene úgy tűnik, a konkrét, jogi cikktípus megjelenéseivel mutatják a legszorosabb összefüggést a korrelációs együtthatók alapján; csakúgy, mint a versenyszféra beruházásai. A költségvetési szféra beruházásai inkább negatív kapcsolatot mutatnak a sajtómegjelenésekkel. Ez különösen igaz az absztrakt, jogi típussal való kapcsolatára. 9 / 13
4. ábra: A beruházási mutatók és az egyes típusokba tartozó cikkek számának alakulása negyedévenként (volumenindex a bal tengelyen, illetve darabszám a jobb tengelyen) Költségvetési szféra beruházási volumenindexe, Versenyszféra beruházási volumenindexe az a benchmark és a konkrét, jogi típussal absztrakt, jogi és konkrét, üzleti típussal 16 15 14 13 8 7 6 Költségvetés Benchmark 2 3 4 5 6 7 16 15 14 13 8 7 6 Versenyszféra Absztrakt, jogi 14 8 6 4 2 Konkrét, jogi Konkrét, üzleti Forrás: KSH és Textplore Megjegyzés: a zöld háttér azokat az időszakokat jelzi, amikor egy irányba változott a két mutató. Típusalkotás sikeresnek mondható abból a szempontból, hogy az elkülönített csoportok szorosabb kapcsolatban állnak a beruházások alakulásával, mint együttesen. Az összefüggések szorosságát mutató korrelációs együtthatókat a 4. táblázatban foglaltuk össze. 4. táblázat: A beruházás elemei és az egyes típusokba tartozó megjelenések alakulása közötti korrelációs együtthatók Benchmark Absztrakt, jogi Konkrét, jogi Konkrét, üzleti Versenyszféra beruházási volumenindexe,25,29,8,31 Költségvetési szféra beruházási volumenindexe -,48 -,27 -,53 -,44 Ezt fontos eredménynek tartjuk: az on-line sajtó megfigyelésével és a Textplore segítségével történő tartalomelemzésével valószínűleg becsülni lehet a beruházások tényleges alakulását a magyar gazdaságban. Természetesen ez még csak az első lépés: szükséges olyan becslő modell kialakítása, amely a cikkekben szereplő információt is tartalmazza de ez már egy későbbi elemzés tárgya lehet. 1 / 13
Folytatásként nézzük meg inkább, hogy az egyese portálok cikkei melyik cikkcsoportban szerepelnek inkább. Ezt az ötödik táblázatban látjuk. 5. táblázat: Milyen típusú cikkeket írnak az egyes portálok mely portálok írják az egyes típusokba tartozó cikkeket? Cikkek száma A portál cikkeinek százalékában Az adott típusba tartozó cikkek százalékában 1 2 3 4 1 2 3 4 1 2 3 4 hetivalasz.hu 179 29 149 16 48% 8% 4% 4% 3% 2% 4% 2% hir24.hu 399 84 185 46 56% 12% 26% 6% 6% 7% 5% 5% hvg.hu 1243 223 661 168 54% 1% 29% 7% 19% 19% 17% 17% index.hu 757 148 47 87 54% 11% 29% 6% 11% 13% 11% 9% mno.hu 1947 31 166 268 54% 9% 3% 7% 29% 26% 28% 27% nol.hu 976 171 532 11 55% 1% 3% 6% 15% 15% 14% 1% origo.hu 44 236 35 54% 12% 29% 4% 7% 9% 6% 4% vg.hu 691 16 553 266 43% 7% 34% 16% 1% 9% 15% 27% Forrás: Textplore Figyelemre méltó, hogy a vg.hu cikkei nagy arányban tartoznak a konkrét, jogi és a konkrét, üzleti típusba; valamint a hetivalasz.hu cikkei közül sok került a konkrét, jogi típusba. Ezzel párhuzamosan ez a két portál kisebb arányban ír a benchmark csoportba kerülő cikkeket. (A benchmark típus jellemzője az összes szókategória alacsony arányú használata.) A többi portál által írt cikkek között azonban nem lehet jelentős típus összetétel szerinti különbséget találni. Végül nézzük meg, milyen összefüggést mutat az egyes portálokon megjelenő cikkek alakulása a beruházások volumenével. Ezt az 5. ábrán láthatjuk. Az eredmények arra mutatnak, hogy az origo.hu-n való megjelenések alakulása mutatta a legszorosabb összefüggést a beruházási volumen alakulásával vagyis az origo.hu-n megjelenő cikkek adják a legtöbb információt, amely alapján becsülni lehet a beruházások volumenének alakulását. Második legszorosabb összefüggést a vg.hu esetében látjuk. Ennél a portálnál külön érdekes, hogy 211 második negyedéve óta minden egyes negyedévben ugyanolyan irányban változott az itteni megjelenések száma, mint a beruházási volumenindex. A többi portál esetében gyengébb kapcsolatról számolhatunk be, de elhanyagolhatóak. 11 / 13
5. ábra: A megjelenő cikkek alakulása portálonként, összevetve a beruházási volumenindex értékeivel (teljes gazdaság, előző és azonos negyedéve egyenlő ) 25 115 15 95 75 65 55 45 35 115 15 95 85 23 21 1 17 15 13 7 85 25 8 5 Beruházási volumenindex origo.hu Beruházási volumenindex vg.hu 3 4 115 15 25 2 115 15 35 3 25 15 2 95 85 5 95 85 15 5 8 8 Beruházási volumenindex Beruházási volumenindex index.hu mno.hu hvg.hu nol.hu Forrás: KSH és Textplore. Megjegyzés: a zöld/kék háttér azokat az időszakokat jelzi, amikor egy irányba változott a két mutató. Zöldes háttérrel jelöltük azokat a negyedéveket, amikor a beruházási volumenindex és az adott portálon megjelenő cikkek száma azonos irányban változott. Az ábrán látható módon a vg.hu portál esetében már 9 egymást követő negyedéve mindig ugyanabba az irányba változik a cikkek száma, mint a beruházási volumenindex. Az origo.hu esetében pedig a vizsgált 4 évben 11 olyan negyedév volt, amikor ugyanez elmondható. A bal alsó 12 / 13
ábrán a kék hátteret a hvg.hu megjelenései alapján készítettük a háttér színezését, a zöld hátteret pedig az index.hu megjelenései alapján. A jobb alsó ábrán a kék háttér a nol.hu, zöld háttér pedig az mno.hu beruházási volumenindexszel való együttmozgását mutatja. A hatodik ábrán azt vizsgáljuk, mennyire mozog szinkronban a beruházási volumen index és az előrejelzés szempontjából legígéretesebb cikk csoportok. A beruházási volumenindex és az absztrakt, jogi cikktípus megjelenéseinek korrelogramja az egyidejűség esetén veszi fel maximális értékét. Az origo.hu megjelenéseivel vett korrelogram alapján az origo.hu megjelenései részben egyidejűek, részben enyhén követik a beruházási volumenindex alakulását. Az absztrakt, jogi cikk típus valamint origo.hu megjelenései is előrejelzésre felhasználhatóak. 6. ábra: Az előrejelzésben várhatóan leghasznosabb cikkcsoportok és a beruházási volumenindex kereszt-korrelogramja Korrelogram: Az origo.hu megjelenései és a Korrelogram: Absztrakt, jogi típusú beruházási volumenindex megjelenések és beruházási volumenindex,6,4,2 -,2 -,4 -,6 -,8,35,3,25,2,15,1,5 -,5 -,1 Korrelogram: origo.hu megjelenései és beruházási volumenindex Korrelogram: absztrakt, jogi típusú megjelenések és beruházási volumenindex Az összefüggés kimutatása kiemelkedő fontosságú, hiszen ennek köszönhetően megtudtuk, hogy a beruházásokkal kapcsolatos online megjelenések Textplore-ral megfigyelt idősorai felhasználhatóak a beruházási volumenindex alakulásának előrejelzésére. Ezzel lehetővé válik, hogy a vonatkozási negyedév végén készítsünk egy olyan becslést, amellyel az adott negyedév várható adatait becsüljük meg, ezzel pedig nagyjából 4 nappal megelőzhetjük a hivatalos adatközlést. 13 / 13