GVI Gazdaság- és Vállalkozáskutató Intézet Gazdasági előrejelzések online folyamatok alapján Tóth István János Hajdu Miklós Hungarian Natural Language Processing Meetup Budapest 2012. november 21. http://www.gvi.hu/
Tartalom A konjunktúra-kutatás alapproblémái A Google Trends - lehetőségek Az online tartalmak & gazdasági folyamatok Textplore Gyakorlati példák Autóeladások, háztartási fogyasztás Migrációs potenciál Gazdasági válságra utaló kifejezések & makrogazdasági mutatók Következtetések http://www.gvi.hu/ 2
A klasszikus konjunktúra-kutatás alapproblémái http://www.gvi.hu/ 3
Célok, módszerek (1) Alapvető cél: a gazdasági folyamatok alakulásának, változásának előrejelzése Hagyományos módszerek: Reáladatok (pl. GDP, ipari termelés volumene) idősoros elemzése Üzleti klíma kérdőíves felmérése Ön szerint milyen a vállalkozás jelenlegi üzleti helyzete? [Jó, kielégítő vagy rossz] Ön szerint várhatóan hogyan alakul a vállalkozás jövedelmezősége a következő 6 hónap során? [Javul, nem változik vagy romlik] http://www.gvi.hu/ 4
Célok, módszerek (2) A hagyományos módszerek kapcsán felmerülő nehézségek: Reáladatok idősoros elemzése A hivatalos adatok kiadása és az általuk jellemzett időpont közötti hosszú késedelem Az adatközlések alacsony gyakorisága Gyenge előrejelző funkció Üzleti klíma kérdőíves felmérése Megbízhatóság és érvényesség problémái Stabil apparátus, szervezet Idő- és költségigény http://www.gvi.hu/ 5
Célok, módszerek (2) Vannak könnyebben elérhető és elemezhető adatok, amelyek javíthatják a leading indikátorokat? Érdemes az online folyamatokat vizsgálni, mind a látogatói, mind a tartalomszolgáltatói oldalról. http://www.gvi.hu/ 6
A Google Trends bemutatása http://www.gvi.hu/ 7
Külföldi tapasztalatok a Google Trends adatsorainak felhasználásáról Estimation of the unemployment rate in Germany Askitas, Nikolaous Zimmermann, Klaus, F. (2009): Google Econometrics and Unemployment Forecasting. IZA. Bonn. Improvement of automotive, tourism and housing market data forecasts in the USA Choi, Hyunyoung Varian, Hal. (2009): Predicting the Present with Google trends. Prediction and nowcasting of private consumption in the USA Kholodilin, Konstantin A. - Maximilian Podstawski - Boriss Siliverstovs (2010): Do Google Searches Help in Nowcasting Private Consumption? A Real-Time Evidence for the US. Discussion Papers 997. DIW Berlin. Schmidt, Torsten Vosen, Simeon. (2009b): Forecasting Private Consumption: Survey-based Indicators vs. Google Trends. Ruhr Economic Papers. 155. http://www.gvi.hu/ 8
Internet penetráció Magyarországon Az Internet penetrációjának alakulása Magyarországon nemzetközi összehasonlításban, 2004-2011 100 90 80 70 % 60 50 40 30 20 10 Magyarország* EU-27* Lengyelország* Luxemburg* Svédország* USA** 0 2004 2005 2006 2007 2008 2009 2010 2011 Év *Forrás: Eurostat **Forrás: Pew Internet & American Life Project http://www.gvi.hu/ 9
Jelenbecslés vagy előrejelzés? Keresési gyakoriság E t-n (I t ): a gazdasági aktivitás elhatározása G i : az első keresés a Google-on I t : gazdasági tranzakció G k : az utolsó keresés a Google-on E t-n (I t ) G i I t G k idő http://www.gvi.hu/ 10
A Google Trends adatai Keresési kifejezések, keresési kategóriák Relatív keresési mennyiségek Növekedési százalékok Időhorizont: 2004.01.01.-től egészen a múlt hétig Forgalomtól függően akár heti bontásban is! Területi bontás Forgalomtól függően akár megyei szinten elemezhező adatok http://www.gvi.hu/ 11
http://www.gvi.hu/ 12
Saját dokumentumok Internetről automatikusan gyűjtött tartalom pl. Index, Origo Dokumentumok honlapokról amit a felhasználó kiválaszt
Gyakorlati példák http://www.gvi.hu/ 14
Az autóeladások alakulásának becslése a Google Trends segítségével 1. modell: szezonális autoregresszív modell C t = b 0 + b 1 C t-1 + b 2 C t-k +u t t-1 a megelőző hónap, t-k az előző év azonos periódusa 2. modell: a Google Trends adatain alapuló modell C t = b 0 + b 1 G t +u t G t a Google keresési kategóriáin alapuló változók 3. modell: kiterjesztett modell C t = b 0 + b 1 C t-1 + b 2 C t-k + b 3 G t +u t http://www.gvi.hu/ 15
Az autóeladások (használt és új) alakulása (2005.01-2011.12) Forrás: Datahouse http://www.gvi.hu/ 16
Az autóeladásokkal korreláló keresési kategóriák Alcoholic Beverages Arts & Humanities Banking Books & Literature Computer & Video Games Computers & Electronics Credit & Lending Education Entertainment Food & Drink Health Home Financing Home Furnishings Home Improvement Homemaking & Interior Decor Internet & Telecom Movies Vehicle Brands Vehicle Parts & Accessories Vehicle Shopping http://www.gvi.hu/ 17
A modellek főbb jellemzői Baseline model Google Extended model Factors (model #1) (model #2) (model #3) Constant 4755.364 53949.327 35048.749 (1.583) (93.501) (4.387) Lag(1) 0.644 0.301 - (8.339) (2.860) Lag (12) 0.233 0.045 - (3.295) (0.534) F1_2-98899.258 6548.026 (16.227) (3.919) F4_2 - -3848.312-2338.657 (-7.109) (-2.692) F6_2-2646.544 1342.506 (4.805) (2.025) F3_2-2613.504 1287.287 (3.968) (1.638) F14_2 - -1317.808-1863.008 (-2.400) (-3.175) R 2 0.78 0.853 0.952 Adj. R 2 0.774 0.844 0.95 Durbin-Watson 2.008 1.412 1.811 RMSE 5084.184 4825.501 4311.926 T 72 84 72 http://www.gvi.hu/ 18
Keresztkorrelációk az autóeladások és a Google Trends adatain alapuló becslések között http://www.gvi.hu/ 19
Az autóeladások és a Google Trends adatain alapuló becslés kapcsolata http://www.gvi.hu/ 20
A háztartási fogyasztás alakulásának becslése a Google Trends segítségével 1. modell: autoregresszív modell C t = b 0 + b 1 C t-1 +u t t-1 az előző negyedév 2. modell: A Google Trends adatain alapuló modell C t = b 0 + b 1 G t +u t G t a Google keresési kategóriáin alapuló változók 3. modell: kiterjesztett modell C t = b 0 + b 1 C t-1 + b 2 G t +u t http://www.gvi.hu/ 21
Háztartási fogyasztás (2004q1-2011q4) Forrás: KSH http://www.gvi.hu/ 22
A háztartási fogyasztással korreláló keresési kategóriák Arts & Humanities Books & Literature Computer & Video Games Computers & Electronics Food & Drink Home Financing Home Improvement Internet & Telecom Vehicle Brands Vehicle Parts & Accessories Vehicle Shopping http://www.gvi.hu/ 23
A modellek főbb jellemzői Baseline model Google Extended model Factors (model #1) (model #2) (model #3) Constant 120389.828 2886361.542 515823.938 (0.659) (339.529) (2.596) Lag(1) 0.958 0.821 - (15.199) (11.1979 F1_1-79805.858 24972.246 (9.040) (3.282) F4_1 - -49085.12 (-4.388) - F2_1-42951.496 (5.093) - F3_1 23699.449 (2.750) - F5_1-21364.469 (-2.240) - R 2 0.888 0.849 0.919 Adj. R 2 0.885 0.819 0.914 Durbin-Watson 1.538 1.117 1.87 RMSE 36653.366 42502.495 31148.167 T 31 32 31 http://www.gvi.hu/ 24
Keresztkorrelációk a háztartási fogyasztás és a Google Trends adatain alapuló becslések között http://www.gvi.hu/ 25
A háztartások fogyasztása és a Google Trends adatain alapuló becslés http://www.gvi.hu/ 26
A külföldi munkavállalási hajlandóság mérése a Google Trends segítségével http://www.gvi.hu/ 27
25 Egyes, a gazdasági válságra utaló kifejezések előfordulási aránya és a GDP volumenindexe Egyes, a gazdasági válságra utaló kifejezések előfordulási aránya negyedévenként az összes megjelent cikk százalékában és a GDP negyedéves volumenindexe, 2000. I. negyedév - 2011. IV. negyedév 3,5 20 15 a "válság" kifejezés előfordulása, negyedéves arány (%) - bal tengely válsággal kapcsolatos kifejezések* előfordulása, negyedéves arány (%) - bal tengely GDP negyedéves volumenindex** (%) - bal tengely a "GDP" kifejezés előfordulása, negyedéves arány (%) - jobb tengely 3 2,5 10 2 5 1,5 0 1-5 -10 * gazdasági válság, hitelválság, pénzügyi válság, recesszió, válság, világgazdasági válság, visszaesés, visszaesik ** Szezonálisan és naptári hatással kiigazított és kiegyensúlyozott adatok (előző év azonos időszaka=100,0), forrás: KSH I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 0,5 0 Forrás: GVI, Textplore http://www.gvi.hu/ 28
25 20 15 Egyes, a gazdasági válságra utaló kifejezések előfordulási aránya és a GDP volumenindexe A szócsoportok előfordulási aránya negyedévenként az összes megjelent cikk százalékában és a GDP negyedéves volumenindexe, 2000. I. negyedév - 2011. IV. negyedév GDP negyedéves volumenindex (%)** "külkereskedelem" szócsoport "munkaerőpiac" szócsoport "gazdaságpolitika" szócsoport "vállalatok" szócsoport "pénzpiac" szócsoport "adó" szócsoport "államháztartás" szócsoport "makrogazdaság" szócsoport "hitel" szócsoport "gazdaságelemzés" szócsoport "válság" szócsoport 10 5 0-5 ** Szezonálisan és naptári hatással kiigazított és kiegyensúlyozott adatok (előző év azonos időszaka=100,0), forrás: KSH -10 I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 Forrás: GVI, Textplore http://www.gvi.hu/ 29
35000 Egyes, a gazdasági válságra utaló kifejezések előfordulási aránya és a BUX index napi záróértékeinek havi átlaga A "pénzpiac" és a "válság" szócsoportok előfordulási aránya havonta az összes megjelent cikk százalékában, valamint a BUX-index napi záróértékeinek havi átlaga, 2000. január - 2012. március 0,35 30000 25000 BUX havi átlag - bal tengely "pénzpiac" szócsoport - jobb tengely "válság" szócsoport - jobb tengely 0,3 0,25 20000 0,2 15000 0,15 10000 0,1 5000 0,05 0 J Mj Sz J Mj Sz J Mj Sz J Mj Sz J Mj Sz J Mj Sz J Mj Sz J Mj Sz J Mj Sz J Mj Sz J Mj Sz J Mj Sz J 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 0 Forrás: GVI, Textplore http://www.gvi.hu/ 30
J Á Jl O J Á Jl O J Á Jl O J Á Jl O J Á Jl O J Á Jl O J Á Jl O J Á Jl O J Á Jl O J Á Jl O J Á Jl O J Á Jl O J Egyes, a gazdasági válságra utaló kifejezések előfordulási aránya és az ipari értékesítés volumenindexe 130 120 A "pénzpiac", a "válság" és a "makrogazdaság" szócsoportok előfordulási aránya havonta az összes megjelent cikk százalékában, valamint az ipari értékesítés volumenindexe, 2000. január - 2012. március ipari értékesítés volumenindexe* - bal tengely "makrogazdaság" szócsoport - jobb tengely "válság" szócsoport - jobb tengely "pénzpiac" szócsoport - jobb tengely 0,35 0,3 110 100 * Összes ipari értékesítés volumenindexe, 2005. év havi átlaga = 100,0; szezonálisan és munkanappal kiigazított adatok, forrás: KSH 0,25 0,2 90 0,15 80 0,1 70 0,05 60 0 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 Forrás: GVI, Textplore http://www.gvi.hu/ 31
Következtetések Az internetes keresési forgalomra vonatkozó információk pontosabbá teszik a gazdasági indikátorok jelenbecslését, rövid távú előrejelzését. A gazdaság reálfolyamatai és az online cikkek szóhasználata között is kapcsolat mutatható ki Egyes gazdasági kifejezések előfordulási gyakorisága akár az ipari értékesítés jelenbecslésében is releváns információ lehet Az internetes tartalmakat szolgáltatók és fogyasztók viselkedésének megfigyelése egyaránt segítségünkre lehet a gazdasági előrejelzések finomításában, fejlesztésében. http://www.gvi.hu/ 32
Köszönjük a figyelmet! http://www.gvi.hu/ http://www.gvi.hu/ 33