Új típusú adatforrások és technológiák a területi vizsgálatokban. Hornyák Miklós tanársegéd PTE KTK KMI

Hasonló dokumentumok
BIG DATA ELEMZÉSEK LEHETŐSÉGEI

A vállalatok teljesítményének és elhelyezkedésének kapcsolata a magyar nagyvárosok példáján

AZ ÜGYFÉL KOMMUNIKÁCIÓ ÚJ FORMÁI POZITÍV ÜGYFÉLÉLMÉNY SZÖVEGBÁNYÁSZATI MEGOLDÁSOK

BIG DATA ÉS GÉPI TANULÁS KÖRNYEZET AZ MTA CLOUD-ON KACSUK PÉTER, NAGY ENIKŐ, PINTYE ISTVÁN, HAJNAL ÁKOS, LOVAS RÓBERT

társadalomtudományokban

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

Big Data az adattárházban

Parametrikus tervezés

Változó vásárlói szokások nyomon követése 2016 Szeptember SAP Forum. Komjáthy Csaba

Projekt Tervezés. 2006/5/17 Dr. Kulcsár László

Takács Gábor mérnök informatikus, okl. mérnöktanár

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

A webanalitika változó világa 4 felvonásban

Hogyan lesz adatbányából aranybánya?

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

A Jövő Internet Nemzeti Kutatási Program bemutatása

Digitális kultúra, avagy hová lett az informatika az új NAT-ban? Farkas Csaba

Tudásalapú információ integráció

Digitalizációs Kutatás Madar Norbert. A kutatást a megbízásából a készítette

Megszületett a digitális minőségügyi szakember? XXIV. Nemzeti Minőségügyi Konferencia

Maradandó digitális transzformációk Oracle HOUG Konferencia 2018

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Az információs társadalom európai jövőképe. Dr. Bakonyi Péter c. Főiskolai tanár

Az Open Source lehetősége a szegedi geoinformatika képzésben

Korszakvált. ltás s a telekommunikáci szektorban. Okok és következmények amelyek gyökeresen átformálják az telekommunikációs iparágat

Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben.

Dr. Szűts Zoltán Facebook a felsőoktatásban?

7. Óravázlat. frontális, irányított beszélgetés. projektor, vagy interaktív tábla az ismétléshez,

Matematikai geodéziai számítások 6.

1. Pillér: Digitális infrastruktúra

[Biomatematika 2] Orvosi biometria

AZ IKT SZEREPE A KÉPZÉSBEN ÉS A PARTNERINTÉZMÉNYEK GYAKORLATÁBAN EGY VIZSGÁLAT KAPCSÁN

Az Ipar 4.0 területi összefüggései, a digitális ökoszisztéma vállalati szereplőinek területfejlesztési elvárásai

Gráfok mindenhol. x $ SZENDI-VARGA JÁNOS IOT SOCIAL NETWORKS FRAUD DETECTION MASTER DATA MANAGEMENT RECOMMENDATION ENGINES. Internet of Things

A hallgatói preferenciák elemzése statisztikai módszerekkel

kodolosuli.hu: Interaktív, programozást tanító portál BALLA TAMÁS, DR. KIRÁLY SÁNDOR NETWORKSHOP 2017, SZEGED

Nem minden könyvtáros grafikus, nem minden grafikus könyvtáros avagy annak (is) kell(ene) lennünk?

I. Felsőoktatási Marketing Verseny Versenyképes honlap kritériumrendszere

Smart City feltételei

S atisztika 1. előadás

Az utazási idő modellezése térinformatikai módszerek felhasználásával

Intelligens közlekedési rendszerek (ITS)

Google App Engine az Oktatásban 1.0. ügyvezető MattaKis Consulting

Webanalitika a mindennapokban

Matematikai geodéziai számítások 6.

Ipar 4.0: digitalizáció és logisztika. Prof. Dr. Illés Béla Miskolci Egyetem, GÉIK, Logisztikai Intézet Miskolc, április 19.

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

A XXI. század módszerei a könyvvizsgálók oktatásában avagy a digitális kompetenciák és digitális tanulás fejlesztése

Ember és robot együttműködése a gyártásban Ipar 4.0

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Multimédia anyagok szerkesztése kurzus hatékonyságnövelése web alapú projekt módszer alkalmazásával

Hálózat, kapcsolat, interakció társadalmi tőke és együttműködés

Horváth Krisztina Pécsi Tudományegyetem Közgazdaságtudományi Kar Regionális Politika és Gazdaságtan Doktori Iskola, III. évfolyam

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Az infoszféra tudást közvetítő szerepe a mai társadalomban

Az es szabvánnyal, illetve a törvényi elvárásokkal kapcsolatos felmérési, tervezési tevékenység

Bevezetés a hipotézisvizsgálatokba

Gazdálkodási modul. Gazdaságtudományi ismeretek III. Szervezés és logisztika. KÖRNYEZETGAZDÁLKODÁSI MÉRNÖKI MSc TERMÉSZETVÉDELMI MÉRNÖKI MSc

AZ INTERNET SZEREPE A FELSŐOKTATÁSI BEISKOLÁZÁSI MARKETINGBEN, ILLETVE AZ INTÉZMÉNYVÁLASZTÁSI FOLYAMATBAN

Kreatív értékesítési technikák a social media segítségével.

Ingatlan-nyilvántartási megoldás a magyar állami erdőgazdálkodás számára március 18. GIS open 2010 Székesfehérvár Nyull Balázs DigiTerra Kft.

Térinformatika amit tudni kell Márkus Béla

Okos Városok Globális helyzetkép, lehetőségek, várakozások. Digitális Város Konferencia 2016 szeptember, Győr

Az IKT-val támogatott probléma-alapú tanulás és lehetőségei az idegennyelv tanításban

Takács Árpád K+F irányok

Tartalom. Dr. Bakonyi Péter c. docens. Midterm review: összefoglaló megállapítások. A A célkitűzések teljesülése 2008-ig

Dr. Bakonyi Péter c. docens

Mit nyújt a Gazdaságfejlesztési és Innovációs Operatív Program a vállalkozásoknak között

Hova tart a cross platform mérés?

Bevezetés A harmadik szoftverkrízis korát éljük! Szoftverkrízisek: 1. nincs elég olcsó: hardver, szoftver, programozó 2. nincs elég olcsó: szoftver, p

Erőforrás gazdálkodás a bevetésirányításban

Adatbázis-kezelő rendszerek. dr. Siki Zoltán

A cégek szerint. Alig érjük el a rajongóinkat, így már nem éri meg Facebookozni. Itt az ideje, hogy átvigyük a cégünket a Google pluszra.

Multifunkcionális, multimédia elemeket tartalmazó mobil elérésű távoktatási tananyag összeállítása és tesztelése

Az újmédia alkalmazásának lehetőségei a tanulás-tanítás különböző színterein - osztálytermi interakciók

Hálózati elemzések az üzleti életben. Kovács Gyula Sixtep Kft.

TÉRINFORMATIKA II. Dr. Kulcsár Balázs Ph.D. adjunktus. Debreceni Egyetem Műszaki Kar Műszaki Alaptárgyi Tanszék

WEB2GRID: Desktop Grid a Web 2.0 szolgálatában

Feladataink, kötelességeink, önkéntes és szabadidős tevékenységeink elvégzése, a közösségi életformák gyakorlása döntések sorozatából tevődik össze.

MINTA Kereskedelmi és Szolgáltató Kft. FELMÉRÉS EREDMÉNYE

Korreláció és lineáris regresszió

Utikalauz a keresőmarketing állandóan változó világához

Vajda Éva. Keresőoptimalizált üzleti honlap

Újdonságok. Jancsich Ernő Ferenc

A hálózattervezés alapvető ismeretei

OZEKI Phone System. 4 elengedhetetlen szolgáltatás a jövőbeli vállalati telefonos rendszerek számára. A jövő üzleti telefon rendszere SMS

IKT trendek és tapasztalatok a BME szemszögéből

A helyismereti információszolgáltatás jellemzői és új irányai a könyvtári honlapokon

Új kihívások az innovációban: szervezeti innovációk és versenyképesség

Lisszaboni stratégia és a vállalati versenyképesség

A tudásipar, tudáshasználat helyzete és lehetséges jövőbeli trendjei a Nyugat-dunántúli régióban

Bódulat-marketing (az áru a piacon)

Stratégiai és üzleti döntéstámogatás közösségi médiaelemzéssel

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

KÖFOP VEKOP A jó kormányzást megalapozó közszolgálat-fejlesztés

Digitális kompetenciák, digitális munka

Google AdWords és AdSense A Google hirdetési rendszere

Digitális Felsőoktatási, Kutatási és Közgyűjteményi Infrastruktúra-fejlesztési Stratégia

Szoftver-technológia II. Szoftver újrafelhasználás. (Software reuse) Irodalom

Képi információk hatékony feldolgozása széles társadalmi rétegeket érintő egészségügyi problémákban

Átírás:

Új típusú adatforrások és technológiák a területi vizsgálatokban Hornyák Miklós tanársegéd PTE KTK KMI

Az előadás tartalma Kutatási keret bemutatása - KIVI Társadalomtudományi probléma ismertetése Valós topológián alapuló gravitációs modell - GravityIX Szövegbányászati szentiment elemzés - HírIX Online jelenlét automatizált vizsgálata - WebIX Csődesemény adatbányászati előrejelzése - CsődIX Dolgozói attitűd internet-adatvezérelt elemzése FOI Városi pezsgés vizsgálata Meetup Előadásom fókuszában a munka során tapasztalt nehézségek és kezelésük áll.

Kutatási keret ismertetése - Ökoszisztéma puha elemeinek mérése Rendszerszemléletű megközelítés a versenyképesség vizsgálatában Intézményi és aktori alrendszerekre bontás Aktori alrendszer elemei a KKV-k, melyek vizsgálatára a Szerb-féle MKKVI modellt vettem át Bővebben Szerb et al. 2014 WebIX és CsődIX támogatással MKKVI igazából a KKV belső kompetenciáit méri, működési környezettel nem foglalkozik Így nem tekinthető versenyképességi indexnek, ehhez kell a környezet is MKKVI pillérstruktúrája az alrendszereket összekapcsoló interfész Intézményi alrendszer mérésére e pillérstruktúra mentén képzett indikátorokkal Új típusú adatforrások és technológiák beépítése adat és szövegbányászat, internet-adatvezéreltség Iparági és területi bontás a környezet vizsgálatánál Eredmény: Kompetencia és Intézményi Versenyképességi Index (KIVI) Ismereteink szerint eddig ezen alrendszereket nem kapcsolták össze egységes rendszerré KIVI segítségével SWOT-típusú jellemzésre van módunk Belső: Erősség, Gyengeség -> KKV kompetenciák alrendszer Külső: Veszély, Lehetőség -> Intézményi alrendszer

Általános kutatói problémahalmaz Közösségi érzékelők alkalmazása versus kérdőívezés Társadalomtudomány és új típusú adatforrások, eszközök Big data jelenség kiterjedése 3,4 vagy 5V Bottom-up versus top-down kutatási paradigma hipotézis versus kutatói kérdés? Lehetőségek és korlátok ismerete, figyelembevétele Multidiszciplináris megközelítés nehézsége Tudáselemek ritkán vannak meg egy személynél domain specifikus tudás, IT ismeret, programozási ismeretek, adatok szervezése és tárolása Technológia gyorsan változik és fejlődik lásd. képfeldolgozás Számítási kapacitás és ennek támogatása PC versus szolgáltatás alapú kutatás Adatokhoz való legális hozzáférés nehézsége Crawling versus API versus vásárlás Platform adatok használatának korlátai Reprezentativitási probléma Digitális lábnyom versus digitális remete Generációs különbségek digitalizáció szintjében különbségek Eredmények bemutatása és értelmezése Reproducible Research Forrás: https://www.fosteropenscience.eu/foster-taxonomy/open-reproducible-research

Valós topológián alapuló gravitációs modell - GravityIX Cél a területegységen működő KKV-re ható externáliák vizsgálata Gravitációs modell mintájára Egyik paraméter a távolság (d) Centripetális erő pozitív externália: B2C, B2B Lokális beágyazódást támogatja Centrifugális erő negatív externália: iparági verseny Lokális beágyazódást hátráltatja Modellek ritkán veszik figyelembe a valós földrajzi helyzetet Probléma definiálása Földrajzi topológia beépítése a modellbe Nem légvonalbeli mérés

Valós topológián alapuló gravitációs modell - GravityIX Megoldás: térinformatika Városi elérhetőség úthálózaton keresztül Felhasznált eszköz Google Maps TEIR GeoX Kft. elérési adatok Alkalmazott tudáselem Térinformatikai távolságmérés Tapasztalt nehézségek és megoldásaik Google útvonalterv nehézkes GeoX adatok nem voltak elérhetők, ez azóta változott!

Szövegbányászati szentiment elemzés Cél: Hírcorpus képzése, lokációhoz kapcsolása Pozitív, negatív, semleges szavak azonosítása terület inkább +/- Nehézség: Magyar nyelvű szövegek problémája Nyelvészeti tudáselem hiánya Dobozos szoftverek hiányosságai Rapidminer, Python, R Opensource versus fizetős rendszerek SPSS Clementine Nehézség: Tudományosan validált magyar szentiment szótár hozzáférhetősége Konnotációs problémák az angol fordításnál speciális tudáselem megjelenése Szövegfeldolgozási anomáliák kézi kezelése Családnév versus település Szótövezés Kísérletek szöveg-perszonifikáció a Big5 modell alapján (LIWC szótár alkalmazása) Algoritmusok fejlődésével és a corpus növelésével javítható a modell teljesítménye Corpus méretének növelése nagy munkát igényel, minden szempontból heterogén környezet Corpus adatforrásainak tágítása nehézkes Twitter részadatok, hazánkban nem elterjedt; Facebook bezárt; Intsagram képek

Online jelenlét automatizált elemzése - WebIX Probléma Magas az erőforrás igénye Szubjektivitással terhelt Web ökoszisztéma vizsgálata Technicista elemzési módszer Megoldás Python program 22 mutató 4 pillér 2 alindex Online jelenlét weboldal vs. Fb.? Butkiewicz modelljének sémája, forrás: Butkiewicz et al. 2011 alapján, saját szerkesztés WebIX koncepcionális modellje, forrás: saját szerkesztés

Csődesemény adatbányászati előrejelzése - CsődIX Cél: KKV csődkockázat mérése Adatok 2011 és 2012 cégadatok mérleg, eredmény-kimutatások, NUTS-2, iparág, eljárások MKKVI cégei 706 db Minta Tanulóminta 1180 db cég 50% ban 2013-as csődesemény Teszt adatok 506 db cég 50%-ban 2013-s csődesemény Tudáselem Adatbányászati gépi tanulási modellek ismerete Modell Neurális háló segítségével predikciós modell építése SVM 82%-os pontosság Eredmény optimista megközelítés 144 cég esetében csődkockázatosnak minősíti Probléma Tanuló- és tesztminta beszerzése Frissítési nehézségek miatt lezártuk a projektet

Dolgozói attitűd internet-adatvezérelt elemzése (forrás: saját szerkesztés) Internetes keresések jövő orientáltsága és a GDP közötti kapcsolat (Preis et al. 2012) Magyarországi IP-címekről indított szöveges keresések vizsgálatát végeztem Google Trends alkalmazása Lokáció, időszak, témacsoport és a keresési kifejezés szűrés Megyékre szűrés bázis évhez viszonyítás egyszerű keresési kifejezés Korlátok Nem abszolút értéket szolgáltat a Google, csak arányokat pl. 100 a leggyakoribb, 0 nincs adat Nem ismert az alkalmazott algoritmus, így fekete dobozként tekintünk rá bármikor és bárhogy változhat Internet penetráció és digitális írástudás bizonyos rétegek kimaradnak a vizsgálatból

Városi pezsgés vizsgálata platform adatok alapján (forrás: saját szerkesztés) Meetup.com platform adatai alapján várostérségek jellemzése Gyökeresen más szemlélet lokáció központú, pufferzóna alkalmazása API hívások segítségével, többszörös hierarchikus felépítés Python programozás Adatok gráf alapú adatbázisba leképezve relációs adatszerkezet helyett Alkalmazása nem elterjedt, új tudáselem Előny a kapcsolatok és csomópontok természetes használata Cities Groups Events - Topics Előny a gyors, interaktív és intuitív eredmény Cypher és Graph Data Visualization Nehézség az új szemlélet elsajátítása strukturált vs. strukturálatlan adatok tárolása

Tapasztalatok összefoglalása és jövőbeli irányok Tapasztalatok összegzése Sokrétű tudáselem együttes alkalmazása Kommunikációs problémák Adatok beszerzésének legális volta Adatfrissítések folyamatos biztosítása Megfelelő algoritmusok Opensource vs. Fizetős rendszerek Elmozdulás a vizuális elemek elemzésének irányába Kickstarter kampányok video elemzése ökoszisztéma szoft elemei Instagram fotók elemzése lokációk social sensor típusú vizsgálata

Köszönöm a figyelmüket! hornyak.miklos@pte.hu

KIVI modell felépítése

Kutatói kérdés vizsgálata HírIX példájáb T-próba Szabadságfok (f) 19 Szignifikancia szint 0,01 Student tábla (t0,01) 2,539 T-próba (tp) 1,9355275037 Normalitás vizsgálat A ferdeség (-0,14) és a csúcsosság (1,14) értékek alapján a minta normális eloszlásúnak tekinthető. Korreláció Pearson-féle korrelációs együttható értéke (r = 0,415056282) alapján a megyei PPS és FOI értékek között kapcsolat azonosítható. Szignifikancia Nullhipotézis: a korrelációs együttható a megyei PPS és HírIX értékek között = 0 Alternatív hipotézis: a korrelációs együttható a megyei PPS és HírIX értékek között <> 0 Mivel tp < t0,01 ezért a nullhipotézist elfogadjuk, vagyis a megyei PPS és HírIX értékek közti korreláció szignifikánsan nem tér el a nullától 99%-os szinten.

Irodalomjegyzék Szerb, L. et al. (2014): Mennyire versenyképesek a magyar kisvállalatok? A magyar kisvállalatok (MKKV szektor) versenyképességének egyéni-vállalati szintű mérése és komplex vizsgálata, Marketing és Menedzsment 11/2014; XLVIII.(Különszám), pp. 3-21. Preis T., Moat H. S., Stanley H. E., Bishop S. R., (2012): Quantifying the advantage of looking forward, Scientific Reports 2 350, doi:10.1038/srep00350