Adatbányászati technikák alkalmazása magyar vállalkozások adatait tartalmazó adatbázison Microsoft Excel 2007-ben

Hasonló dokumentumok
A rosszindulatú daganatos halálozás változása 1975 és 2001 között Magyarországon

Sztochasztikus kapcsolatok

A szak specializációi

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Üzleti intelligencia - eszközöktől a megoldásokig

Projektvezetői döntések támogatása webbányászattal

Mesterséges Intelligencia Elektronikus Almanach. Konzorciumi partnerek

Correlation & Linear Regression in SPSS

A jövedelem alakulásának vizsgálata az észak-alföldi régióban az évi adatok alapján

Microsoft SQL Server telepítése

Statistical Dependence

Vállalkozás Statisztikai Adatbázis

Korrelációs kapcsolatok elemzése

Adatbázis-kezelés az Excel 2013-ban

Adatbányászat és Perszonalizáció architektúra

Honlap szerkesztés Google Tudós alkalmazásával

Kutatás-fejlesztési eredmények a Számítógépes Algoritmusok és Mesterséges Intelligencia Tanszéken. Dombi József

DOKTORI (PhD) ÉRTEKEZÉS TÉZISEI

A STRATÉGIAALKOTÁS FOLYAMATA

Big Data az adattárházban

Kvantitatív statisztikai módszerek

HALLGATÓI KÉRDŐÍV ÉS TESZT ÉRTÉKELÉSE

Informatikai alapismeretek Földtudományi BSC számára

FATERMÉSI FOK MEGHATÁROZÁSA AZ EGÉSZÁLLOMÁNY ÁTLAGNÖVEDÉKE ALAPJÁN

Tájékoztató. Használható segédeszköz: -

Keresés a MarketLine Advantage adatbázisban

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.

Microsoft Excel. haladó kimutatás-készítési lehetőségeinek alkalmazása (a könyvvizsgálat során is)

Sebastián Sáez Senior Trade Economist INTERNATIONAL TRADE DEPARTMENT WORLD BANK

TÉRGAZDÁLKODÁS - A TÉR MINT VÉGES KÖZÖSSÉGI ERŐFORRÁS INGATLAN NYILVÁNTARTÁS - KÜLFÖLDI PÉLDÁK H.NAGY RÓBERT, HUNAGI

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

A VADGAZDÁLKODÁS KIADÁSAINAK ÉS BEVÉTELEINEK ELEMZÉSE

A BÜKKI KARSZTVÍZSZINT ÉSZLELŐ RENDSZER KERETÉBEN GYŰJTÖTT HIDROMETEOROLÓGIAI ADATOK ELEMZÉSE

A statisztika alapjai - Bevezetés az SPSS-be -

A statisztika alapjai - Bevezetés az SPSS-be -

Self service reporting fogások, technikák és megoldások controllereknek, nem csak Excel alapon

2. előadás. Viszonyszámok típusai

Supplementary Table 1. Cystometric parameters in sham-operated wild type and Trpv4 -/- rats during saline infusion and

Adatbányászat az Oracle9i-ben. Fekete Zoltán vezető termékmenedzser

SZAKMAI BESZÁMOLÓ EVK SZAKKOLLÉGIUM. BESZÁMOLÓ: A 2014/2015 A Pallas Athéné Domus Scientiae Alapítvány pályázatára 2014/2015-ÖS TANÉV

Industrial Internet Együttműködés és Innováció

Dr. Sasvári Péter Egyetemi docens

Teherviselő faszerkezet csavaros kapcsolatának tervezési tapasztalatai az európai előírások szerint

Correlation & Linear Regression in SPSS

Számítógépes döntéstámogatás OPTIMALIZÁLÁSI FELADATOK A SOLVER HASZNÁLATA

CSERNELY KÖZSÉG DEMOGRÁFIAI HELYZETE

Csima Judit április 9.

Gottsegen National Institute of Cardiology. Prof. A. JÁNOSI

Adatbázis rendszerek SQL nyomkövetés

Mit mond a XXI. század emberének a statisztika?

Bevezetés az SPSS program használatába

Hasznos és kártevő rovarok monitorozása innovatív szenzorokkal (LIFE13 ENV/HU/001092)

Vizuális adatelemzés - Gyakorlat. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Döntéstámogatás terepi gyakorlatokon

COOPERATION IN THE CEREAL SECTOR OF THE SOUTH PLAINS REGIONS STRÉN, BERTALAN. Keywords: cooperation, competitiveness, cereal sector, region, market.

Vezetői információs rendszerek

A Margit híd pillérszobrának 3D-s digitális alakzatrekonstrukciója Nagy Zoltán 1 Túri Zoltán 2

Informatikai Tesztek Katalógus

WWW MULTIMÉDIA INTERFÉSZ ADATBÁZISHASZNÁLATHOZ AZ INTERNETEN

ERKI KATALIN* A felsőoktatás, mint versenypiac elemzése a Porter-modell alapján

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Megoldások. Az ismérv megnevezése közös megkülönböztető szeptember 10-én Cégbejegyzés időpontja

Korreláció számítás az SPSSben

Mapping Sequencing Reads to a Reference Genome

PREDIKTÍV ANALITIKÁVAL A KORAI ISKOLAELHAGYÓK SZÁMÁNAK CSÖKKENTÉSÉÉRT

Matematika és Számítástudomány Tanszék

SAS Enterprise BI Server

InCites bemutató. Tóth Szász Enikő Solution Specialist

Adatbányászat és Perszonalizáció az Oracle9i-ben

1. ábra: Magyarországi cégek megoszlása és kockázatossága 10-es Rating kategóriák szerint. Cégek megoszlása. Fizetésképtelenné válás valószínűsége

Abstract. 1. Bevezetés

Big Data adattárházas szemmel. Arató Bence ügyvezető, BI Consulting


Függetlenségvizsgálat, Illeszkedésvizsgálat

OROSZ MÁRTA DR., GÁLFFY GABRIELLA DR., KOVÁCS DOROTTYA ÁGH TAMÁS DR., MÉSZÁROS ÁGNES DR.

Információs Rendszerek Szakirány

KÖZPONTI STATISZTIKAI HIVATAL. Szóbeli vizsgatevékenység

AZ ELSŐÉVES HALLGATÓK INFORMATIKA TANULÁSI SZOKÁSAINAK VIZSGÁLATA ADATBÁNYÁSZATI ESZKÖZÖKKEL A BUDAPESTI MŰSZAKI FŐISKOLÁN

Component Soft és tovább

Új alapokon az egészségügyi informatika

Adatelemzés SAS Enterprise Guide használatával. Soltész Gábor solteszgabee[at]gmail.com

Lexington Public Schools 146 Maple Street Lexington, Massachusetts 02420

Gyöngyössolymosi Nagy Gyula Katolikus Általános Iskola és AMI

A cell-based screening system for RNA Polymerase I inhibitors

BIRDIE. Business Information Reporter and Datalyser. Előadó: Schneidler József

TANMENET. IV: Béla Általános Iskola Iskola címe: 3664 Járdánháza IV. Béla út 131. Csoport életkor (év): 14 Kitöltés dátuma (év.hó.nap):

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis

A szőlő- és gyümölcsös-ültetvények teljes körű felmérése és megújúló statisztikája

A USER Kft - mint Open Text partner - bemutatása

NÉHÁNY SZÓ SCIENTOMETRIÁRÓL

KIEGÉSZÍTŽ FELADATOK. Készlet Bud. Kap. Pápa Sopr. Veszp. Kecsk Pécs Szomb Igény

A modern e-learning lehetőségei a tűzoltók oktatásának fejlesztésében. Dicse Jenő üzletfejlesztési igazgató

Önkiszolgáló BI infrastruktúra az adatvezérelt teljesítménymenedzsmentben

SOFI State of the Future Index

Mérnök informatikus mesterszak mintatanterve (GE-MI) nappali tagozat/ MSc in, full time Érvényes: 2011/2012. tanév 1. félévétől, felmenő rendszerben

"A tízezer mérföldes utazás is egyetlen lépéssel kezdődik."

MAGASÉPÍTÉSI PROJEKT KOCÁZATAINAK VIZSGÁLATA SZAKMAI INTERJÚK TÜKRÉBEN 1 CSERPES IMRE 2

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

Haladó irodai számítógépes képzés tematika

Logisztikus regresszió október 27.

Átírás:

229 HAMPEL GYÖRGY*-FABULYA ZOLTÁN"-NAGY ELEMÉRNÉ DR. :*** Adatbányászati technikák alkalmazása magyar vállalkozások adatait tartalmazó adatbázison Microsoft Excel 2007-ben Abstract Using a simple data mining technique, the Analyze Key Influencers, in Excel 2007 Data Mining Add-ins, we searched for relationship among the seat (county and town), the form of business, the main activity, the number of employees and the annual income of the Hungarian companies. This technique uses the Naive Bayes algorithm. According to the used method the seat has no influencers. Most of the main activities have no influencers, but some activities (82 out of 495) have relationship with the other criteria, mainly with the form of business. The form of business (all 30 categories), the number of employees (17 of 18 categories) and the annual income (all 9 categories) are each others key influencers. ramer's association was used to check the results of the data mining. The ramer contingency coefficient showed similar results as the data mining, but the results also indicated that the strength of the association was less than moderate in all cases. The highest association were between the annual income and the number of employees (0.46, moderate association), the main activity and form of business (0.36, moderate association) and the annual income and the form of business (0.27, low association). 1. Bevezetés Az adatok bősége és a hatékony adatelemzési eszközök hiánya adatokban gazdag, de információban szegény helyzetet eredményez. A tárolt hatalmas adatmennyiség hatékony eszközök használata nélkül meghaladja az emberi elme felfogó- és befogadóképességét, így az összegyűjtött adatok ritkán látogatott adatsíremlékekké", adatarchívumokká válhatnak (Han 2006). Az adatok mennyiségének növekedésével egyre nagyobb szerepet kapnak az adatbányászati technikák, amelyek segítségével a hatalmas mennyiségű adathalmazból komolyabb vizsgálatok nélkül fel nem ismerhető összefüggések és ezáltal többletinformáció nyerhető ki. Az adatbányászat kifinomult statisztikai módszerek segítségével keresi az adatok közötti kapcsolatot. A módszerek egyik része keresi a mintákat és trendeket, a másik része a megerősítést (orbit 2006). Az adatbányászat leggyakoribb felhasználási területei: a vásárlási szokások, intenzitás, termékkapcsolatok feltárása; ügyfél szokásainak feltárása, majd ügyfélmenedzsment javítása személyre szabott szolgáltatásokkal; termelési folyamatok hatékonyságának javítása, kockázati tényezők kiszűrése. Ezen kívül minden olyan terület szóba jöhet, ahol egy rendelkezésre álló, nagy adatbázis felhasználásával előre nem ismert jellemzőket, összefüggéseket keresünk (Krotos 2002). Az intelligens adatbányászat eszközei módszerek széles skáláját integrálják magukba: matematikai programozási és statisztikai feldolgozások mellett tartalmaznak mesterséges intelligencia kutatások során kidolgozott tanuló módszereket is; továbbá a felhasználó munkáját magas szintű vizualizációval támogatják (Sántáné et al. 2008). * Adjunktus - Szegedi Tudományegyetem Mérnöki Kar. " Adjunktus - Szegedi Tudományegyetem Mérnöki Kar. Főiskolai tanár - Szegedi Tudományegyetem Mérnöki Kar.

230» Műszaki tudományok és informatika A korszerű irodai programcsomagok tartalmaznak olyan eszközöket, amelyek felhasználásával információ nyerhető ki az adatbázisokból. Néhány példa az Excel 2007 táblázatkezelő esetében: - Statisztikai függvények alkalmazása, statisztikai adatelemző eszközök; - Adatbázis-kezelő programokból átvett szolgáltatások, például rendezés és szűrés; - Adatlisták összesítése és elemzése kimutatások készítésével. A Microsoft SQL Server 2008 és Data Mining Add-ins for Office 2007 felhasználásával további adatbányászati lehetőségek is rendelkezésre állnak az Excel 2007-ben. Az eszközök egy része előre beállított modellel, algoritmussal dolgozik és akár komolyabb matematikai-statisztikai ismeretek nélkül is lehetőséget nyújt gyors számítások, elemzések elvégzésére (1. ábra). Emellett az adatbányászat területén jártas felhasználók számára rendelkezésre állnak olyan eszközök is, ahol a vizsgálathoz szükséges algoritmusok és modellek kiválaszthatók, paraméterezhetők. m&mmmmixt Analyze Key Detect Fíll From Forecast Highlight Scenario Predictíon Shopping Influencers ategories Example Exceptions Arvalysis * alculator Basket Analysis Table Analysis Tools 1. ábra. A táblázatkezelőben elérhető egyszerű adatbányászati eszközök [Forrás: Data Mining Add-ins fór Office 2007) 2. él A Központi Statisztikai Hivatal rendszeresen közöl adatokat magyarországi társas vállalkozásokról. Ez az adatbázis többek között tartalmazza a vállalkozások névét, cég formáját, székhelyét, fő- és melléktevékenységeit, éves árbevételét, valamint a foglalkoztatottak létszámát. élunk volt a Microsoft Excel 2007, Microsoft SQL Server 2008 és Data Mining Add-ins for Office 2007 programok felhasználásával vállalkozásokat tartalmazó adatbázisból megállapítani, hogy az ismérvek értékei között van-e kapcsolat. 3. Módszer A magyarországi székhellyel rendelkező társas vállalkozások táblázatban tárolt adatai: székhely megye (nominális skála, területi ismérv), székhely település (nominális skála, területi ismérv), fő tevékenység (nominális skála, minőségi ismérv), cégforma (nominális skála, minőségi ismérv), foglalkoztatottak száma kategória (ordinális skála, mennyiségi ismérv), éves árbevétel kategória (ordinális skála, mennyiségi ismérv). A kategóriák kialakításánál a KSH csoportosítását vettük figyelembe. A táblázat 476 070 rekordot, rekordonként 6 mezőt, összesen 2 856 420 adatot tartalmazott. A vizsgált kérdés megválaszolásához, az,»analyze Key Influencers" egyszerű adatbányászati eszközt alkalmaztuk. Az eszköz a naiv Bayes algoritmus felhasználásával számítja ki a vizsgált és a többi ismérv közötti feltételes valószínűséget. A számítások eredménye egy táblázat, amely azt tartalmazza, hogy a kiválasztott ismérvek értékei milyen relatív hatással vannak más ismérvek értékeire (2. ábra). Számolva az adatbányászat veszélyeivel - hogy ott is összefüggéseket talál számunkra a számítógép, ahol valójában nincs is (Beck-Bornholdt 1999) -, ellenőrzésként a vállalko-

Adatbányászati technikák alkalmazása magyar vállalkozások adatait tartalmazó...» 231 zások adatait tartalmazó adatbázis adatai alapján ramer-féle asszociációs együtthatót () is számoltunk. Az ismérvek függetlenségét feltételezve két ismérv közötti kapcsolat szorosságát vizsgálja, értéke 0-1 között lehet: 0, ha az ismérvek függetlenek és 1 ha az ismérvek között fuggvényszerű kapcsolat áll fenn (Petres 2005). Q Fogla koztatottak kategória Fl rtl*é*llml illl eg ferma kategeria F a p k h a o M a í a k kategória égforma kategória F s g M r a t f M M k a l i górta Foglalkoztatottak kategória FagtekaAtattek kategória ( Relative Impact Value OR Si 0-20 mil ló Ft jb'mat R ta 0-20 mil» Ft betéti társaság!» rét 0-2Da«óR 4001 mllió FII 4BW wwê R f c l a t 4001 mllió Ft falait 300-49915 ihbb-i «j 4001 m l l ó Rtelatt 4001 mllió FtlWatt WÊIÊÊIÊÊÊÊM MBH 100-148 4001 ml l é Fllalatt F a f k k M M * k kategória M M B 4001 mllió FI M i i Fogla koztatottak kategória 1 S M 9 6» 401 M R h l e t FogtekNÉsMtek kategória 2 M I 4001 mllió FI falait Fogla kostetottak kategória 200-249 ft 4001 m l U Rtelatt Fofltkajtetottak kategória Tax i w 4001 mllió Ft telatt FoglakojtatoUak kategória 2 0 4 9»!4fl01 wwé R t e l a t kortttet tetalftaaé gfl tilaaaóa égfetria kategcna 4001 mihó Ft falét Foatelioztetrttek kateaórta 900015 tela«hmni 2. ábra. Adatbányászat Excel 2007-ben: A 20 millió forint alatti, illetve 4 milliárd forint feletti éves árbevétel ismérvei és ismérvértékei (Forrás: a szerzők saját szerkesztése) 4. Eredmények Az asszociációs vizsgálat eredményeként egyetlen mutatószámmal megállapíthattuk, hogy milyen szoros az egyes, vizsgált ismérvek közötti kapcsolat. Az adatbányászat segítségével pedig egy részletesebb táblázatot kaptunk arról, hogy az egyes ismérvek milyen hatással vannak más ismérvek értékeikre. A publikáció terjedelmi korlátaira való tekintettel itt a vizsgálatok fő eredményei olvashatók: - Az éves árbevétel, a foglalkoztatottak száma és a fő tevékenység nem volt meghatározó abban a tekintetben, hogy egy adott vállalkozás székhelye melyik megyében, vagy melyik településen található. Ezt mind az adatbányászat, mind a megerősítette (a ramer-féle együttható értékeit lásd az 1. táblázatban). 1. táblázat. A székhely és egyéb ismérvek közötti kapcsolat a ramer-féle 0,12 égforma 0,04 égforma 0,13 0,11 0,09 (n. sz.: x2 P = 0,05 szinten a kapcsolat nem szignifikáns)

232» Műszaki tudományok és informatika - Adatbányászat segítségével a 495-féle fö tevékenységből mindössze 82 olyan tevékenységet találtunk, amelyeknél meg lehetett határozni jelentős mértékben ható ismérveket: a cégforma (60 tevékenység esetén), a székhely település (28 esetben) az éves árbevétel, a foglalkoztatottak száma és a székhely megye (17-17 esetben). A együttható értékeit a 2. táblázat mutatja. Látható, hogy ebben az esetben a mutató alapján képzett sorrend kissé eltér az adatbányászat eredményeitől. 2. táblázat. A fő tevékenység és egyéb ismérvek közötti kapcsolat a ramer-féle égforma 0,36 0,17 0,12 0,11 (n. sz.: x2 P = 0,05 szinten a kapcsolat nem szignifikáns) - Az összesen 30 cégformára leginkább ható ismérvek az adatbányászat szerint: a fö tevékenység (26 esetben), a foglalkoztatottak száma (14 esetben), az éves árbevétel (13 esetben) és a székhely település (10 esetben). A számított értékeket a 3. táblázat tartalmazza. Az kapcsolat szorossága alapján képzett sorrend mindkét módszer esetében megegyezik. 3. táblázat. A cégforma és egyéb ismérvek közötti kapcsolat a ramer-féle égforma 0,36 égforma 0,27 égforma 0,18 égforma 0,13 égforma 0,04 - A 18 létszám kategóriát megvizsgálva 17 kategóriában a foglalkoztatottak létszámára legtöbbször az éves árbevétel (20 eset) és a cég formája (7 eset) volt hatással. Az adatbányászati eredmények itt is összhangban álltak a együttható értékeivel (4. táblázat). 4. táblázat. A foglalkoztatottak száma és egyéb ismérvek közötti kapcsolat a ramer-féle égforma 0,46 0,27 0,17 (n. sz.: x2 P - 0,05 szinten a kapcsolat nem szignifikáns)

Adatbányászati technikák alkalmazása magyar vállalkozások adatait tartalmazó. 233 - Végül, a 9 árbevétel kategória ismérvértékeire a foglalkoztatottak létszáma (20 esetben), a cégforma (9 esetben) volt jelentős hatással az alkalmazott adatbányászati módszer szerint. A együttható értékeit az 5. táblázat tartalmazza. 5. táblázat. Az éves árbevétel és egyéb ismérvek közötti kapcsolat a ramer-féle 0,46 égforma 0,18 0,09 (n. sz.: x 2 p-0,05 szinten a Kapcsolat nem szignifikáns) A vizsgálatok eredményeként megállapíthatjuk, hogy a vállalkozások székhelyére a többi ismérvnek nincs hatása. Az esetek többségében a végzett tevékenységek is függetlenek a többi ismérv értékétől. A cégforma, a foglalkoztatottak létszáma és az éves árbevétel - az adatbányászat szerint - kölcsönös hatást gyakorolnak egymásra, azonban a kapcsolat erőssége - az asszociációs vizsgálat szerint - legjobb esetben is közepesnek, többnyire pedig közepesnél gyengébbnek mondható. Irodalomjegyzék Beck-Bornholdt, Hans-Peter et al. (1997): Der Hund, der Eier legt. Rowohlt Taschenbuch Verglag GmbH. München. orbitt, Terry (2006): The Power of Data Mining and Warehousing. redit Management. Apr. 2006, p. 32-33. Han, Jiawei et al. (2006): Data Mining. oncepts and Techniques. Second edition. Elsevier Inc. San Francisco. Harts, Doug (2008): Microsoft Office 2007 Business Intelligence. Reporting, Analysis and Measuerement from the Desktop. McGraw-Hill. New York. Kacsukné et al. (2007): Bevezetés az üzleti informatikába. Akadémiai Kiadó. Budapest. Krotos László (2002): Intelligens megoldások: a döntéstámogató rendszerek világa. Kód Gazdaságés Médiakutató Intézet. Budapest. Petres Tibor et al. (2005): Statisztika. Phare Távoktatáás 30/2005. SZTE GTK. Szeged. Sántáné-Tóth Edit et al. (2008): Döntéstámogató rendszerek. Panem Kiadó. Budapest.