Ábrázolható-e a gazdálkodás világa és látszik-e az ábrán a csalás? Vágujhelyi Ferenc informatikai elnökhelyettes
A minimum információ 2
Nézzünk ki: a revízió Ez a folyószámla az adózó bevallásaira és befizetéseire épül. A világ itt még azonos az adózó által lefestettel. Magyarul az adóhivatal még nem lát, nem hall és nem kérdez.. Legyen hát szemünk, fülünk és szánk! A hagyományos módszer a revízió. CSAKHOGY ez lassú és drága, így okosan kell adózót választani. A kiválasztás kockázat elemzésre épül. A kockázatelemzés VISZONT......az adózó adataira (mivel csak az áll még rendelkezésre). Egy ügyesen felépített csalási lánc aligha látszik kockázatosnak. Így soha nem lesz revízióra kiválasztva! Következtetés: saját független adatforrások kellenek. 3
Több és valós idejű adat 1. Hagyjuk meg a bevallást, DE jelentést minden tranzakcióról. Pl: tételes áfabevallás, munkavállalás, pénztárgép, EKÁER. 2. Hivatalok közti adatcsere. Pl: jegyzői kereskedelmi engedélyek, EU-s hivatalok ÁFA adatcseréje (VIES). Export-import vámadatok. 3. Valós idejű (és online) adatok. Online számlázás, mint web service, online könyvelés... Time: 06:31:25 Reg ID: AB15C Weigh (kg): 7640 EMPTY! Freq: 5x today 4. Automatikus adatforrások Online pénztárgépek, automaták, Trade Control Rendszer (frsz., súly)... 4
Miért is? Konzisztencia ellenőrzés 5
Hol tartunk? 1995 2003 2008 2000 2012 Fejlesztés, a szemlélet változása A kiválasztás bevalláson és adónemen alapul Adózói életút komplex elemzése Adózói kapcsolatok elemzése 2013 2014 Tételes ÁFA Online pénztárgép Traffic Control System Az adattárház technológia felgyorsította a fejlesztést 6
Gráf analizis: hol húzzák a hasznot? 7
Miért kell ennyi adat? Azért, hogy csalásra utaló információt keressünk. Mit akarunk a csalással? Felderíteni! Az informatikai módszerek alkalmazásához definiálnunk kell a keresett fogalmat! 8
Mit keresünk? a költségvetés kárára, anyagi haszonért végzett, törvénytelen, nem általánosan gyakorolt (nem gyakori), jól átgondolt (megtervezett), észrevétlenül végrehajtott (rejtett), időben kibontakozó (jellemző az időbeli viselkedése) általában alaposan megszervezett bűncselekményt, azaz a csalást. 9
deviancia észlelése megalapozott Mi a felderítés? I Elkövetés időpontja Megakadályozni Szankcionálni tudás Jogi bizonyíthatóság Kockázatkezelés Mintaelemzés előkészítés időpont befejezett csalás t 10
Mi az informatika szerepe? Támogatja a szakembert: a revizort, a pénzügyőrt vagy a bűnügyi nyomozót. Hogyan támogatja? 1. Fejleszti és üzemelteti a kiszolgáló informatikai rendszereket. 2. Feldolgozza, elemzi vagy elemzésre előkészíti az adatokat. a) adattárház b) gépi tanulás A csalás definíciójának kiegészítése: és tevékenységének az informatikai rendszerekben nyoma van. 11
Adóbevallás Tételes ÁFA Kincstár EU VIES vám onl. pénztárgép Traffic Control banki tranzakc, személy ny.t. foglalkoztatás keresk. eng. cégjegyzék ingatlan, jármű pénzmosás jel. Social Media Hűségprogramok online számla Miből dolgozunk? (példák) 10 8 6 4 2 0 Súly Súly Felbontás Valós idő 12
Az ügyes csaló feladata: nem elég csalni, becsületesnek is kell látszani! itt látszani itt lenni 13
Az adatbányászat eszközrendszere Leíró elemzések, vizualizáció Stat Riport Grafika Stat MI Mat Riport Szegmentáció Mintavételezés Adatbázis Stat Riport Grafika Stat MI Mat Leíró elemzések Vizualizáció Matematikai statisztika Mesterséges intelligencia Matematika Stat MI Mat Modellezés 14
Regresszió REGRESSZIÓ: Magyarázó változók (OK) és az eredményváltozó (OKOZAT) közötti sztochasztikus kapcsolatot számszerűsíti Fundamentális okok feltárása Szigorú követelmény rendszer A modell formája: egyenlet Értelmezhető paraméterek, súlyok, score-ok Logisztikus regresszió: Modell kategóriás változóra, Valószínűségek predikciója Lineáris regresszió: Folytonos változó predikciója 15
Megoldható a nyomtalan csalás? Ha a csalásra létrehozott hálózatnak tetszőlegesen sok erőforrás áll a rendelkezésére, azaz bármennyi megbízható tisztségviselő, alkalmazott, különböző székhely, telephely, bármennyi áru, és a csalárd tevékenység elfedésére alkalmas törvényes tevékenység áll rendelkezésére, és ismertek a hatóságok által alkalmazott elemzési módszerek, akkor megfelelő szakértelemmel rövid ideig sikeres bűnszervezet működtethető. Ilyenkor minden ismert minta megjelenését elkerülhetik. A gépi tanulási módszerek is "nem deviáns" klaszterbe sorolják őket. A feladatot mégsem oldották meg! 16
A rejtőzködés korlátja sok erőforrás: veszteségbe fordítja a tevékenységet kevés erőforrás: a) felismerhető minta (mintaillesztés) b) kontrollált gépi tanulás a cél elárul: költségvetés megkárosítása haszon realizálása önmagában mintaképző 17
Sikeres és sikertelen rejtőzködés 18
Hamis mintafelismerés http://www.enterprisemission.com/mola.htm NASA 1976. október 2001. április Mi a téves minták elfogadható aránya? gépi határozat 0% kockázatkezeléshez kiválasztás 50% jövőbeni viselkedés becslése 80% 19
Mit tesz az informatika? Attribútum vektor mindenből és mindenkiből Súlyozások, normalizálások, linearizálás Összehasonlítások (pl. bezárt szög: összeadjuk az almát a körével) 0,176864 0,836592 0,287630 Kapcsolatok elemzése: csalás-terjedés erőforrások elemzésével Gráfminták keresése, időbeni változása Machine learning Kontroll!!! 20
Mi kell még? 1. Még több adat! 2. Adat külföldről (legalább az EU-ból!) Adatvédelem 1. Egyéni 2. Nemzetgazdasági anonim (attribútumaival nem azonosítható) gazdálkodó anonim (attribútumaival nem azonosítható) erőforrás azonosítható erőforrás azonosítható gazdálkodó 21
Szabályozás: fair anonimitás Nemzeti Közösségi anonimitás kölcsönös ESETI feloldása 22
Jelenlegi és jövőbeli(?) adatforrások beültetett RFID chip Bevallások e-pénz Online pénztárgép Magánszféra hiánya Bankok pénzmosásjelentése Online foglalkoztatói jel. EU VIES Social media CCTV Online számlázás Ingatlan, jármű központi nyilv. Traffic Control (közút/légi/vízi) Suspicious transaction reports Ellenőrzött online ker. Bevándorlási adatok Ellenőrzött online szerencsejáték vám helyi ker. engedélyek központi nyilv. 23
Anonim adatbázisok? Partner1 User1? Partner1? Partner1 User2 User3 24
Hol a határ? Új veszélyek jelentkeznek. A teljes gazdaság elemi adataival még nincs tapasztalatunk. A verseny majd abból áll, hogy szerezz meg mindent a versenytársról? Ha a teljes adatbázis kompromittálódik, mik a következmények? Egyes nagy cégek már rendelkeznek hasonló adatbázisokkal. 25
Köszönöm a figyelmet