Entity Resolution azonosságfeloldás

Hasonló dokumentumok
Entity Resolution azonosságfeloldás

Entity Resolution azonosságfeloldás

Big data amikor a probléma az adat mérete maga

Klasztervizsgálat, keresés hálózatokban

Adatbázisok I. Jánosi-Rancz Katalin Tünde 327A 1-1

Ontológiák és adatbázisok következtetés nyílt és zárt világokban

Big Data: a több adatnál is több

Köztesréteg adatbiztonsági protokollok megvalósítására

IT trendek és lehetőségek. Puskás Norbert

KÉPI INFORMÁCIÓK KEZELHETŐSÉGE. Forczek Erzsébet SZTE ÁOK Orvosi Informatikai Intézet. Összefoglaló

XSLT XML. DEIM Forum 2013 B2-1 XML XML XML XML XSLT XSLT XSLT XML XSLT XSLT

Üzleti intelligencia skálázható architektúrákon

Adatbányászati technikák (VISZM185) 2015 tavasz

Gráfok mindenhol. x $ SZENDI-VARGA JÁNOS IOT SOCIAL NETWORKS FRAUD DETECTION MASTER DATA MANAGEMENT RECOMMENDATION ENGINES. Internet of Things

Hozzáférés és újrahasznosítás

Puskás Béla: Hálózatelméleti alapok

Intézményi interface technikai dokumentáció

NYUGAT-BALATONI TURISZTIKAI IRODA TÉRSÉGI TDM PÁLYÁZATI ELEMEK. 1. Kitáblázás Összesen eFt

GENERÁCIÓS ADATBÁZISOK A BIG DATA KÜLÖNBÖZŐ TERÜLETEIN

Osztott alkalmazások fejlesztési technológiái Áttekintés

Teszt generálás webes alkalmazásokhoz

A.NET keretrendszer (.NET Framework) három alapvetõ összetevõbõl áll:

A hierarchikus adatbázis struktúra jellemzői

Intelligens Érzékelők

Poszeidon (EKEIDR) Irat és Dokumentumkezelő rendszer webes felület

A Jövő Internet Nemzeti Kutatási Program és eredményei

Google App Engine az Oktatásban 1.0. ügyvezető MattaKis Consulting

Crawler.NET: Elosztott webrobotok koordinálása és vezérlése

Szakmai CD-ROM és online adatbázisok

Az MTMT intézményi kezelése 2011 március 10. Dr. Makara B. Gábor akadémikus, az MTMT Felügyelő Testületének elnöke

Az információs portáloktól a tudásportálokig

Mérnök informatikus (BSc) alapszak levelező tagozat (BIL) / BSc in Engineering Information Technology (Part Time)

Vasúti fejlesztések. Dr. Szepessy Zsolt K+F ágazatvezető. evopro Kft.

1. MELLÉKLET. Távhasználat biztosítása azonosító bróker (AAI) közreműködésével

Kombinatorikus problémák a távközlésben

Probabilisztikus modellek V: Struktúra tanulás. Nagy Dávid

A mai problémákra mai megoldások kellenek.

web2-es és web3-as szolgáltatások

Komplex hálózatok moduláris szerkezete

Számítógépes Hálózatok ősz 2006

Organizáció. Számítógépes Hálózatok ősz Tartalom. Vizsga. Web-oldal

A USER Kft - mint Open Text partner - bemutatása

MOBIL ÉS VEZETÉK NÉLKÜLI

Eduroam változások - fejlesztések, fejlődések. Mohácsi János KIFÜ NIIF Program HBONE Workshop 2015

ERN-ITHACA. Dr. Hadzsiev Kinga PTE KK Orvosi Genetikai Intézet

1 Copyright 2011, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 7

Big Data tömeges adatelemzés gyorsan

Data Vault 2.0 és az Oracle DW/BD referencia architektúra. Gollnhofer Gábor Meta Consulting Kft.

Hasznos és kártevő rovarok monitorozása innovatív szenzorokkal (LIFE13 ENV/HU/001092)

DSD DSD. Egy országos méretű orvosi adatbázissal kapcsolatos informatikai kihívások. Kovács László Pataki Balázs Pataki Máté MTA SZTAKI DSD

Hogy keres a Google?

Diagnosztikai szemléletű talajtérképek szerkesztése korrelált talajtani adatrendszerek alapján

GS1 Logger for Staff. Felhasználói kézikönyv. Verzió 2.3, GS1 Logger Staff Felhasználói kézikönyv

Folyamattervezéstıl a megvalósításig

IT Asset Management. IBM Tivoli Asset Management for IT Kubicsek Tamás IBM Corporation

MMK-Informatikai projekt ellenőr képzés 4

5. modul - Adatbázis-kezelés

Data Governance avagy adatvagyon kezelés Rövid bevezető. Gollnhofer Gábor DMS Consulting

Végpont védelem könnyen és praktikusan

Data Governance avagy adatvagyon kezelés Rövid bevezető. Gollnhofer Gábor DMS Consulting

A szemantikus világháló oktatása

DNS hamisítás szerepe, működése, védekezés. Benda Szabolcs G-5S5A Peller Nándor G-5i10 Sőregi Gábor G-5S5A

Transzport Réteg. Transzport réteg protokollok

Kalman-féle rendszer definíció

Üzemeltetési kihívások 2015

Ismeretlen kifejezések és a szófaji egyértelm sítés

Adatbázis-kezelés ODBC driverrel

SAS Enterprise BI Server

Skills Development at the National University of Public Service

Cloud computing. Cloud computing. Dr. Bakonyi Péter.

SQL Server High Availability. Bevezetés az SQL Server magas rendelkezésre állási megoldásaiba

Klaszterezés, 2. rész

Hadoop és használata az LPDS cloud-on

Cloud computing Dr. Bakonyi Péter.

NIIF Központi Elosztott Szolgáltatói Platform

Az Akadémiai Kiadó folyóirat-kiadási tapasztalatai

GAZDASÁGINFORMATIKA ALAPJAI...

1. nap A terem. 10:00-12:30 Regisztráció. 12:30-12:45 Megnyitó

Think customer Hatékony ügyfélszolgálat és megvalósítási módszertan. WorkShop

Organizáció. Számítógépes Hálózatok Gyakorlati jegy. Vizsga. Web-oldal

Perzisztencia. ANTAL Margit. Sapientia - EMTE. ANTAL Margit Java technológiák 11. előadás Perzisztencia

Döntési eszközök mikrovállalkozásoknak

Az Ethernet példája. Számítógépes Hálózatok Az Ethernet fizikai rétege. Ethernet Vezetékek

Adatbázisok I Adatmodellek komponensei. Adatbázis modellek típusai. Adatbázisrendszer-specifikus tervezés

Big Data. Benczúr András Big Data Lendület kutatócsoport MTA SZTAKI, Informatika Laboratórium Benczúr András

DB2 Connect: DB2 Connect kiszolgálók telepítése és konfigurálása

Gyakorló feladatok adatbányászati technikák tantárgyhoz

A SIKERES TELEPÜLÉSMARKETING KULCSA AZ ELÉGEDETT LAKOSSÁG. Marien Anita egyetemi tanársegéd Miskolci Egyetem, Marketing Intézet

Cluster Analysis. Potyó László

Integrált Kampánymenedzsment Rendszer kialakítása

Bevezetés: Relációs adatmodell

DSD. A W3C Magyar Iroda Akadálymentesítési Törekvései Pataki Máté, Kovács László

Java. Perzisztencia. ANTAL Margit. Java Persistence API. Object Relational Mapping. Perzisztencia. Entity components. ANTAL Margit.

MVC Java EE Java EE Kliensek JavaBeanek Java EE komponensek Web-alkalmazások Fejlesztői környezet. Java Web technológiák

Accor Hospitality komplex distribution rendszere

Profitálj naponta Te is az egyre növekvő globális online reklámpiac bevételeiből!

OSINT. Avagy az internet egy hacker szemszögéből

ÓBUDAI EGYETEM Neumann János Informatikai Kar Informatikai Rendszerek Intézet Témavezető: Bringye Zsolt

Rejtett részcsoportok és kvantum-számítógépek

SZTE Nyílt Forrású Szoftverfejlesztő és Minősítő Kompetencia Központ

Átírás:

1 Entity Resolution azonosságfeloldás Entity Resolution (ER) is the process of identifying groups of records that refer to the same real-world entity. rejtett, való világbeli entitásokhoz köthető megfigyelések csoportosítása az entitásonk köré MIBE konferencia, 2011.06.16. Sidló Csaba - sidlo@ilab.sztaki.hu Adatbányászat és Webes Keresés Kutatócsoport: http://datamining.sztaki.hu

2 Példa: Google Places példa forrása: Google Maps keresés: MTA SZTAKI

3 Példa: ügyfelek gyakori modell: előállítandó rekordok egy particionálása, csoportosítása gyakori problémák: heterogén adatforrások: redundáns, örökölt, átfedő stb. rendszerek heterogén formátum: különböző sémák, szabványok, szokások (pl. postai címek) adatminőség, lexikális heterogenitás: adatbeviteli hibák, hiányzó, kitöltetlen attribútumok, szabályok megkerülése (pl. default értékek, 11111-es azonosítók vagy 1970.01.01 dátum), változó attribútumok (név, cím, telefonszám stb.)

4 Példa: ügyfelek jellemzően sok attribútum: természetes + generált (id) heterogén forrásrendszerek (különböző portfóliók, örökölt rendszerek, összeolvadások stb.); hány ügyfelünk van igazából? kerestük már ajánlattal? szerződtünk már vele valaha?... felhasználás: CRM, CDI (Customer Data Integration) marketing (kampányokhoz: vásárolt címadatok), döntéstámogatás, adattárházak, adatintegráció, törzsadat építés (MDM: Master Data Management),... bonyolultabb igények: háztartások azonosítása kapcsolatok felhasználása: házastárs, telefonhívás, emailküldés, szerződő, kedvezményezett hasonlóság felhasználása: névhasonlóság, címhasonlóság stb. tanuló rendszerek: szabályok, minták felismerése,...

5 További alkalmazások klasszikus feladat: publikációs adatbázisok kevés attribútum: írók nevei, esetleg munkahely kapcsolatok entitások közt: közösen írt cikkek ügyfelek: web:... pl: Yahoo közel-keleti felvásárlás: mennyi az új felhasználók száma valójában mennyit érdemes költeni? weboldalak ('mirror detection'); entitások weboldalakon: személyek, dátumok, helyek stb.; hány Facebook / IWIW felhasználó van igazából? mutasd a keresett személy összes regisztrációját! termék-keresők termékei; mutasd az összes ajánlatot a keresett termékre kép forrása: http://www.flickr.com/photos/popilop/331357312/

6 Az azonosságfeloldás témaköre elnevezések (eltérő elnevezések eltérő megközelítések): record linkage (1960), duplicate detection, duplicate record detection, merge/purge; deduplikáció ( dedup ), duplikátum-keresés entity resolution azonosságfeloldás instance identification, reference reconciliation, coreference resolution, database hardening, kapcsolódó területek: klaszterezés (adatbányászat), similarity join, string hasonlóságok, adatminőség, adattisztítás, adattárházak, adatintegráció, információ integráció, aktív kutatási terület, példa: Very Large Databases konferencia, 2010: nagyságrendileg 80-90 cikkből ~5 db entity resolution cikk, ~10-15 szorosan kapcsolódó cikk

7 Az azonosságfeloldás feladatának megfogalmazása modell: rekordok halmaza / fa: XML (szemantikus web, ontológiák) / gráf match-merge összevonás, reprezentatív elemmel / klaszterezés: csoportosítás, partíciókkal közelítő (valószínűségi, fuzzy) / egzakt (szabályalapú) megoldások felügyelt tanulás (tanító halmaz) / nem felügyelt tanulás

8 A fő nehézség: számítási bonyolultság futásidő példa ügyfél adatbázison, ~15 M rekord, egy átlagosnál kicsit jobb asztali gépen, többféle hatékony algoritmus (saját implementációk): forrás: Cs. I. Sidló: Generic Entity Resolution in Relational Databases, ADBIS 2009

9 Egy megoldás: elosztott algoritmusok futásidő példa ügyfél adatbázison, ~200 M rekord, gyengébb 15 gép, különböző elosztott algoritmusok saját osztott algoritmus változatok, ügyfél adatokon

10 További nehézség: bonyolult logika hasonlóságok: karakterlánc hasonlóságok: szerkesztési, kiejtés szerinti stb., dokumentumok hasonlósága, képek hasonlósága, stb. átfedő csoportok, nem egyértelmű csoportosítások (pl. találjuk meg a háztartásokat): fuzzy csoportosítás (egyszerre több entitáshoz tartozás) valószínűségi modellek (bizonyos valószínűség melletti összetartozás) gépi tanulás: következtessünk ismert (pl. kézzel összerendelt) entitásokból minőség mérése: nehéz összehasonlítási alaphoz jutni események, tranzakciók felhasználása: aktivitás alapú azonosságfeloldás hibák elkülönítése: hibás összevonás büntetése

11 Elérhető eszközök egyedi megoldások: adatbázis lekérdezések, saját heurisztikák, egyedi algoritmusok kutatási vagy free, open source: FEBRL: ausztrál SERF: Stanford University MTB: Duisburg DDUpe: Maryland MARLIN String join algoritmusok (PPJoin+), klaszterező algoritmusok stb. kereskedelmi: különböző megközelítések, csomagok, környezetek, teljesítmény, ár Infosolve OpenDQ, IBM QualityStage, Eobjects DataCleaner, Sparsity Technologies Daurum, Infoglide Identity Resolution, The Link King (SAShoz),...

12 Főbb források Ivan P. Fellegi, Alan B. Sunter: A Theory for Record Linkage, Journal of the American Statistical Association, 1969 Ahmed K. Elmagarmid and Panagiotis G. Ipeirotis and Vassilios S. Verykios: Duplicate record detection: A survey, IEEE TKDE, 2007 Benjelloun, Omar and Garcia-Molina, Hector and Menestrina, David and Su, Qi and Whang, Steven Euijong and Widom, Jennifer (2005): Swoosh: A Generic Approach to Entity Resolution. Technical Report. Stanford. 2009: VLDB Journal Bhattacharya, Indrajit and Getoor, Lise: Collective entity resolution in relational data. ACM Trans. Knowl. Discov. Data, 2007 S. E. Whang, D. Menestrina, G. Koutrika, M. Theobald, H. Garcia-Molina: Entity Resolution with Iterative Blocking, SIGMOD 2009 M.Yakout, A.K.Elmagarmid, H.Elmeleegy, M.Ouzzani, A.Qi: Behavior Based Record Linkage, VLDB 2010 jó kiindulási pont: Stanford Entity Resolution Framework, http://infolab.stanford.edu/serf/ XML könyvfejezet magyar bemutatása: http://liftinstinct.blogspot.com/2010/09/soft-computing-in-xml-data-management.html