KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY 2011. Department of Distributed Systems



Hasonló dokumentumok
KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems

KOPI. Plágiumkeresés különböző nyelvek között MTA SZTAKI DSD. Pataki Máté. Department of Distributed Systems

Fordítási plágiumok keresése

KOPI. Többnyelvű dokumentum nyelvének megállapítása MTA SZTAKI DSD. Vajna Miklós Pataki Máté MSZNY Department of Distributed Systems

World Wide DSD Web. Csoportmunka

Department of Distributed Systems MTA SZTAKI DSD

KOPI-Fotó: Plágiumkeresés egy lefotózott oldal alapján KOPI-Photo: Searching for plagiarism via a photo

KOPI. KOPI Online Plágiumkereső és Információs Portál DSD. Pataki Máté MTA SZTAKI. Elosztott Rendszerek Osztály

MTA SZTAKI MTA SZTAKI

KOPI. KOPI Plágiumkereső A digitális tartalmak védelmében DSD. Pataki Máté MTA SZTAKI. Elosztott Rendszerek Osztály

A plágiumkeresés dilemmái és megoldásai. Nagy István Monguz Kft. Networkshop 2016

Tartalom. Google szolgáltatásai. Googol Google. Története. Hogyan működik? Titka

DRM megoldások áttekintése

KOPI. Online Plágiumkereső és Információs Portál

DSD. Hibatűrő keresés digitalizált magyar nyelvű szövegekben. Pataki Máté Füzessy Tamás Kovács László Tóth Zoltán MTA SZTAKI DSD

Algoritmusok egynyelvű és különböző nyelvek közötti fordítások és plágiumok megtalálására. Pataki Máté MTA SZTAKI

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

A plágiumkereső szoftverek kiskapui

A Hunglish Korpusz és szótár

DSD DSD. Egy országos méretű orvosi adatbázissal kapcsolatos informatikai kihívások. Kovács László Pataki Balázs Pataki Máté MTA SZTAKI DSD

DSD. Szkennelt szövegek digitalizálása során keletkező hibák elemzése magyar szövegek esetében. Pataki Máté Tóth Zoltán MTA SZTAKI DSD

Algoritmusok egynyelvű és különböző nyelvek közötti fordítások és plágiumok megtalálására. Pataki Máté

Tartalom. Előszó feladat: Fordítás a megszokott eszközökkel A számítógép hatékony használatáról... 18

Web harvesztelés. Automatikus módszerekkel

DSD. A W3C Magyar Iroda Akadálymentesítési Törekvései Pataki Máté, Kovács László

Mutasd a hangod! intelligens gépi jeltolmács beszéd- és halláskárosultaknak. Mátételki Péter MTA SZTAKI. Department of Distributed Systems

EURES. Biztonságos külföldi munkavállalás. Horváth Máté EURES társhálózati koordinátor PM EURES Nemzeti Koordinációs Iroda október 17.

A NEMZETI KÖZNEVELÉSI PORTÁL

YANG ZIJIAN GYŐZŐ 杨子剑

Miért jó nekünk kutatóknak a felhő? Kacsuk Péter MTA SZTAKI

Fülöp Csaba, Kovács László, Micsik András

PÁRHUZAMOS IGEI SZERKEZETEK

A HUNGLISH PÁRHUZAMOS KORPUSZ

Rendszermodellezés: házi feladat bemutatás

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

IMOLA. Integrált MOKKA2, ODR2 és OLA. Vándorgyűlés Szombathely, 2008 július 25. Monguz MTA SZTAKI konzorcium

Algorithms to Detect Monolingual and Cross-lingual Similarity and Plagiarism. Máté Pataki

Márkaépítés a YouTube-on

Társasjáték az Instant Tanulókártya csomagokhoz

DSD DSD. Az új Nemzeti Rákregiszter előnyei kutatói szempontból. Kovács László Szentirmay Zoltán Surján György Gaudi István Pallinger Péter

Big Data: a több adatnál is több

2. 3. Keresés az Interneten. Navigáció az Interneten: Megoldások. Internetes keresés buktatói. 1. Keresőmotorok. Webes keresési lehetőségek

PATAKI MÁTÉ. KOPI Védelem, hogyan védjük digitális dokumentumainkat plagizálás ellen

Tudásbázis a közgazdasági szférában

A KOPI Plágiumkeresı dinamikus skálázási kísérletei MTA SZTAKI. Department of Distributed Systems. Micsik András

A KUTATÁS EREDMÉNYEI ZÁRÓJELENTÉS

Webes tartalmak digitális megőrzése

Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17

E-ügyintézés bevezetése Kaposvárott

Korpusznyelvészet és fordítástudomány

1. likmliiklexpokoflob. nmaihafqaholaflinnofwetbopfcuflitibfdobftercufdorpjbtjbjbmatmaikmliikletisuloikof KOFn`FtIHOFtIHomBlOfnBlinkbF:

OpenOffice.org mint fejlesztési platform

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Nyelvi tudásra épülő fordítómemória

Networkshop Szemantikusan annotált tartalom létrehozása intelligens szövegfeldolgozó eszközök támogatásával. Héder Mihály MTA SZTAKI

Képi információk hatékony feldolgozása széles társadalmi rétegeket érintő egészségügyi problémákban

DSD Akadálymentesítés mobilwebes környezetben

Enterprise extended Output Management. exom - Greendoc Systems Kft. 1

Teszt generálás webes alkalmazásokhoz

Hasznos és kártevő rovarok monitorozása innovatív szenzorokkal (LIFE13 ENV/HU/001092)

Elektronikus kereskedelem

Utolsó módosítás:

Többnyelv dokumentum nyelvének megállapítása

Utolsó módosítás:

CancerGrid - Grid alkalmazása rákellenes hatóanyagok keresésének felgyorsítására

WEB4GROUPS: CSOPORTMUNKA TÁMOGATÁS AZ INTERNETEN

A Nature SDIplus projekt céljai, tervei és eredményei MÁRKUS Béla NymE Geoinformatikai Kar

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

INTERNETES KERESÉS. Szórád László Óbudai Egyetem TMPK

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

MIDRA. A Miskolci Egyetem repozitóriuma. Espán Edina. Miskolci Egyetem Könyvtár, Levéltár, Múzeum. Networkshop 2012, Veszprém

Irányítópult Összehasonlítva a következővel: Webhely. 271 Látogatások. 79,70% Visszafordulások aránya

INDULÓ ÉS TUDÁSORIENTÁLT NON PROFIT SZERVEZET ÖNNÖN TUDÁSMENEDZSELÉSE LÉVAI ANDRÁS 1

Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS)

Programozási alapismeretek 1. előadás

IT biztonság 2015/2016 tanév. ELTE IT Biztonság Speci

Az első és az egyetlen. Beszélő fordítógép, beszélő szótár, beszélő kifejezés gyűjtemény

MTMT2. Konzultáció 2017 március 16

"A tízezer mérföldes utazás is egyetlen lépéssel kezdődik."

A felhőről általában. Kacsuk Péter MTA SZTAKI

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Számítógépes nyelvészet

PageRank algoritmus Hubs and Authorities. Adatbányászat. Webbányászat PageRank, Hubs and Authorities. Szegedi Tudományegyetem.

KOPI DSD. Pataki Máté MTA SZTAKI. Elosztott Rendszerek Osztály

Digitális terminológus

Teljesen elosztott adatbányászat pletyka algoritmusokkal. Jelasity Márk Ormándi Róbert, Hegedűs István

Önálló labor feladatkiírásaim tavasz

Digitális könyvtárak védelme a KOPI plágiumkereső rendszerrel

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására

Információtartalmú elemzések a közlekedéseredetű szennyezőanyagok hatásvizsgálatánál

A SEO szerepe egy híroldal életében BUBLIK MÁTÉ

Mobil fizetési megoldások alkalmazása a GUIDE@HAND alkalmazás családban

Felhő rendszerek és felhő föderációk. Kacsuk Péter MTA SZTAKI

Tananyagok adaptív kiszolgálása különböző platformok felé. Fazekas László Dr. Simonics István Wagner Balázs

Forráskód minőségbiztosítás

Az annotáció elvei. Oravecz Csaba MTA Nyelvtudományi Intézet MANYE vitaülés február 20.

1. DVNAV letöltése és telepítése

Hely- és kontextusfüggő alkalmazások fejlesztését támogató keretrendszer mobil környezetben

English Reader, Positive English

A tananyagfejlesztés céljai és a digitális tananyag szerkezete Angol nyelv

Átírás:

KOPI MTA SZTAKI Department of Distributed Systems Fordítási plágiumok keresése MSZNY 2011 Pataki Máté

Probléma 1. Sok a diák 2. Hasznos anyagok az interneten 3. Digitális szakdolgozatok 4. Jó nyelvtudás 1-3 könnyű plagizálás Plágiumkeresők KOPI 1-4 fordítási plágiumok??? 2

Feladat Feladat Működő szolgáltatás magyaroknak Az angol eredeti szöveg megtalálása a magyar fordítás ismeretében Egyéb felhasználási területek Párhuzamos korpusz építése Létező fordítások keresése Hírek, cikkek, anyagok terjedésének a vizsgálata Idézetkereső 3

Irodalom fordítási plágiumok CLEF 2010 Potthast: Overview of the 2nd International Competition on Plagiarism Detection After analyzing all 17 reports, certain algorithmic patterns became apparent to which many participants followed independently.... In order to simplify the detection of cross-language plagiarism, non- English documents in D are translated to English using machine translation (services). 4

Irodalom fordítási plágiumok Európában fontos téma Az algoritmusok nyelvpár-függők Magyar nyelvben három fő akadály nem kötött szórend ragozás jelentős nyelvtani különbözőség az angol nyelvtől rosszak az automatikus fordítók (erre) 5

Irodalom fordítási plágiumok Test cases for plagiarism detection software, Debora Weber-Wulff, HTW Berlin, 2010 48 különböző plágiumkereső, 42 teszt The biggest gap in all the plagiarism checkers was the inability to locate translated plagiarism. While this is widely expected as the technology to make such detections simply is not there. 6

Megoldás Lehetséges megoldások Jelenlegi egynyelvű algoritmus továbbfejlesztése n-gram 3-6 szó: 2-4 nagyságrend + szórend Teljesen új algoritmus??? 7

Az új algoritmus Mondatalapú szó, n-szó, tagmondat, bekezdés, dokumentum Hasonlósági metrika Lapos szótár, szószedet 8

Az új algoritmus Bag of words jellegű algoritmus előnyök nem kell szóegyértelműsítést alkalmazni nem kell szinonimaegyértelműsítést / -szűrést alkalmazni nem érzékeny a szavak sorrendjére hátrányok keresési tér nagy lineáris keresési idő 9

Az új algoritmus Fontosabb változók Stopszavak Tulajdonnevek / ismeretlen szavak Hasonlóság mértéke / hol vágunk (f+ / f-) Szótár mérete Talált/nem talált szavak értéke (szófajonként) 10

Tesztkörnyezet Angol Wikipedia 31GB XML 3 800 000 szócikk SZTAKI Desktop GRID Lesz letölthető szöveges változat több nyelven Hunspell Google Translate Csak teszteléshez Találati arány egyezik a kézi fordításéval 11

Statisztikák Mondat hossza és a megtalált fordítások aránya 12

Statisztikák Szózsák mérete és találati arány viszonya 13

Demó Wikipedia random article 14

Demó Google translate 15

Demó Keresés 16

Demó Keresés 17

Demó http://www.wikipedia.org http://translate.google.com http://kopi.sztaki.hu 18

Statisztikák mondatok száma találatok száma 1 2 3 4 5 1 0,555709 2 0,802606 0,308813 3 0,9123 0,583218 0,17161 4 0,961035 0,766092 0,400344 0,095365 5 0,982688 0,874424 0,603594 0,264845 0,052995 6 0,992309 0,934587 0,754096 0,453091 0,170722 7 0,996583 0,966664 0,854397 0,620362 0,327637 8 0,998482 0,98329 0,916785 0,750418 0,490307 9 0,999325 0,991732 0,953742 0,842869 0,634853 10 0,9997 0,995952 0,974854 0,904482 0,750449 Találati arány 19

Demó 20

Demó 21

Demó 22

Demó 23

Demó Nem talált mondatok 24

KOPI Portal http://kopi.sztaki.hu 25

Köszönöm a figyelmet! Web: http://dsd.sztaki.hu Email: o 26