KOPI MTA SZTAKI Department of Distributed Systems Plágiumkeresés különböző nyelvek között Pataki Máté
Témakörök Bemutatkozás KOPI Plágiumkereső Plágiumkereső működése Plágiumkeresés nyelvek között 2
MTA SZTAKI MTA SZTAKI Elosztott Rendszerek Osztály 1995. óta létezik 10 teljes állású munkatárs, és diákok Kutatás, fejlesztés, (online) szolgáltatások Munkák eloszlása: 80% EU-s k+f pályázatok 15% Hazai pályázatok 5% Belső projektek és szolgáltatások Három fő terület: Digitális könyvtárak és archívumok Csoportmunkát támogató technológiák Webes rendszerek 3
K+f projektek World Wide Web Government Portals Infrawebs Brein E-VOTING E-ADMINISTRATION Web4Groups Workflow Promóció Forum Collaborative Filtering Csoportmunka SZTAKI Szótár KOPI GeneSyS StreamOnTheFly EUTIST-AMI Abilities CORES Select Rating Digitális Könyvtárak HEKTÁR AQUA DELOS NoE 1 DELOS ORG DELOS NoE 2 4
További információk http://dsd.sztaki.hu 5
Probléma A plágium probléma a Felsőoktatás területén Középiskolában is egyre inkább Tudományos életben Digitális könyvtárak számára Könyvkiadóknak Cégek esetében is (pl. honlapok tartalma) Wikipedia 6
Probléma Túl sok diploma, cikk, dokumentum, internetes oldal, senki se ismerheti mindnek a tartalmát Nem elég érezni, hogy az adott mű plágium, be is kell bizonyítani Védekezés Másolás megakadályozása,másolásvédelem Másolás felderítése, plágiumkeresés 7
Plágiumkereső rendszerek Vízjel vagy ellenőrzőösszeg (PDF) Írás stílusa alapján azonosítja a szerzőt (authorship attribution, JGAAP) Nyílt keresőszolgáltatások (pl. google) Szöveges összehasonlítás (MS Word) Tesztet generál a dolgozatból (Glatt) Ismeretlen működésű keresők Szövegdarabolással működő rendszerek (KOPI) 8
Szövegdarabolással működő rendszerek szövegfájl Darabolás töredékek Tömörítés (MD5) ujjlenyomat Adatbázis feltöltés adatbázis Lekérdezés eredmény 9
A KOPI Plágiumkereső ismertetése KOPI Online Plágiumkereső és Információs Portál -internetes hasonlóság és plágiumkereső szolgáltatás Partner: Monash University, Melbourne 2002 ITEM pályázat (IHM-OM) MTA-SZTAKI Elosztott Rendszerek Osztály http://kopi.sztaki.hu/ 10
KOPI Védelem A KOPI Rendszerbe feltöltött dokumentumok A plagizálás gyorsan kiderül A forrás(oka)t is megjelöli Kisebb akár egy-két mondatnyi rész egyezőségét is kijelzi Megkerülése nehézkes és nem automatizálható A lebukás kockázata jelentősen megnő Másolásvédelemmel együtt is használható 11
KOPI Védelem A mű szabadon terjeszthető Nem kell másolásvédelemmel foglalkozni A keresőrendszerek is hozzáférnek (google) Több ember olvashatja Több ember fog rá hivatkozni Jelenlegi rendszer hátrányai egy egységes rendszert érdemes használnia mindenkinek fel kell tölteni a védeni kívánt dokumentumokat a rendszerbe, vagy elérhetővé kell tenni 12
Tapasztalat Sok esetben nem szándékos a plagizálás Nem oktatják az egyetemeken a helyes idézés módját Mekkora hasonlóságot várunk el 0% -nincs irodalomkutatás 10% 50% 100% -egyértelműen plágium Diákok és tanárok egyaránt használják a KOPI Plágiumkeresőt 13
Tapasztalat Több mint 13 000 felhasználó 20 000 dokumentum Közel 20 000 000 dokumentumrészlet Ebből 13 000 000 magyar BME, 400-500 diák, 5 feladat, 6 év 2007: 9 pár, 2009: 4 pár, 2010: 2 pár 14
Azonosságok Vélemény a mérésről A mérés számomra egész érdekesnek bizonyult, annak ellenére, hogy sok időt vett igénybe. Hasznos dolognak tartom a kategóriákon belüli kereséseket. Vélemény a mérésről A mérés számomra egész érdekesnek bizonyult, annak ellenére hogy sok időt vett igénybe. Hasznos dolognak tartom a kategóriákon belüli kereséseket és a dinamikus oldalmegvalósításokat. 15
Plágiumkeresés nyelvek között A projekt célja olyan algoritmusok elkészítése, amelyek lehetővé teszik, az angol eredeti szöveg megtalálását a magyar fordítás ismeretében interneten vagy digitális könyvtárakban, gyűjteményekben. Felhasználási területek: plágiumok felkutatása párhuzamos korpuszok automatikus építése hírek, cikkek, anyagok terjedésének a vizsgálata a hálózaton hasonló témákkal dolgozó emberek, kutatócsoportok felkutatása 16
Téma háttere Európában fontos téma Legaktívabbak: németek, spanyolok, csehek Az algoritmusok nyelvpár-függők pl.: angol, német, spanyol, francia, holland nyelvpárnál jó angol-lengyel esetében használhatatlan Magyar nyelvben három főbb hátrány nem kötött szórend ragozás jelentős nyelvtani különbözőség az angol nyelvtől rosszak az automatikus fordítók (erre) 17
Téma háttere Test cases for plagiarism detection software, Debora Weber-Wulff, HTW Berlin, 2010 48 különböző plágiumkereső, 42 teszt The biggest gap in all the plagiarism checkers was the inability to locate translated plagiarism. While this is widely expected as the technology to make such detections simply is not there. 18
Gépi fordítás Gépi fordítás Google translate Hogy lássuk ezt meg kell magyaráznunk az anarchizmus alapjául szolgáló morális szemléletmódot To see this of course we must expound the moral outlook underlying anarchism To see this you have to explain the underlying moral approach to anarchism Hogy látja ezt persze meg kell kifejteni a morális kilátások alapjául szolgáló anarchizmus 19
Demó 20
Demó 21
Demó 22
Demó 23
Demó 24
KOPI Portal http://kopi.sztaki.hu 25
Köszönöm a figyelmet! Web: http://dsd.sztaki.hu Email: Mate.Pataki@sztaki.hu 26