KOPI. Plágiumkeresés különböző nyelvek között MTA SZTAKI DSD. Pataki Máté. Department of Distributed Systems

Hasonló dokumentumok
Department of Distributed Systems MTA SZTAKI DSD

KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems

World Wide DSD Web. Csoportmunka

MTA SZTAKI MTA SZTAKI

KOPI. KOPI Plágiumkereső A digitális tartalmak védelmében DSD. Pataki Máté MTA SZTAKI. Elosztott Rendszerek Osztály

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY Department of Distributed Systems

KOPI. KOPI Online Plágiumkereső és Információs Portál DSD. Pataki Máté MTA SZTAKI. Elosztott Rendszerek Osztály

DRM megoldások áttekintése

DSD DSD. Egy országos méretű orvosi adatbázissal kapcsolatos informatikai kihívások. Kovács László Pataki Balázs Pataki Máté MTA SZTAKI DSD

DSD. Hibatűrő keresés digitalizált magyar nyelvű szövegekben. Pataki Máté Füzessy Tamás Kovács László Tóth Zoltán MTA SZTAKI DSD

KOPI. Online Plágiumkereső és Információs Portál

KOPI-Fotó: Plágiumkeresés egy lefotózott oldal alapján KOPI-Photo: Searching for plagiarism via a photo

PATAKI MÁTÉ. KOPI Védelem, hogyan védjük digitális dokumentumainkat plagizálás ellen

Digitális könyvtárak védelme a KOPI plágiumkereső rendszerrel

KOPI. Többnyelvű dokumentum nyelvének megállapítása MTA SZTAKI DSD. Vajna Miklós Pataki Máté MSZNY Department of Distributed Systems

KOPI DSD. Pataki Máté MTA SZTAKI. Elosztott Rendszerek Osztály

A plágiumkereső szoftverek kiskapui

Algoritmusok egynyelvű és különböző nyelvek közötti fordítások és plágiumok megtalálására. Pataki Máté MTA SZTAKI

Fordítási plágiumok keresése

Fülöp Csaba, Kovács László, Micsik András

Google App Engine az Oktatásban 1.0. ügyvezető MattaKis Consulting

Algoritmusok egynyelvű és különböző nyelvek közötti fordítások és plágiumok megtalálására. Pataki Máté

A plágiumkeresés dilemmái és megoldásai. Nagy István Monguz Kft. Networkshop 2016

Informatika szóbeli vizsga témakörök

MKE 44. Vándorgyűlés Győr,

A Hunglish Korpusz és szótár

SZÓBELI ÉRETTSÉGI TÉMAKÖRÖK

Mesterséges Intelligencia Elektronikus Almanach

IMOLA. Integrált MOKKA2, ODR2 és OLA. Vándorgyűlés Szombathely, 2008 július 25. Monguz MTA SZTAKI konzorcium

DSD. A W3C Magyar Iroda Akadálymentesítési Törekvései Pataki Máté, Kovács László

SZTE Nyílt Forrású Szoftverfejlesztő és Minősítő Kompetencia Központ

E-ügyintézés bevezetése Kaposvárott

A NEMZETI KÖZNEVELÉSI PORTÁL

A KÖZÉPSZINTŰ ÉRETTSÉGI VIZSGA INFORMATIKA TÉMAKÖREI: 1. Információs társadalom

WEB4GROUPS: CSOPORTMUNKA TÁMOGATÁS AZ INTERNETEN

A tananyag beosztása, informatika, szakközépiskola, 9. évfolyam 36

Üzleti lehetőségek a nyílt forráskódú fejlesztésben

BARANGOLÁS AZ E-KÖNYVEK BIRODALMÁBAN Milyen legyen az elektonikus könyv?

Az információs portáloktól a tudásportálokig

I. Felsőoktatási Marketing Verseny Versenyképes honlap kritériumrendszere

WEB2GRID: Desktop Grid a Web 2.0 szolgálatában

Tudásbázis a közgazdasági szférában

Információs társadalom

Az egyetemi nyílt hozzáférésű publikációk és kiadói tevékenység tudománymetriai vizsgálata

Tartalom. Google szolgáltatásai. Googol Google. Története. Hogyan működik? Titka

6. Óravázlat. frontális, irányított beszélgetés. projektor, vagy interaktív tábla az ismétléshez,

EPALE. Európai elektronikus platform a felnőttkori tanulásért. Karvázy Eszter Nemzeti Szakképzési és Felnőttképzési Hivatal december 9.

TriDoc Easy document management

2. 3. Keresés az Interneten. Navigáció az Interneten: Megoldások. Internetes keresés buktatói. 1. Keresőmotorok. Webes keresési lehetőségek

ÉRETTSÉGI TÉTELCÍMEK 2018 Informatika

Lázár kollokvium Kutatók a neten. Albert G. ELTE - Térképtudományi és Geoinformatikai Tanszék

Többnyelvű tezaurusz építése és szolgáltatása webes környezetben

Nyelv-ész-gép Új technológiák az információs társadalomban

Teljesítménymodellezés

Evezz a mélyre! Haladó kutatási tippek bölcsészet- és társadalomtudományok témakörben

Információs társadalom

1. tétel: A kommunikációs folyamat

Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS)

MTMT adminisztrátori felület és teendők. Mátyás Melinda, Szabó Panna november 4. ELTE Egyetemi Könyvtár

Az Educatio Társadalmi Szolgáltató Nonprofit Kft. infokommunikációs fejlesztései. Koplányi Emil Digitális Pedagógiai Osztály

A korszerű HR rendszer

Rámpát a honlapokra úton az akadálymentes honlapok felé Pataki Máté

Adatbázisok 2018-ban ADT- ARCANUM DIGITÁLIS TUDOMÁNYTÁR AKADÉMIAI KIADÓ FOLYÓIRATAI AKADÉMIAI KIADÓ MERSZ ADATBÁZIS AKADÉMIAI KIADÓ SZÓTÁRAI CAMBRIDGE

Szövetségi (föderatív) jogosultságkezelés

INTERNETES KERESÉS. Szórád László Óbudai Egyetem TMPK

Az Open Data jogi háttere. Dr. Telek Eszter

Innováció alapjai. Dr. Reith János DIRECT LINE KFT.

A wiki módszer. Internetes tartalom kooperatívan, szabad szoftveres alapon. Gervai Péter

Az Eszterházy Károly Egyetem könyvtárai szeptember 22.

Igényfelmérés TÁMOP / 08 / 01. kódjelű pályázat. elkészítéséhez

AZ OFI SZEREPE ÉS FELADATAI A PEDAGÓGUSOK SZAKMAI MUNKÁJÁNAK TÁMOGATÁSÁBAN

Miért jó nekünk kutatóknak a felhő? Kacsuk Péter MTA SZTAKI

Kétféle ismeret van: magunk rendelkezünk a szükséges információval, vagy tudjuk, hogy az hol lelhető fel. Samuel Johnson

Elosztott könyvtári rendszerek megvalósítása a Z39.50 és az OAI protokoll használatával

Önálló labor feladatkiírásaim tavasz

Az Eszterházy Károly Egyetem Könyvtári szolgáltatásai szeptember 17. Gál Tibor Tittel Pál Könyvtár

Digitális kultúra, avagy hová lett az informatika az új NAT-ban? Farkas Csaba

Hely- és kontextusfüggő alkalmazások fejlesztését támogató keretrendszer mobil környezetben

A netgeneráció kihívásai Bedő Ferenc

Partnerségi kapcsolatok kialakítása

EPALE. Európai elektronikus platform a felnőttkori tanulásért január, NSZFH, Kovácsné Péter Éva

SeaHunter a fejvadász

A záró rendezvény programja

Pedagógiai információforrások, adatbázisok. Tittel Pál Könyvtár és Médiacentrum Gál Tibor március 4.

ELOSZTOTT DIGITÁLIS KÖNYVTÁRI PROJEKT EURÓPÁBAN

SZTAKIMemory A DIGITÁLIS INFORMÁCÓK HOSSZÚ TÁVÚ MEGŐRZÉSE ARCHÍVUMRENDSZER INTÉZETI KÖZÖS MEMÓRIA SZÁMÁRA

Kalumet Számlázó. Termék leírás

1. tétel: A kommunikációs folyamat

Az első és az egyetlen. Beszélő fordítógép, beszélő szótár, beszélő kifejezés gyűjtemény

webmanko.hu videó alapú távoktatási és tesztrendszer

A BRÓDY SÁNDOR MEGYEI ÉS VÁROSI KÖNYVTÁR MUZEÁLIS ÉRTÉKŰ HELYI SAJTÓTERMÉKEINEK DIGITALIZÁLÁSA ÉS INTERNETES KÖZZÉTÉTELE

DSD. Szkennelt szövegek digitalizálása során keletkező hibák elemzése magyar szövegek esetében. Pataki Máté Tóth Zoltán MTA SZTAKI DSD

Mai előadásunk mottója:

A NEMZETI KÖZOKTATÁSI PORTÁL JELENTŐSÉGE A HATÁRON TÚLI ISKOLÁK SZEMPONTJÁBÓL

Online tartalmak konzorciumi beszerzése

Zimbra levelező rendszer

Hogyan írjunk szakdolgozatot? v1.1

Tartalom. Dr. Bakonyi Péter c. docens. Midterm review: összefoglaló megállapítások. A A célkitűzések teljesülése 2008-ig

Dr. Bakonyi Péter c. docens

Infokommunikációs eszközök szerepe a sikeres pályáztatás illetve megvalósítás érdekében

Átírás:

KOPI MTA SZTAKI Department of Distributed Systems Plágiumkeresés különböző nyelvek között Pataki Máté

Témakörök Bemutatkozás KOPI Plágiumkereső Plágiumkereső működése Plágiumkeresés nyelvek között 2

MTA SZTAKI MTA SZTAKI Elosztott Rendszerek Osztály 1995. óta létezik 10 teljes állású munkatárs, és diákok Kutatás, fejlesztés, (online) szolgáltatások Munkák eloszlása: 80% EU-s k+f pályázatok 15% Hazai pályázatok 5% Belső projektek és szolgáltatások Három fő terület: Digitális könyvtárak és archívumok Csoportmunkát támogató technológiák Webes rendszerek 3

K+f projektek World Wide Web Government Portals Infrawebs Brein E-VOTING E-ADMINISTRATION Web4Groups Workflow Promóció Forum Collaborative Filtering Csoportmunka SZTAKI Szótár KOPI GeneSyS StreamOnTheFly EUTIST-AMI Abilities CORES Select Rating Digitális Könyvtárak HEKTÁR AQUA DELOS NoE 1 DELOS ORG DELOS NoE 2 4

További információk http://dsd.sztaki.hu 5

Probléma A plágium probléma a Felsőoktatás területén Középiskolában is egyre inkább Tudományos életben Digitális könyvtárak számára Könyvkiadóknak Cégek esetében is (pl. honlapok tartalma) Wikipedia 6

Probléma Túl sok diploma, cikk, dokumentum, internetes oldal, senki se ismerheti mindnek a tartalmát Nem elég érezni, hogy az adott mű plágium, be is kell bizonyítani Védekezés Másolás megakadályozása,másolásvédelem Másolás felderítése, plágiumkeresés 7

Plágiumkereső rendszerek Vízjel vagy ellenőrzőösszeg (PDF) Írás stílusa alapján azonosítja a szerzőt (authorship attribution, JGAAP) Nyílt keresőszolgáltatások (pl. google) Szöveges összehasonlítás (MS Word) Tesztet generál a dolgozatból (Glatt) Ismeretlen működésű keresők Szövegdarabolással működő rendszerek (KOPI) 8

Szövegdarabolással működő rendszerek szövegfájl Darabolás töredékek Tömörítés (MD5) ujjlenyomat Adatbázis feltöltés adatbázis Lekérdezés eredmény 9

A KOPI Plágiumkereső ismertetése KOPI Online Plágiumkereső és Információs Portál -internetes hasonlóság és plágiumkereső szolgáltatás Partner: Monash University, Melbourne 2002 ITEM pályázat (IHM-OM) MTA-SZTAKI Elosztott Rendszerek Osztály http://kopi.sztaki.hu/ 10

KOPI Védelem A KOPI Rendszerbe feltöltött dokumentumok A plagizálás gyorsan kiderül A forrás(oka)t is megjelöli Kisebb akár egy-két mondatnyi rész egyezőségét is kijelzi Megkerülése nehézkes és nem automatizálható A lebukás kockázata jelentősen megnő Másolásvédelemmel együtt is használható 11

KOPI Védelem A mű szabadon terjeszthető Nem kell másolásvédelemmel foglalkozni A keresőrendszerek is hozzáférnek (google) Több ember olvashatja Több ember fog rá hivatkozni Jelenlegi rendszer hátrányai egy egységes rendszert érdemes használnia mindenkinek fel kell tölteni a védeni kívánt dokumentumokat a rendszerbe, vagy elérhetővé kell tenni 12

Tapasztalat Sok esetben nem szándékos a plagizálás Nem oktatják az egyetemeken a helyes idézés módját Mekkora hasonlóságot várunk el 0% -nincs irodalomkutatás 10% 50% 100% -egyértelműen plágium Diákok és tanárok egyaránt használják a KOPI Plágiumkeresőt 13

Tapasztalat Több mint 13 000 felhasználó 20 000 dokumentum Közel 20 000 000 dokumentumrészlet Ebből 13 000 000 magyar BME, 400-500 diák, 5 feladat, 6 év 2007: 9 pár, 2009: 4 pár, 2010: 2 pár 14

Azonosságok Vélemény a mérésről A mérés számomra egész érdekesnek bizonyult, annak ellenére, hogy sok időt vett igénybe. Hasznos dolognak tartom a kategóriákon belüli kereséseket. Vélemény a mérésről A mérés számomra egész érdekesnek bizonyult, annak ellenére hogy sok időt vett igénybe. Hasznos dolognak tartom a kategóriákon belüli kereséseket és a dinamikus oldalmegvalósításokat. 15

Plágiumkeresés nyelvek között A projekt célja olyan algoritmusok elkészítése, amelyek lehetővé teszik, az angol eredeti szöveg megtalálását a magyar fordítás ismeretében interneten vagy digitális könyvtárakban, gyűjteményekben. Felhasználási területek: plágiumok felkutatása párhuzamos korpuszok automatikus építése hírek, cikkek, anyagok terjedésének a vizsgálata a hálózaton hasonló témákkal dolgozó emberek, kutatócsoportok felkutatása 16

Téma háttere Európában fontos téma Legaktívabbak: németek, spanyolok, csehek Az algoritmusok nyelvpár-függők pl.: angol, német, spanyol, francia, holland nyelvpárnál jó angol-lengyel esetében használhatatlan Magyar nyelvben három főbb hátrány nem kötött szórend ragozás jelentős nyelvtani különbözőség az angol nyelvtől rosszak az automatikus fordítók (erre) 17

Téma háttere Test cases for plagiarism detection software, Debora Weber-Wulff, HTW Berlin, 2010 48 különböző plágiumkereső, 42 teszt The biggest gap in all the plagiarism checkers was the inability to locate translated plagiarism. While this is widely expected as the technology to make such detections simply is not there. 18

Gépi fordítás Gépi fordítás Google translate Hogy lássuk ezt meg kell magyaráznunk az anarchizmus alapjául szolgáló morális szemléletmódot To see this of course we must expound the moral outlook underlying anarchism To see this you have to explain the underlying moral approach to anarchism Hogy látja ezt persze meg kell kifejteni a morális kilátások alapjául szolgáló anarchizmus 19

Demó 20

Demó 21

Demó 22

Demó 23

Demó 24

KOPI Portal http://kopi.sztaki.hu 25

Köszönöm a figyelmet! Web: http://dsd.sztaki.hu Email: Mate.Pataki@sztaki.hu 26