A plágiumkeresés dilemmái és megoldásai Nagy István Monguz Kft. Networkshop 2016
Qulto - Monguz Kft. Monguz Kft. szakterületek közgyűjteményi informatika tudás-menedzsment kulturális turizmus ~50 fő Qulto platform A közgyűjteményi informatika és a tudásmenedzsment területén szerzett két évtizedes szakértelmünk esszenciája Qulto companies Monguz Kft., Magyarország (Bp, Szeged) Cultware SRL, Románia (Kolozsvár) Cultware Sp. z o.o., Lengyelország (Varsó, Lodz)
Mit nevezünk plágiumnak? Szótár plágium: szellemi alkotás eltulajdonítása * plagizál: (idegen szellemi alkotást) a magáénak tüntet fel * Vizsgált kontextus Szakdolgozatok, disszertációk plágium vizsgálata Emberi kiértékelés Nagy méretű digitális dokumentumtárak Informatikai asszisztáló eszközök * Magyar értelmező kéziszótár
Idézet vagy plágium? Szabályos idézés nem plágium Csak nyilvános mű idézhető Tartalom nem változtatható Idézett szakasz jól láthatóan elkülönül Befogadó szöveg terjedelmével arányos Befogadó szöveg is önálló mű kell hogy legyen Idézési módok Pontos idézés, idézőjelek között, forrás hivatkozással Más szerzőtől származó tartalom újrafogalmazása, forrás megjelöléssel
Hivatkozások Hivatkozási módok Zárójelezett alak az idézett szöveg után Lábjegyzetben, felső indexszel összekötve A szövegkörnyezet által hordozva Kiegészítő hivatkozás az irodalomjegyzékben Hordozott információk a forrás műről a mű szerzője/szerzői pontos cím megjelenési dátum megjelenési hely forrás oldalszám(ok)
Plágiumkereső működése Nem plágiumot keres, csak gyanús hasonlóságokat A döntést továbbra is a felhasználó hozza Lépések Forrásdokumentum elemzése és feldolgozása Összevetés a céladatbázissal Talált hasonlóságokról interaktív és nyomtatható riport készítése Célok Fals pozitívek redukálása Minél több tényleges plágium észrevétele Hasznos riport generálás
Példa (TurnItIn)
Forrás dokumentum kezelés Szükséges funkciók Elterjedt dokumentum formátumok támogatása Nyelv detekció Egységes szövegformátumra konvertálás Dokumentum felrobbanthatósága Reprodukálható pozícionálás Könnyű megjelenítés Repozitóriumi szoftver integráció (pl. OAI-ORE) Internetes források kezelése Hozzáférhetőség kezelés (dokumentum szövege)
Dokumentum elemzés Hasonlóságkereső algoritmusok Elemzési fázis Dokumentumjellemzők kinyerése Forrásnyelvfüggő konfiguráció Köztes reprezentáció tárolása Számítási gyorsítótár építés Összevetési fázis Dokumentum jellemzők összevetése Találatok generálása (mű és pozíció adatok, pontszám)
Algoritmus követelmények Technikai követelmények Reális kiszámítási idő Reális erőforrásigény (processzor- és tárhelyigény) Működésbeli követelmények Következetes működés Adatvédelem (nem reverzibilis tárolás) Kijátszhatatlanságra törekvés
Feldolgozó algoritmusok Átfedő szöveg keresés (substring matching) A dokumentum egészének vagy részének egzakt előfordulását vizsgálja Előnyök Felismeri a direkt másolásokat Egyszerű implementáció Hátrányok Nagy tárhelyigény Számításnál nagy IO igény Rugalmatlan Gyenge adatvédelem
Feldolgozó algoritmusok Bag of words (szózsák) Dokumentumot feldolgozási egységekre bontja és jellemző vektorokat generál, majd összevetésnél koszinuszos hasonlóságot számol Előnyök Könnyen indexelhető Hatékony összevetés Irreverzibilis tárolás Hátrányok Zaj érzékeny Felbontási határokon átívelő plágiumok
Feldolgozó algoritmusok Citációs összevetés A dokumentum szövege helyett a szabványosan elhelyezett hivatkozásokat keressük és ezek között keres hasonlóságokat és egyezéseket Előny Több nyelv között is működik Hátrány Természetes nyelvi elemzést igényel Tanulóadatbázis tartalmától és minőségétől függ Kevés tapasztalat Nem egyértelmű hasznosság
Feldolgozó algoritmusok Stylometry (stílus metrika) Statisztikai módszereket felhasználva meghatározza az író jellegzetes stílusjegyeit és azon szakaszokat keresi, amelyek elütnek ettől. Előnyök Észreveszi a rejtett plágiumot Hátrányok Nehezen megvalósítható Alacsony felismerési arány
Feldolgozó algoritmusok Forrás: Wikipedia
Összehasonlító adatbázis Kulcsfontosságú a minősége Gyakori másolási forrásokkal kell feltölteni Felsőoktatási repozitóriumok dokumentumai (adat védelem) Cikkek Könyvek Internetes források Legitimitás vizsgálat Struktúrált metaadat elérhetősége
Célközönség, hasznosíthatóság Szakdolgozat írója Önellenőrzés Irodalomjegyzék készítés segítése Felsőoktatási intézmény Automatikus vizsgálat beadáskor Döntéstámogatás dokumentumok elbírálásakor Oktatási rendszer integráció (LTI)
Piacon lévő megoldások Forrás: http://plagiat.htw-berlin.de/software-en/test2013/report-2013/
Qulto plágiumkereső Pilot partnerek számára elérhető és tesztelhető Források Partnerek repozitóriumai Internetes források Jogi problémák feloldása Intézményi és központi modulok Teljes szöveg az intézménynél marad Repozitóriumi szoftver integráció Bővíthetőség (algoritmusok, források) Webes alkalmazás a kiértékeléshez Interaktív eredmény feldolgozás Riport készítés
Köszönöm a figyelmet! Nagy István inagy@monguz.hu A Qulto Plágiumkeresővel kapcsolatban keressék Czoboly Miklóst: mczoboly@monguz.hu