KOPI. Online Plágiumkereső és Információs Portál



Hasonló dokumentumok
KOPI. KOPI Online Plágiumkereső és Információs Portál DSD. Pataki Máté MTA SZTAKI. Elosztott Rendszerek Osztály

KOPI. KOPI Plágiumkereső A digitális tartalmak védelmében DSD. Pataki Máté MTA SZTAKI. Elosztott Rendszerek Osztály

MTA SZTAKI MTA SZTAKI

KOPI. Plágiumkeresés különböző nyelvek között MTA SZTAKI DSD. Pataki Máté. Department of Distributed Systems

World Wide DSD Web. Csoportmunka

Department of Distributed Systems MTA SZTAKI DSD

KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems

KOPI DSD. Pataki Máté MTA SZTAKI. Elosztott Rendszerek Osztály

Digitális könyvtárak védelme a KOPI plágiumkereső rendszerrel

KOPI-Fotó: Plágiumkeresés egy lefotózott oldal alapján KOPI-Photo: Searching for plagiarism via a photo

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY Department of Distributed Systems

A plágiumkeresés dilemmái és megoldásai. Nagy István Monguz Kft. Networkshop 2016

PATAKI MÁTÉ. KOPI Védelem, hogyan védjük digitális dokumentumainkat plagizálás ellen

Az információs műveltség fejlesztése A könyvtárak szemléletváltása és feladatai a 21. században

Algoritmusok egynyelvű és különböző nyelvek közötti fordítások és plágiumok megtalálására. Pataki Máté MTA SZTAKI

SZÖVEGES DOKUMENTUMOK DARABOLÁSA ÉS TÖMÖRÍTÉSE HASH-KÓDOLÁSSAL

Forrásmegjelölés a portfólióban 1.0* Szakál Ferenc Pál

Informatika tagozat osztályozóvizsga követelményei

A plágiumkereső szoftverek kiskapui

Konzulensek: Monostori Krisztián dr. Charaf Hassan. Készítették: Hodász Gábor Pataki Máté

Internet alkamazások Készítette: Methos L. Müller Készült: 2010

KERESÉS A NETEN DR. KÓNYA LÁSZLÓ: KERESÉS A NETEN KERESÉS MÓDSZERE, KERESŐPROGRAMOK

Algoritmusok egynyelvű és különböző nyelvek közötti fordítások és plágiumok megtalálására. Pataki Máté

Online tartalmak konzorciumi beszerzése

Informatika tanterv nyelvi előkészítő osztály heti 2 óra

MÉRY Android Alkalmazás

Petőfi Irodalmi Múzeum. megújuló rendszere technológiaváltás

1. tétel: A kommunikációs folyamat

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

SZÓBELI ÉRETTSÉGI TÉMAKÖRÖK

>>Biztonsági megoldások a nyomtatás-másolás területén >> Eszes Mihály, Üzleti szegmens vezető. Océ-Hungária Kft.

Önálló labor feladatkiírásaim tavasz

KOPI. Többnyelvű dokumentum nyelvének megállapítása MTA SZTAKI DSD. Vajna Miklós Pataki Máté MSZNY Department of Distributed Systems

Bemutatkozik az MTA Könyvtára

INFORMATIKA - VIZSGAKÖVETELMÉNYEK. - négy osztályos képzés. nyelvi és matematika speciális osztályok

1. tétel: A kommunikációs folyamat

A tananyag beosztása, informatika, szakközépiskola, 9. évfolyam 36

Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS)

Informatika 6. évfolyam

Budapest, MSZÜK, február 3.

Dropbox - online fájltárolás és megosztás

EURÓPAI PARLAMENT. Kulturális és Oktatási Bizottság VÉLEMÉNYTERVEZET. a Kulturális és Oktatási Bizottság részéről

A KÖZÉPSZINTŰ ÉRETTSÉGI VIZSGA INFORMATIKA TÉMAKÖREI: 1. Információs társadalom

Capri Consulting Korlátolt Felelősségű Társaság (a továbbiakban: Szolgáltató)

Tudatos média- és információhasználat információs műveltség

Az MTMT és az Intézeti Repozitóriumok összekapcsolása bevezetési tapasztalatok SZLUKA PÉTER SEMMELWEIS EGYETEM KÖZPONTI KÖNYVTÁR

Számítógép kezelői - használói SZABÁLYZAT

PTE-PROXY VPN használata, könyvtári adatbázisok elérhetősége távolról

Váci Mihály Kulturális Központ Cím: Telefon: Fax: Web: Nyilvántartásba vételi szám:

Alapszintű számítástechnikai ismeretek pedagógusoknak 30 óra. Továbbképzési tájékoztató 2017.

A nemzetiségi és határon túli tankönyv- és médiatár. A Pedagógiai Könyvtár tankönyvgyűjteményi stratégiája

URKUND MOODLE. oktatói kézikönyv. Tartalom. Segédlet az oktatói feladatokhoz Egyéb oktatói felület Eredményképernyő...

MTMT lehetőségek a kutatásszervezésben és a kutatásban

Megújult az ARTISJUS Szerzői Információs Rendszere (SZIR) Online adatszolgáltatás szerzőknek bármikor, bárhonnan

OpenCL alapú eszközök verifikációja és validációja a gyakorlatban

5. osztály. 1. Az informatikai eszközök használata:

AZ IKIR RENDSZER BEMUTATÁSA

Technológia az adatszivárgás ellen

WEB2GRID: Desktop Grid a Web 2.0 szolgálatában

Digitális kultúra, avagy hová lett az informatika az új NAT-ban? Farkas Csaba

A helyismereti információszolgáltatás jellemzői és új irányai a könyvtári honlapokon

A wiki módszer. Internetes tartalom kooperatívan, szabad szoftveres alapon. Gervai Péter

A Novitax ügyviteli programrendszer első telepítése

Informatika szóbeli vizsga témakörök

Az online golftér. Golfélet naprakészen, könnyedén... 1/16

Informatika 9Ny. Az informatikai eszközök használata

INFORMATIKA TANMENET SZAKKÖZÉPISKOLA 9.NY OSZTÁLY HETI 4 ÓRA 37 HÉT/ ÖSSZ 148 ÓRA

Ezt követően az Adatbevitel Új tétel választásával kezdhetik meg a feltöltést.

1 Mit értünk cookie, böngésző helyi tárolás ("cookie és hasonló technológia") alatt?

Országos Rendezési Tervkataszter

IRÁNY AZ Internet! Ismeretterjesztő előadás 3. Rész Előadó:Pintér Krisztina etanácsadó.

Mérőkamarás légifelvételek Internetes katalógusa. MH Térképészeti Hivatal HM Térképészeti KHT

PhD dolgozatok repozitóriumi elhelyezése, DOI azonosítóval való megjelölése

Gépi tanulás a gyakorlatban. Bevezetés

HELYI TANTERV / INFORMATIKA

Lázár kollokvium Kutatók a neten. Albert G. ELTE - Térképtudományi és Geoinformatikai Tanszék

Digitális tartalombővítés és távmunka bevezetése a Veszprémi Egyetemi Könyvtárban

FELHASZNÁLÁSI FELTÉTELEK ÉS ADATVÉDELEM

ÉRETTSÉGI TÉTELCÍMEK 2018 Informatika

Oktatás és tanulás online környezetben

BOD PÉTER ORSZÁGOS KÖNYVTÁRHASZNÁLATI VERSENY

Igényfelmérés TÁMOP / 08 / 01. kódjelű pályázat. elkészítéséhez

Cookie-szabályzat panelekre és felmérésekre vonatkozóan

K és V Nemzetközi Fuvarozó Kft. ESETTANULMÁNY

Zárójelentés OTKA 49743: Modell alapú digitális jelfeldolgozás Doktori iskola pályázat Vezető: Kollár István

Regisztrációs kérelem küldése

A számítástechnika gyakorlata WIN 2000 I. Szerver, ügyfél Protokoll NT domain, Peer to Peer Internet o WWW oftp opop3, SMTP. Webmail (levelező)

EPALE. Európai elektronikus platform a felnőttkori tanulásért. Karvázy Eszter Nemzeti Szakképzési és Felnőttképzési Hivatal december 9.

Digitális kiadó Olvasói igények, veszélyek és lehetőségek

A Hunglish Korpusz és szótár

Online világ. Oroszi Katalin. KSZR Szakmai nap augusztus 29. Ostoros

INFORMATIKA - VIZSGAKÖVETELMÉNYEK. - hat osztályos képzés -

Cloud Akkreditációs Szolgáltatás indítása CLAKK projekt. Kozlovszky Miklós, Németh Zsolt, Lovas Róbert 9. LPDS MTA SZTAKI Tudományos nap

KGFB díjhirdetés. Előadó: Tóth Krisztina IT - Alkalmazásfelügyeleti főosztály

4. Javítás és jegyzetek

A Bródy Sándor Megyei és Városi Könyvtár munkaterve 2008.

TextLib könyvtári integrált rendszer WebOPAC keresőfelülete

Informatika. 3. Az informatika felhasználási területei és gazdasági hatásai

EURÓPAI BIZOTTSÁG III. MELLÉKLET ÚTMUTATÓ A PARTNERSÉGI MEGÁLLAPODÁSHOZ

Multifunkcionális, multimédia elemeket tartalmazó mobil elérésű távoktatási tananyag összeállítása és tesztelése

Átírás:

KOPI Online Plágiumkereső és Információs Portál

A projektről A KOPI Online Plágiumkereső és Információs Portál fejlesztése 2003-ban kezdődött az MTA SZTAKI Elosztott Rendszerek Osztálya, valamint a Monash University közreműködésével. A fejlesztés célja egy hálózati plágiumkereső portál létrehozása, amelynek segítségével elektronikus formában rendelkezésre álló dokumentumok közötti hasonlóság felderítésével plágium vagy idézet, de akár ugyanannak a dokumentumnak egy régebbi vagy újabb változata is megtalálható. A plagizálás A plagizálás problémájára számos megoldás született, amelyek alapvetően két csoportba sorolhatóak: másolás megelőzése másolatok felderítése A másolás megelőzése fontos dolog, de sok esetben a művek egyszerű közzétételét akadályozza, illetve a legtöbb védelmi megoldást idővel kijátsszák, feltörik és a dokumentumok védtelenekké válnak. Az oktatás területén az is elképzelhető, hogy az eredeti dokumentum nem áll védelem alatt, viszont felhasználása és saját munkaként való prezentálása már csalásnak, plágiumnak számít. Mindezen okokból kifolyólag nagy hangsúlyt kell fektetni a másolatok felderítésére, amely a KOPI projekt elsődleges célja. Plagizálás a digitális könyvtárak területén A számítástechnika fejlődésével az írott művek előállítási folyamata egyszerűsödött, publikációjuk gyors és könnyű lett, a hagyományos könyvtárak mellett megjelentek a digitális könyvtárak, amelyek megszüntették a földrajzi kötöttségeket, új dimenziót nyitottak a tudás tárházainak. A rengeteg előny mellett azonban a digitális adattárolás a végletekig egyszerűsíti a művek másolását, azok egészének vagy részeinek átvételét, így nagymértékben megkönnyíti a plágiumok létrehozását is. Természetes tehát, hogy a szellemi termékek (képek, irodalmi és zenei művek, tudományos publikációk) eredeti szerzői megfontoltak a digitális könyvtárakkal és az internetes publikálással kapcsolatban, hiszen ezzel jelentősen megkönnyítik a műveikhez való hozzáférést, valamint ezzel párhuzamosan azok illegális másolását, plagizálását is. Sajnálatos, de az informatikai fejlődéssel képtelen a jog lépést tartani, a visszaéléseket hatékonyan visszaszorítani, így mindenképpen fontos, hogy olyan informatikai megoldások szülessenek, amelyek a digitális szellemi javak előállítóit műveik publikálására ösztönözzék. A KOPI plágiumkereső rendszer használatának egyik legfontosabb eredménye lehet tehát a digitális könyvtárakban tárolt anyagok plagizálóinak felderítése, valamint ezáltal a digitális könyvtárakkal szembeni bizalom növelése.

Plagizálás az oktatás területén A plágiumkereső rendszer másik fontos területe a digitális könyvtárak mellett az oktatás, azon belül is kiemelten a felsőoktatás. Ezen a területen egyre nagyobb számban jelennek meg a digitális forrásokból összeállított (összeollózott) dolgozatok, diplomamunkák, cikkek, illetve publikációk. Az ilyen típusú visszaélések erősen rontják az intézmények hírnevét és az onnét kikerült diplomások értékét a piacon. A KOPI plágiumkereső rendszer bevezetésével erősen visszaszorítható lenne a másolt, plagizált munkák száma ezen a területen is, valamint jelentősen javulna az oktatási intézmények megítélése is. A KOPI felhasználási módjai a plagizálás visszaszorításának érdekében A KOPI rendszer képes dokumentumokat egymással összehasonlítani, ezáltal felderíteni az esetleges illegális másolást, plagizálást. A felhasználó által feltöltött dokumentumokat a rendszer egymással vagy az adatbázisban lévő, mások által feltöltött dokumentumokkal is képes összehasonlítani, alkalmas lesz akár a csak egy bekezdés hosszú átlapolás észrevételére is. Fontos tulajdonsága a plágiumkeresésnek, hogy a rendszerbe feltöltött anyagok csak kódoltan tárolódnak, a kódolt anyagokból pedig nem nyerhető vissza az eredeti dokumentum. A plágiumkeresés tehát úgy valósítható meg, hogy nem az eredeti szöveghez, hanem annak kódolt változatához hasonlítja a rendszer a vizsgálandó dokumentumot. A KOPI rendszer a plágiumkeresésen kívül képes kiszűrni a duplikátumokat, valamint meg tudja határozni, hogy a feltöltött szöveg milyen nyelven íródott, ezáltal automatikus kategorizálást tesz lehetővé. A plágiumkereső szolgáltatásokon kívül a KOPI portál megismerteti az oldalra látogatókat az ide vonatkozó jogszabályokkal és rendeletekkel, valamint lehetőséget biztosít különböző témákban való eszmecserére is a fórumokon keresztül. Miért van rá szükség? Joggal kérdezhetné valaki, hogy miért volt szükség erre a plágiumkeresőre, hiszen az Interneten biztos található számtalan hasonló megoldás. Igen, egyre több plágiumkereséssel foglakozó program jelenik meg, viszont a megoldások igen eltérőek. A teljesség igénye nélkül nézzünk meg párat. Sok olyan, úgynevezett vízjeles megoldás létezik, amely a teljes dokumentumot vagy annak nagyobb részeit védi. Ezek gyakran már formázásnál elvesztik ezt a beleágyazott információt, vagy ahogy valami apróbb változtatás történt a szövegben. Hasonló problémát észlelünk az ellenőrző összeges (checksum) megoldásoknál is: egy szó átírása már elég ahhoz, hogy ne találjuk meg az eredeti dokumentumot. Sok nyelvfüggő megoldás is létezik. Ezeknek az a jellemzője, hogy csak olyan nyelvű dokumentumokat képesek feldolgozni, amelyekre előtte felkészítették a rendszert. Ide tartoznak az írás stílusát elemző megoldások is. Ezekkel azt lehet megállapítani, hogy két dokumentumot mekkora valószínűséggel írta ugyanaz a személy. Egy teljesen eltérő

megközelítés, amikor tesztet generál a program a dolgozatból, ilyenkor a tanár leülteti a diákot maga mellé, és kitölteti vele a tesztet; ha gyenge eredményt ért el valószínűleg másolta a szöveget. Ennek a nyelvfüggőségen kívül még az is a hátránya, hogy időt kell szánni rá, illetve meg kell gyanúsítani a diákot. Olyan plágiumkereső megoldás is létezik, amely valamelyik internetes keresőt használja fel hasonló dokumentumok után kutatva, így egy óriási méretű, szabadon hozzáférhető adatbázisban keres. Ez előny és hátrány egyben. Előny, mert nagy a rendelkezésre álló dokumentumok mennyisége, hátrány, mert csak a szabadon hozzáférhető oldalakon keres. Azaz a tavalyi diplomadolgozatok nem képezik a keresés részét, hiszen ezeket csak a legritkább esetben publikálják ily módon. Ugyanakkor ez egy igen gyakori probléma ma a felsőoktatásban. Utoljára, de nem utolsó sorban, sok olyan fizetős szolgáltatást kínál az Internet, amely teljes egészében elfedi belső működését, és csak a hirdetéseiből lehet arra következtetni, hogy pontosan mit tud. A KOPI ezzel szemben egy nyelvfüggetlen algoritmusra épülő rendszer, amely természetesen a magyar igényekre külön odafigyel. Ez alatt egy magyar felhasználói felületetet és magyar tartalmat értünk. Utóbbi azt jelenti, hogy a rendszer rendelkezni fog több, magyar dokumentumokat tartalmazó adatbázissal is, melyekhez a felhasználók saját dokumentumaikat hasonlíthatják. Ilyen adatbázis lesz például a magyar digitális könyvtárak gyűjteménye, illetve egy Internetes adatbázis is, amely a magyar oldalakat tartalmazza. A KOPI egy portálszolgáltatás, amely annyit jelent, hogy semmilyen installációt nem igényel, és bárhonnét elérhető, ahol van Internet hozzáférés. Ráadásul, akárcsak a SZTAKI Szótár (http://szotar.sztaki.hu), ez is ingyen áll majd a felhasználók rendelkezésére. A KOPI Portál szolgáltatásai A szokásos portálszolgáltatások, mint a beszélgetőfórumok, üzenetküldés és FAQ mellett számos más specifikus szolgáltatást is nyújt a rendszer. A fejlesztés teljes menete során megpróbáltunk nagy hangsúlyt fektetni arra, hogy az oldalak mindenki számára hozzáférhetőek legyenek. Ezt a W3C WAI irányelvei alapján tettük meg, így biztosítva, hogy a vakok, gyengén látók, régi böngészővel, gyenge géppel vagy lassú Internetkapcsolattal rendelkezők is könnyen kezelhessék a portált. Az oldalra látogatók megismerkedhetnek a plágiumokra vonatkozó jogszabályokkal, egyetemi szabályzatokkal is. Erre nagy szükség van, hiszen nem minden plágium, ami egyezik, például egy idézet nem plágium, ha egyértelműen jelölve van a forrás. Ugyanakkor hiába jelöli meg valaki, hogy a diplomája felét honnét idézi, kevés egyetem fogad el ekkora idézeteket. Két eltérő hasonlóságkereső szolgáltatást is nyújt a rendszer. Az egyik a feltöltött dokumentumok összehasonlítása egymással. Ezt akkor célszerű használni, ha valaki például feltölti a diplomáját és az irodalomjegyzékben szereplő műveket, és akkor a rendszer megállapítja, hogy mekkora az egyezés az egyes forrásokkal. A másik szolgáltatás a felhasználó dokumentumait egy adatbázisban szereplő többi dokumentumhoz hasonlítja. Ilyen adatbázisok lesznek például: A felhasználó vagy mások által feltöltött dokumentumok

Internetről letöltött oldalak Digitális könyvtárak (MEK) Egyetemi diplomák A másolatkereső rendszer működése A legelső lépés egy ilyen programban a dokumentumok beszerzése. Mivel ehhez a felhasználáshoz a formázási paraméterekre nincs szükség, a legegyszerűbb egy sima szövegfájl használata. Minden olyan dokumentum, amelyik nem ilyen formában található, egy ezt megelőző lépésben konvertálásra kerülhet. A szövegfájlokat fel kell darabolni kisebb részekre, úgynevezett töredékekre, majd az ezt követő lépésben a töredékek eltárolódnak egy adatbázisban. Mivel ezek a töredékek sok helyet foglalnak el, nem az eredeti töredék kerül eltárolásra, hanem annak egy úgynevezett ujjlenyomata. Ezt egy megfelelő tömörítő eljárással kapjuk az eredeti töredékből. Az adatbázis feltöltése tetszőleges számú lépésben történhet, ehhez minden új dokumentumot fel kell darabolni, majd a töredékek ujjlenyomatát el kell tárolni. A lekérdezést is akármikor elvégezhetjük, akár minden újonnan beérkezett dokumentum eltárolása után is. Ha később kíváncsiak vagyunk arra, hogy két dokumentum között van-e egyezés, csak le kell kérdeznünk az adatbázisból, hogy hány közös töredéke van ezen két dokumentumnak. Amennyiben rendelkezésünkre állnak az eredeti dokumentumok, a felhasználó dolgát megkönnyítve például a hasonlónak ítélt fájlokat egymás mellé téve vizualizálhatjuk is eredményünket. Az alábbi ábra a teljes folyamatot ábrázolja: szövegfájl ❶ Darabolás töredékek ❷ Tömörítés (MD5) ujjlenyomat ❸ Adatbázis feltöltés adatbázis ❹ Lekérdezés eredmény

A darabolási eljárás egy nagyon lényeges pontja a rendszernek, hiszen az egész rendszer működése az azonos darabok megtalálásán alapul. Amennyiben ezek túl nagyok, a rendszer nem fogja észrevenni a kisebb egyezéseket. Túl kicsi darabok esetén meg gyakran fog teljesen különböző dokumentumokban is fog azonos szófordulatokat, kifejezéseket találni. A KOPI rendszer egy új eljárást használ, amely a szavas és az átlapolódó szavas darabolások egyesítéséből áll. Ennek ismertetésére most helyhiány miatt nincs módunk, viszont az alább felsorolt weboldalakról kiindulva részletes információkhoz lehet jutni: http://www2003.org/cdrom/papers/poster/p186/p186-pataki.html http://www.csse.monash.edu.au/projects/mdr/papers/iccs2002-monostori.pdf A KOPI projekt helyzete A főbb funkciói már elkészültek a rendszernek, és a fejlesztés is pár héten belül befejeződik. A tesztelések után, előre láthatóan lesz hozzáférhető az alábbi címen: 2004. május végétől http://kopi.sztaki.hu