Országos Széchényi Könyvtár
Miről lesz szó? Mi is az a web harvesztelés? Mire és hol használjuk? Miért hasznos? Saját megvalósításaink
Mi a web harvesztelés? Interneten található weboldalak begyűjtése, majd az adatok feldolgozása (Pl.: kereshetővé tétele) Lépések Adatok begyűjtése (crawl) Feldolgozás (index) Közzététel (search) (web aratás)
Nem egy új keletű dolog
Mire és hol használjuk a szolgáltatást, miért hasznos? Főként keresésre használjuk Otthon, munkahelyen, iskolákban mindenhol, ahol internet van Hasznos Gyors, egyszerű keresés Szűrési lehetőségek (, site: stb.) Tárolt változat
Hasznosak, ingyenesek, DE Nem a sajátunk, ezért Nem azt aratjuk, amit mi szeretnénk Nem akkor aratunk, amikor mi szeretnénk Forráskód nincs a birtokukban, ez fejlesztési szempontból hátrány Harvesztelt adatok sincsenek a birtokunkban Kulturális értékeket meg kell őrizni, ennek a legjobb módja, ha eltároljuk őket
Saját megoldások Szerettünk volna olyan megoldást, ahol MI irányítjuk a harvesztelést + adott esetben fejleszteni is tudjuk a szolgáltatást 3 dolog hiányzott: Szerver, tárhely, ember Open Source programokat kerestünk Ingyenesek Forráskód, beállítások elérhetők Segítség (Forum, wiki, howto)
Teszteléshez használt konfiguráció (Hp Proliant ML350) Szerver 2 magos Intel Xeon Processzor (32 bit) 2 GB RAM SCSI merevlemez Javasolt szerver konfiguráció (Ideális esetben 3 szerver) 2*2 vagy 1*4 magos processzor (64 bit) 8 GB RAM SAS vagy SSD merevlemez
Operációs rendszer Debian linux 5.0 (Lenny) Linux disztribúciók közül az egyik legjobb Vannak tapasztalataink Gyors, stabil, biztonságos Ingyenes
Felhasznált programok Crawler adatok begyűjtését végzi Indexer -fulltext kereséshez Indexer URL kereséshez Java alap kereső felületekhez használjuk
Folyamat 1 Központi adattároló (Storage) 3 Adat gyűjtés (Crawl) 4 Adatok indexelése (Fulltext és URL kereséshez) 2 Kereső felületek
Aktuális stabil verzió: 3.0.0 Weboldalak begyűjtését végzi (crawl) Warc.gz fájlokban tárolja az adatokat WARC (Web ARChive) fájl képeket, dokumentumokat stb. is a fájlban tárolunk Tömörített fájl helymegtakarítás fontos a nagyobb harveszteléseknél Szabványnak köszönhetően más programok gond nélkül kezelik
WARC fájl timestamp (időbélyeg) Fájl névben van egy időbélyeg mikor készült a fájl Minden egyes url mellé a Heritrix szintén hozzáad egy időbélyeget Pl.: 20090914123124 Egyedi Fontos szerepe van
Heritrix - GUI -Meghibásodás esetén hasznos -Automatikus vagy kézi létrehozás -Kis méret (~500 KB)
Jelenlegi stabil verzió 0.13 Begyűjtött adatokat indexeljük vele I/O műveletek miatt magas memória és gyors merevlemez igény Index adatbázisban keresünk Fulltext keresés Mindent leindexel ami a warc fájlban van Szöveges dokumentumokban (PDF, DOC, RTF stb.) is kereshetek Képek, videók, flash fájlok stb nevére kereshetek
Nutchwax - Search Java alapú kereső, Apache Tomcat alatt fut Java miatt lassú, nem könnyű szerkeszteni
Nutchwax - Opensearch Nem kell hozzá Java, HTML alapú Gyors, könnyű beágyazni weblapokba
Nucthwax search vs. opensearch
Opensearch - all versions
Jelenlegi stabil verzió 1.4.2 Szintén a begyűjtött adatokat indexeljük vele Index adatbázisában keresünk (kisebb méret) URL-ek keresésére használjuk Kezeli az időbélyegeket Azonos URL címek között különbséget tesz Verziókövetésre kiváló
Timestamp példa http://www.oszk.hu/index.html aratva lett: 20090914123124 = 2009.09.14 12:31:24 20091023092522 = 2009.10.22 09:25:22 Bár az URL cím ugyanaz, az időbélyeg, mint egy egyedi azonosító megkülönbözteti a 2 harvesztelést
Wayback kereső
www.oszk.hu/index.html - 2009.09.14
www.oszk.hu/index.html - 2009.10.22
Heritrix vs. Google
Tesztelési fázis Hol tartunk, tervek Kell még tesztelni Új szerver 6.0-ás Debián tesztje Tervek Teljes magyar domain (.hu) fél évenkénti, illetve különböző oldalak - események időszakos harvesztelése Két további szerverre lenne szükség, ezzel kapcsolatban már fordultunk a fenntartókhoz
Forrásanyagok http://crawler.archive.org/ http://archive-access.sourceforge.net/projects/nutch/ http://www.archive.org/web/web.php http://tomcat.apache.org/
Köszönöm a figyelmet! kovacs.peter@oszk.hu