Web harvesztelés. Automatikus módszerekkel

Hasonló dokumentumok
Szerver-üzemeltetés - Tudásközpont, Pécs

KnowledgeTree dokumentumkezelő rendszer

TestLine - GINOP teszt Minta feladatsor

web2-es és web3-as szolgáltatások

Webes tartalmak digitális megőrzése

BMD Rendszerkövetelmények

Üdvözlöm Önöket a Konferencián!

Az Invitel adatközponti virtualizációja IBM alapokon

Software Defined technológiák használata Oracle adatbázis konszolidációhoz

Arconsult Kft. (1)

Google App Engine az Oktatásban 1.0. ügyvezető MattaKis Consulting

Moodle -egy ingyenes, sokoldalú LMS rendszer használata a felsőoktatásban

Windows XP. és Ubuntu. mi a különbség? Mátó Péter <mato.peter@fsf.hu> Windows XP vs Ubuntu Mátó Péter <mato.peter@fsf.

Szolgáltatási szint és performancia menedzsment a PerformanceVisor alkalmazással. HOUG konferencia, 2007 április 19.

TANANYAGTÁRHÁZAK SZEREPE AZ ELEARNINGBEN. Vágvölgyi Csaba - Papp Gyula. Kölcsey Ferenc Református Tanítóképző Főiskola Debrecen

Átfogó megoldás a számlafolyamatok felgyorsításához ELO DocXtractor. Laczkó Kristóf ELO Digital Office Kft. Bálint András Prognax Kft.

Webtárhely létrehozása a helyen. Lépések Teendő 1. Böngészőbe beírni: 2. Jobb oldalon regisztrálni (tárhelyigénylés).

Statisztikai alap kia.hu (2006)

MŰSZAKI KÖVETELMÉNYEK, A KÖRKERESŐ SZOFTVER SPECIFIKÁCIÓJA, KÖLTSÉGVETÉS. A) Műszaki követelmények

Pentaho 4: Mindennapi BI egyszerűen. Fekszi Csaba Ügyvezető október 6.

FEJLETT INFORMÁCIÓKERESÉSI TECHNOLÓGIA A FELSŐOKTATÁSBAN

Dspace fejlesztési tapasztalatok, problémák és megoldások

Internet alkamazások Készítette: Methos L. Müller Készült: 2010

Információ és kommunikáció

Miért ASP.NET? Egyszerű webes alkalmazás fejlesztése. Történet ASP ASP.NET. Működés. Készítette: Simon Nándor

Megnevezés Leírás Megjegyzés Irodai PC

A számítástechnika gyakorlata WIN 2000 I. Szerver, ügyfél Protokoll NT domain, Peer to Peer Internet o WWW oftp opop3, SMTP. Webmail (levelező)

április 24. INFO Savaria április 24. INFO Savaria április 24. INFO Savaria

Statisztikai alap kia.hu (2005)

A közadatok nyilvánossága, Eitv., közadatkereső

TECHNIKAI SEGÉDLET. EMIR Azonosító: TÁMOP /1/A Apertus Közalapítvány

Tű a szénakazalban Az archiválás kihívásai. Sütő János (sj@acts.hu)

SuliX Professional 4.0 kibocsátási megjegyzések

Dedikált szerverhoszting katalógus november

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

Földmérési és Távérzékelési Intézet

A közadatok nyilvánossága, Eitv., közadatkereső

A webanalitika változó világa 4 felvonásban

Zimbra levelező rendszer

SAMSUNG SSM-8000 szoftvercsomag

Ha attól eltérı, kérjük töltse ki az A.III mellékletet

Manhattan - szabad forráskódú távoktatási program adaptálása és fejlesztése

OpenLAB diák felület dokumentáció

LINUX Backup megoldások. Források: Adatmentési (backup) megoldások Linux alatt (pdf) Linux szerverek üzemeltetése (bme.hu)

R320 Szerver. Műszaki adatok

Tartalom. Google szolgáltatásai. Googol Google. Története. Hogyan működik? Titka

Autosoft a Profit-generátor. Autosoft AMS. AMS verzió leírása

A Békés Megyei Könyvtár Elektronikus Könyvtárának kialakítása

Népszámlálás 2011 Internetes adatgyűjtéssel

GDi Esri Magyarország Felhasználói Konferencia Timár Gábor: Konkurens adatfeldolgozás ArcGIS rendszerben

Könyvtári címkéző munkahely

MMK-Informatikai projekt ellenőr képzés 4

Fogalomtár Etikus hackelés tárgyban Azonosító: S2_Fogalomtar_v1 Silent Signal Kft. Web:

A processzor hajtja végre a műveleteket. összeadás, szorzás, logikai műveletek (és, vagy, nem)

Veeam Agent for Windows and Linux

w w w. h a n s a g i i s k. h u

r e l o a d. n o n p r o f i t f o r u m. e u Telepítési útmutató 3. RELOADED

NAGY TELJESÍTM. Szerzők Dévai. István Automatizálási. és s Alkalmazott Informatikai Tanszék

VIRTUAL APPLIANCE KÉZIKÖNYV VIRTUAL APPLIANCE KÉZIKÖNYV

Tájékoztató. Használható segédeszköz: -

SZÓBELI ÉRETTSÉGI TÉMAKÖRÖK

BioAdmin 4.1 könnyű telepítés csak Kliens használatra

1 Mit értünk cookie, böngésző helyi tárolás ("cookie és hasonló technológia") alatt?

Felhőalkalmazások a. könyvvizsgálatban

ADATBÁZIS-KEZELÉS - BEVEZETŐ - Tarcsi Ádám, ade@inf.elte.hu

Internetes térkép publikálási technikák, szabványok, trendek, nyílt forráskódú megoldások

Statisztikai alap kia.hu (2009) - main

Információ és kommunikáció

Rendszermodernizációs lehetőségek a HANA-val Poszeidon. Groma István PhD SDA DMS Zrt.

Költséghatékony high-end adattároló megoldások Vitéz Gábor, Avaxio Kft.

HaXSoN Nyílt forráskódú, zárt informatikai rendszer

A DNS64 és NAT64 IPv6 áttérési technikák egyes implementációinak teljesítőképesség- és stabilitás-vizsgálata. Répás Sándor

2023 ban visszakeresné 2002 es leveleit? l Barracuda Message Archiver. Tóth Imre Kereskedelmi Igazgató Avisys Kft Barracuda Certified Diamond Partner

NIIF Központi Elosztott Szolgáltatói Platform

GENERÁCIÓS ADATBÁZISOK A BIG DATA KÜLÖNBÖZŐ TERÜLETEIN

HÁLÓZAT ÉS INTERNET 2

Szolgáltatási csomagok I-SZERVIZ Kft. érvényes szeptember 1-től

CSALÁDFAKÉSZÍTŐ PROGRAMOK

Non-stop hozzáférés az üzleti információkhoz bárhol, bármikor és bármilyen eszközzel

Hitachi Flash Újdonságok. Szokol Zsolt Senior Solution Consultant 2016 március

A Matarka szerszámosládája

A HunTéka elektronikus könyvtár modulja

Beszámoló a 13. ECDL (European Conference on Digital Libraries) konferenciáról

HAWK-3. Az OMSZ saját fejlesztésű időjárási megjelenítő rendszere

Egy egyszerű, gyors és szabad újratelepítő eszköz: upi

Webes alkalmazások fejlesztése

Fogalomtérkép. IHMC CmapTools version Felhasználása. Elérhetőség. Rendszerkövetelmény (Windows OS esetén):

Hálózati operációs rendszerek II.

Böngészők, böngészőmotorok

Az elektronikus másolatkészítés rendszerének műszaki dokumentációja 1. BEVEZETŐ

Hozzávalók keresése és csatolása

ALKALMAZÁSOK ISMERTETÉSE

Intelligens biztonsági megoldások. Távfelügyelet

Adatbázisok 2018-ban ADT- ARCANUM DIGITÁLIS TUDOMÁNYTÁR AKADÉMIAI KIADÓ FOLYÓIRATAI AKADÉMIAI KIADÓ MERSZ ADATBÁZIS AKADÉMIAI KIADÓ SZÓTÁRAI CAMBRIDGE

Mobilizálódó OSZK. A nemzeti könyvtár mobileszközöket célzó fejlesztései az elmúlt időszakban. Garamvölgyi László. Networkshop, 2013.

Telepítési útmutató a Solid Edge ST7-es verziójához Solid Edge

Kedvenc Ingyenes editorok avagy milyen a programozó jobbkeze? PSPAD editor DEVPHP IDE

1. fejezet Bevezetés a web programozásába (Balássy György munkája) Az internet működése... 11

BaBér bérügyviteli rendszer telepítési segédlete év

InCash számlázó program és a Webshop Hun rendszer összekötése

Átírás:

Országos Széchényi Könyvtár

Miről lesz szó? Mi is az a web harvesztelés? Mire és hol használjuk? Miért hasznos? Saját megvalósításaink

Mi a web harvesztelés? Interneten található weboldalak begyűjtése, majd az adatok feldolgozása (Pl.: kereshetővé tétele) Lépések Adatok begyűjtése (crawl) Feldolgozás (index) Közzététel (search) (web aratás)

Nem egy új keletű dolog

Mire és hol használjuk a szolgáltatást, miért hasznos? Főként keresésre használjuk Otthon, munkahelyen, iskolákban mindenhol, ahol internet van Hasznos Gyors, egyszerű keresés Szűrési lehetőségek (, site: stb.) Tárolt változat

Hasznosak, ingyenesek, DE Nem a sajátunk, ezért Nem azt aratjuk, amit mi szeretnénk Nem akkor aratunk, amikor mi szeretnénk Forráskód nincs a birtokukban, ez fejlesztési szempontból hátrány Harvesztelt adatok sincsenek a birtokunkban Kulturális értékeket meg kell őrizni, ennek a legjobb módja, ha eltároljuk őket

Saját megoldások Szerettünk volna olyan megoldást, ahol MI irányítjuk a harvesztelést + adott esetben fejleszteni is tudjuk a szolgáltatást 3 dolog hiányzott: Szerver, tárhely, ember Open Source programokat kerestünk Ingyenesek Forráskód, beállítások elérhetők Segítség (Forum, wiki, howto)

Teszteléshez használt konfiguráció (Hp Proliant ML350) Szerver 2 magos Intel Xeon Processzor (32 bit) 2 GB RAM SCSI merevlemez Javasolt szerver konfiguráció (Ideális esetben 3 szerver) 2*2 vagy 1*4 magos processzor (64 bit) 8 GB RAM SAS vagy SSD merevlemez

Operációs rendszer Debian linux 5.0 (Lenny) Linux disztribúciók közül az egyik legjobb Vannak tapasztalataink Gyors, stabil, biztonságos Ingyenes

Felhasznált programok Crawler adatok begyűjtését végzi Indexer -fulltext kereséshez Indexer URL kereséshez Java alap kereső felületekhez használjuk

Folyamat 1 Központi adattároló (Storage) 3 Adat gyűjtés (Crawl) 4 Adatok indexelése (Fulltext és URL kereséshez) 2 Kereső felületek

Aktuális stabil verzió: 3.0.0 Weboldalak begyűjtését végzi (crawl) Warc.gz fájlokban tárolja az adatokat WARC (Web ARChive) fájl képeket, dokumentumokat stb. is a fájlban tárolunk Tömörített fájl helymegtakarítás fontos a nagyobb harveszteléseknél Szabványnak köszönhetően más programok gond nélkül kezelik

WARC fájl timestamp (időbélyeg) Fájl névben van egy időbélyeg mikor készült a fájl Minden egyes url mellé a Heritrix szintén hozzáad egy időbélyeget Pl.: 20090914123124 Egyedi Fontos szerepe van

Heritrix - GUI -Meghibásodás esetén hasznos -Automatikus vagy kézi létrehozás -Kis méret (~500 KB)

Jelenlegi stabil verzió 0.13 Begyűjtött adatokat indexeljük vele I/O műveletek miatt magas memória és gyors merevlemez igény Index adatbázisban keresünk Fulltext keresés Mindent leindexel ami a warc fájlban van Szöveges dokumentumokban (PDF, DOC, RTF stb.) is kereshetek Képek, videók, flash fájlok stb nevére kereshetek

Nutchwax - Search Java alapú kereső, Apache Tomcat alatt fut Java miatt lassú, nem könnyű szerkeszteni

Nutchwax - Opensearch Nem kell hozzá Java, HTML alapú Gyors, könnyű beágyazni weblapokba

Nucthwax search vs. opensearch

Opensearch - all versions

Jelenlegi stabil verzió 1.4.2 Szintén a begyűjtött adatokat indexeljük vele Index adatbázisában keresünk (kisebb méret) URL-ek keresésére használjuk Kezeli az időbélyegeket Azonos URL címek között különbséget tesz Verziókövetésre kiváló

Timestamp példa http://www.oszk.hu/index.html aratva lett: 20090914123124 = 2009.09.14 12:31:24 20091023092522 = 2009.10.22 09:25:22 Bár az URL cím ugyanaz, az időbélyeg, mint egy egyedi azonosító megkülönbözteti a 2 harvesztelést

Wayback kereső

www.oszk.hu/index.html - 2009.09.14

www.oszk.hu/index.html - 2009.10.22

Heritrix vs. Google

Tesztelési fázis Hol tartunk, tervek Kell még tesztelni Új szerver 6.0-ás Debián tesztje Tervek Teljes magyar domain (.hu) fél évenkénti, illetve különböző oldalak - események időszakos harvesztelése Két további szerverre lenne szükség, ezzel kapcsolatban már fordultunk a fenntartókhoz

Forrásanyagok http://crawler.archive.org/ http://archive-access.sourceforge.net/projects/nutch/ http://www.archive.org/web/web.php http://tomcat.apache.org/

Köszönöm a figyelmet! kovacs.peter@oszk.hu