internet-en dr. Nyári Tibor



Hasonló dokumentumok
KERESÉS A NETEN DR. KÓNYA LÁSZLÓ: KERESÉS A NETEN KERESÉS MÓDSZERE, KERESŐPROGRAMOK

2. 3. Keresés az Interneten. Navigáció az Interneten: Megoldások. Internetes keresés buktatói. 1. Keresőmotorok. Webes keresési lehetőségek

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

Adatkeresés az interneten. Cicer Norbert 12/K.

Az információs műveltség fejlesztése A könyvtárak szemléletváltása és feladatai a 21. században

INTERNETES KERESÉS. Szórád László Óbudai Egyetem TMPK

Információ és kommunikáció

Web harvesztelés. Automatikus módszerekkel

KÖNYVTÁRI KATALÓGUS HASZNÁLATI ÚTMUTATÓ

Internetes keresés. Dr. Nyéki Lajos 2019

Információ és kommunikáció

ECDL Információ és kommunikáció

6. Óravázlat. frontális, irányított beszélgetés. projektor, vagy interaktív tábla az ismétléshez,

AZ INTERNET ÉS KERESŐESZKÖZEI

FEJLETT INFORMÁCIÓKERESÉSI TECHNOLÓGIA A FELSŐOKTATÁSBAN

Boros Andrea és Ignéczi Lilla Neumann-ház, Budapest. Networkshop 2004 konferencia Győr, április 4 7.

Tudatos média- és információhasználat információs műveltség

A számítástechnika gyakorlata WIN 2000 I. Szerver, ügyfél Protokoll NT domain, Peer to Peer Internet o WWW oftp opop3, SMTP. Webmail (levelező)

Informatika 10. évf.

Online információkeresés. Dr. Nyéki Lajos 2016

A felmérési egység kódja:

ALEPH Elektronikus Katalógus rövid útmutató

Hogy keres a Google?

A WEBOPAC (online elektronikus katalógus) használata. 1. Keresés az adatbázisban (összetett):

WEBOPAC felhasználói leírás. 1. Keresés az adatbázisban. 2. A találatok megjelenítése

Nemzeti Fejlesztési és Gazdasági Minisztérium támogatásával megvalósuló KKC-2008-V számú projekt B2CR ONLINE KOMMUNIKÁCIÓ

Országos Rendezési Tervkataszter

Információ és kommunikáció

BARANGOLÁS AZ E-KÖNYVEK BIRODALMÁBAN Milyen legyen az elektonikus könyv?

Tartalom. Google szolgáltatásai. Googol Google. Története. Hogyan működik? Titka

MŰSZAKI KÖVETELMÉNYEK, A KÖRKERESŐ SZOFTVER SPECIFIKÁCIÓJA, KÖLTSÉGVETÉS. A) Műszaki követelmények

sportxmedia.com SXM-Network Kft. Budapest médiaajánlat

Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS)

WWW Kliens-szerver Alapfogalmak Technológiák Terv. Web programozás 1 / 31

Kézikönyv. Szelekciós operátorok használata

TOP SEO Trendek 2015-ben. We understand, we deliver.

Tel.: 06-30/ Közösségi megosztás előnyei és alkalmazása

kommunikáció Feladatgyűjtemény

Internet és világháló

Savaria Egyetemi Könyvtár Katalógusa. Böngészés Keresés Találatok megjelenítése Adatbázis választás Olvasói tranzakciók

Kézikönyv. Szelekciós jegyzék 2.

Tartalomszolgáltatási Tájékoztató

Zimbra levelező rendszer

Statisztikai alap (2009) - main

Statisztikai alap kia.hu (2002)

Digitális kincstár digitális kincskereső Elektronikus szolgáltatások az MTA Könyvtárában

A Békés Megyei Könyvtár Elektronikus Könyvtárának kialakítása

Térképek jelentése és elemzése

Közoktatási Statisztika Tájékoztató 2012/2013. Használati útmutató

Statisztikai alap kia.hu (2009) - main

Összesítés. Látogatások száma Oldalak Találatok Adatmennyiség (11.08 Oldalak/Látogatás)

Önálló labor feladatkiírásaim tavasz

Angol szótár V

Google AdWords és AdSense A Google hirdetési rendszere

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.

FEOR szám kereső V

Hozzávalók keresése és csatolása

SZÓBELI ÉRETTSÉGI TÉMAKÖRÖK

Windows mappaműveletek

w w w. h a n s a g i i s k. h u

Információs társadalom

Belföldi Termékosztályozás V

A SZAKIRODALOM HASZNA ÉS SZERKEZETE

BASH script programozás II. Vezérlési szerkezetek

Területi elemzések. Budapest, április

BEVEZETÉS AZ INTERNET ÉS A WORLD WIDE WEB VILÁGÁBA. Kvaszingerné Prantner Csilla, EKF

Miért olyan fontos a minıségi pont?

WEBPAC e-corvina. Egyszerő keresés:

Az alábbiakban szeretnénk segítséget nyújtani Önnek a CIB Internet Bankból történő nyomtatáshoz szükséges böngésző beállítások végrehajtásában.


Csavarda mobil áruház

vbar (Vemsoft banki BAR rendszer)

11. Balra zárt igazítás A bekezdés sorai a bal oldali margóhoz igazodnak. 12. Beillesztés

A KÖZÉPSZINTŰ ÉRETTSÉGI VIZSGA INFORMATIKA TÉMAKÖREI: 1. Információs társadalom

Vihar 2.0 rendszer Felhasználói kézikönyv

Mit? Online tortarendelés

KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems

erettsegizz.com Érettségi tételek

Témaválasztástól a publikálásig:

Tisztelt Felhasználó!

Pick Pack Pont kereső és boltválasztó alkalmazás

Vajda Éva. Keresőoptimalizált üzleti honlap

4. Javítás és jegyzetek

2008 IV. 22. Internetes alkalmazások forgalmának mérése és osztályozása. Április 22.

Felhasználói dokumentáció a teljesítményadó állományok letöltéséhez v1.0

Microsoft Windows XP. Feladatgyűjtemény

A tér, ami megtérül...

Informatika. 3. Az informatika felhasználási területei és gazdasági hatásai

Kincskereső üzemmód: Hol a titok? Mi a trükk? Keressük meg a NAGY kiugrási pontot! 1. HIBA

COOKIE (SÜTI) SZABÁLYZAT

Web 2.0. (Képen: a web 2.0 címkefelhő. Eredetije: Történet

Lázár kollokvium Kutatók a neten. Albert G. ELTE - Térképtudományi és Geoinformatikai Tanszék

Jogi szabályozás. Térképismeret ELTE TTK Földtudományi és Földrajz BSc. 2007

EDInet Connector telepítési segédlet

Apró Windows Explorer trükkök

Cookie Nyilatkozat Válts Fel weboldal

VALUTAISMERTETŐ FUNKCIÓNÁLIS SPECIFIKÁCIÓ

A Debreceni Egyetem unideb.hu TELEFONKÖNYV. alkalmazásának felhasználói kézikönyve. Összeállította: DE VIR Központ, Sightspot Network Kft.

Fájlrendszerek. A Windows operációs rendszerek fájlrendszere

Átírás:

Keresési si technikák k az internet-en en dr. Nyári Tibor

Ma már közhely, hogy az Interneten tárolt információ mennyisége robbanásszerűen növekszik. A legismertebb információ tárolására, közvetítésére és megjelenítésére alkalmas rendszer a Web (World Wide Web), amelyben a dokumentumokat szolgáltató szerverek száma milliós, a tárolt dokumentumoké pedig százmilliós nagyságrendű, és a számok nagyjából hathavonta duplázódnak. A web csak egy a meglevő sok információs rendszer közül. Ismertebbek még az ftp szerverek, a hírcsoportok (Usenet News), és a gopher.

Mit kereshetünk a Weben? A Web rendszerekben tárolt dokumentumok többsége szöveges formátumú, melyek egy része "sima" szöveg (plain text), a többsége viszont megjelenítési és Web kapcsolati utasításokkal teletűzdelt speciális formátumú szöveg, ún. hipertext (HTML dokumentum). Ezeket a dokumentumokat egészíti ki kép, videó, hang és ezernyi más formátumú anyag (pl.: Postscript, PDF, VRML, programkód: Java, JavaScript, VBScript, Flash, stb,), melyek letöltésére és megjelenítésére a Web böngészők (Netscape, Internet Explorer, Lynx, stb.) használhatóak. A keresés alapvetően a szöveges állományokra korlátozódik, kevés kísérleti rendszer létezik csak a kép és hang típusú anyagok fejlett keresésére. A szöveges állományok közül azonban szinte az összes elterjedten használt formátum kereshető, nem csak a standard HTML és a text. Az egyéb anyagok általában ezek mentén érhetőek el, tehát például egy kép a hozzá tartozó szöveges leírás, vagy file azonosító alapján található meg. Vannak olyan speciális adatok is, melyek nem Web dokumentumok, de Web kereső rendszerekben szerezhetjük be őket. Ilyenek pl. a telefonszámok, email címek, stb.

Hogyan kereshetünk a Weben? A Web keresés jelenlegi alapvető eszközei az ún. kereső motorok (searching engine) és katalógus rendszerek (index), melyek speciális tartalmú Web szerverek - a megszokott Web böngészőnk - használatával érhetjük el őket. A két elnevezés mögött két alapvetően eltérő filozófiájú rendszer húzódik meg. A katalógus rendszerek (avagy webliográfiák - tematikus keresés) hasonlóak a könyvtári katalógusokhoz, kísérletet tesznek a Weben tárolt anyagok katalogizálására. A legismertebb ilyen rendszer a Yahoo (http://www.yahoo.com), a Miningco (http://www.miningco.com), illetve az Infoseek (http://www.infoseek.com), a Google (http://www.google.com) és a Startlap (http://startlap.hu), stb. Ezekben a rendszerekben a keresés alapvetően böngészést (browsing) jelent, amikor a keresett dokumentumot a katalógus kategóriáival írjuk le, és ezek mentén végighaladva találjuk meg (pl. sport - futball - világbajnokság - France'98 - http://www.worldcup98.com). Természetesen a katalógus rendszerekben is kereshetünk, de ez csak a katalógus tartalmára korlátozódik.

A katalógus rendszerek legnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedő Web tartalom mellett egyre nagyobb feladat. Ezek a rendszerek a gyakorlatban nem vállalkoznak a teljes Web katalogizálására. A manuális katalogizálás ugyanakkor lehetőséget teremt a tartalom szerinti szűrésre sre, azaz a katalógus rendszerektől elvárható a relevánsabb tartalom egy adott témához. Másik hátrányuk, hogy az általános rendszerek angol nyelvűek, kevés nemzeti nyelvű rendszer létezik még. Magyarországon leginkább a Magyar Elektronikus KönyvtK nyvtár (http://www.mek.iif.hu/) áll közel a katalógus rendszerekhez, mely azonban (igazi könyvtárként) nemcsak a katalógust, hanem magukat a válogatott dokumentumokat is tartalmazza.

A kereső rendszerek (search engine - kereső motorok) ezzel szemben a teljes Web módszeres és rendszeres végigjárására vállalkoznak, így egy sokkal teljesebb képpel rendelkeznek a Web-en tárolt dokumentumokról. A keresőkben egy tartalom szerinti, ún. index adatbázis készül el automatikusan, mely a végiglátogatott helyek dokumentumait tartalmazza valamilyen kivonatos formában - ez az ún indexelés (indexing). A keresés azután ezen index-adatbázisban történik a felhasználó által megadott kulcsszavak alapján. A rendszer egy találati listát ad vissza, amely a megadott szavakra illeszkedő dokumentumok címeit és rövid kivonatát (a dokumentum elejét, vagy a leginkább illeszkedő részét) tartalmazza. A legismertebb kereső rendszerek Magyarországon (elsősorban magyarországi lapokra) az Altavizsla (http://altavizsla.matav.hu) és a Heuréka (http://heureka.net.hu), külföldön az Altavista (http://altavista.digital.com), a Northern Light (http://www.nlsearch.com), vagy az Excite (http://www.excite.com), Google (http://www.google.com). Minden keresőnek megvan a maga erőssége és gyengéje, az Altavista és a Google indexeli közel a legtöbb lapot és a leggyakrabban, az Excite néhány közkedvelt kategóriába rendezi (automatikusan katalogizálja) az indexelt lapokat, a Northern Light saját dokumentum gyűjteményeket is kínál.

A meta-keres keresők (meta-search engine) egyszerre több kereső rendszert felhasználva, azok eredményeit kombinálva állítják elő a találati listájukat. Legismertebb a MetaCrawler (http://www.metacrawler.com), a Dogpile (http://www.dogpile.com), vagy a MetaFind (http://www.metafind.com). Az általános indexek és kereső rendszerek mellett vannak adott területre koncentráló szerverek is. Legismertebbek az ftp szerverek tartalomjegyzékeiben kereső FtpSearch (http://ftpsearch.ntnu.no/), vagy az email címek és telefonszámok keresésére való rendszerek.

A Web keresés s lépései: l A Web keresés is "olyan, mint a matematika: mindent szabad, ami örömet okoz." (dr. Rózsa R Pál P - matematikus). Nincs bevált, és mindenki által követendő módszertan. Mindenki saját magának alakítja ki kedvenc stratégiáját. Minden keresés egyedi: még ugyanaz az ember sem biztos, hogy valamit kétszer ugyanúgy talál meg, sőt az sem biztos, hogy másodjára megtalálja, amit első alkalommal igen. Az itt megfogalmazott lépések inkább jó tanácsok, mintsem egy mindenkinél beváló menetrend elemei.

1., Fogalmazzuk meg, hogy mit keresünk! A keresés első lépése az analízis. Az elképzelt dokumentum alapján a keresési minta (kulcsszavak, kategóriák) előállítása, melyen a keresés sikere alapvetően múlik. Rosszul megválasztott kulcsszavak könnyen vezetnek a "nem találok lok semmit" és a "25 532 983 találat" lat" két szélsőséges végeredmény valamelyikére. Tematikus keresés esetén a kategória leírása, azaz megpróbáljuk a keresett dokumentumot témája alapján a katalógus rendszerek kategóriáinak valamelyikébe besorolni. Direkt keresés esetén a kulcsszavak kiválasztása. Azokat a szavakat és kifejezéseket kell kigyűjteni, melyek a lehető legpontosabban körülhatárolják a keresett dokumentumot, egyrészt pozitív (megerősítés), másrészt negatív (kizárás) alapon (pl. szerepeljen benne a cikk szó, de ne szerepeljen benne a törvénycikk szó).

2., Próbáljunk ki egy általános kereső rendszert! Ha sikerült jól eltalálni a kulcsszavakat, akkor egy kereső rendszer egyből visszaadhatja a keresett dokumentumot (pl. a Google jó találatot latot ad a "recept" keresési si mintára). Itt érdemes inkább pontosabb kifejezésekkel próbálkozni, csökkentve a találatok számát. Előnyös azokat a kereső rendszereket alkalmazni, melyek képesek az eltalált kulcsszavak és kifejezések alapján egy százalékos illeszkedési mutatót is visszaadni (pl. a meta-keresők, vagy a Northern Light, de megfelelő a Google is). Ez a lépés az esetek csak kis részében vezet eredményre, de gyorsasága miatt mindenképpen érdemes kipróbálni. Ezen kívül segíthet további kulcsszavak megfogalmazásában is, elsősorban a nem releváns anyagokat kizáró szavakat sorolhatunk fel az első eredményeket látva.

3., Jöjjenek J a katalógusok! Ha a keresett dokumentum jól katalogizálható, akkor egy általános célú katalógus rendszerben a nyomára lehet bukkanni. A siker itt kevésbé a kulcsszavakon, sokkal inkább a katalógus kategória pontos megállapításán áll vagy bukik, illetve azon, hogy a dokumentum mennyire tartozik az "általános érdeklődésre számot tartó anyagok" közé. Sokan feleslegesnek értékelik ezt a lépést, mivel a nehezen katalogizálható, vagy az új, és széles körben nem ismert dokumentumok esetén nem sok esély van a találatra. Ilyen esetekben a speciális, az adott szűk területre koncentráló (ún. dedikált) katalógusok, Web-gyűjtemények jöhetnek szóba. Ilyen állandó gyűjtemények felkutatására azonban már jól használhatóak a katalógus rendszerek. Ezek a gyűjtemények általában egyszerű weblapok, ahol a terület legfontosabb Web-helyei, a legfrissebb hírek, stb. vannak felsorolva. Figyelem!!! Mindig érdemes ellenőrizni a lap utolsó módosítási dátumát).

4., Ismét t térjt rjünk vissza a kereső rendszerekhez! Ha az első "hirtelen" keresés és a katalógusok sem vezettek eredményre, akkor a kereső rendszerek módszeresebb használata következik. Itt már a felsorolt kulcsszavak mindegyikére szükség van: a lehető legpontosabban kell körülírni a keresett dokumentumot. Ehhez általában az összetett keresést (advanced search) kell igénybe venni. Ennek alapvető módszere az ún. Boolean keresés, amikor a kulcsszavakat és kifejezéseket egy Boolean kifejezésbe foglaljuk az AND, OR, NOT, esetenként a NEAR és ADJ kulcsszavakkal. A Boolean keresésre nem minden rendszer képes. A százalékos találati arány szerint rendező keresők esetében a keresési ablakba minél több kulcsszót, kifejezést kell írni. A keresés esetenként többször is megismételendő a találatok számától függően. A két szélsőséges eset (minden vagy semmi) között kell eltalálni azt, amikor a visszaadott dokumentumok száma ésszerűen kicsi; vagy azt az esetet, amikor a találati lista elején van, amit kerestünk.

Példa: Keresési feladat: Olyan kókuszgolyó recepte(ke)t keresünk, amely az ismert összetevőkön túl tartalmaz sok rumot, de semmiképpen nincsen benne meggy. 1. Analizálás a megfelelő kulcsszavak kiválaszt lasztása: sa: recept, kókuszgolyó, rum, meggy - csak szótövek (nem toldalékos szavak) - a keresett nyelv helyesírási szabályainak betartása

2. A kulcsszavak megfelelő mezőbe illesztése: se:

Azok a kulcsszavak, amelyek a keresett oldalon rajta vannak, de sorrendjük, elhelyezkedésük nem lényegesl nyeges. A szavak AND (ÉS) kapcsolatban vannak. Azok a kulcsszavak, amelyek a keresett oldalon pontosan így vannak rajta, sorrendjük, elhelyezkedésük lényeges. Például idézetek esetén. Azok a kulcsszavak valamelyike, amelyek a keresett oldalon rajta vannak, sorrendjük, elhelyezkedésük nem lényegesl nyeges. A szavak OR (VAGY) kapcsolatban vannak. Azok a kulcsszavak, amelyek a keresett oldalon semmiképpen sincsenek rajta. A szavak NOT (NEM) operátorral rendelkeznek.

3. A keresőmotor paramétereinek beáll llítása:

4. A találati lati lista elemzése:

5. A konkrét t találat lat megjelenítése: ÚJ J ABLAK SHIFT + BAL CLICK

A tradicionális keresők értékelése: Milyen szempontok alapján válogathatunk a keresők között? A szempontok közül a legfontosabbak a sebesség, az index adatbázis mérete és frissessége ge, keresési si módszerekm dszerek, és az eredmények tálalt lalási módja. A sebesség egyrészt a rendszer működési sebességét jelenti, de ennél sokkal lényegesebb a rendszer és a saját gépünk közötti hálózati zati sebesség. Ez egy szélsőségesen változó paraméter, nyilvánvalóan befolyásolja saját Internet kapcsolatunk sebessége, terheltségének eloszlása, de legalább ugyanennyire a kereső rendszer népszerűsége és ahhoz mért kapcsolati sebessége is. Akár napszaktól függően is változhat, hogy mely kereső rendszert érdemes használnunk, vagy egyáltalán melyiket érjük el. Az index adatbázis mérete m és s frissessége határozza meg azt, hogy milyen eséllyel találhatunk meg egy adott web-lapot a keresővel. A komolyabb keresők adatbázisai százmilliós nagyságrendben tartalmazzák az indexelt lapokat, és körülbelül hetente látogatják meg a web szervereket. Ilyen látogatások alkalmával a keresők indexelő szoftverei (crawler) általában a nyitó lapok mindegyikét letöltik, a mélyebben levő lapoknak azonban csak egy részét. A keresők üzemeltetőitől független mérések szerint jelenleg a Google a legátfogóbb, és a leggyakoribb látogató.

A keresési si módszerekm között az egyszerű keresés, összetett keresés, koncepció alapú keresés szerepelhet. Egyszerű keresést minden rendszer kínál, többségüknél használható az összetett keresés is, és csak kevesen használják a harmadik módszert. Az egyszerű keresés esetén a visszaadott eredmény vagy az összes kulcsszót tartalmazó dokumentumok listája, vagy a kulcsszavak előfordulása alapján sorrendbe rendezett lista (százalékos illeszkedéssel). A keresők többségénél használhatóak a + és - szimbólumok, melyekkel a mindenképpen megkívánt és a semmiképpen sem szereplő kulcsszavak jelölhetőek meg (pl. +cikk -törvénycikk). Az összetett keresés a már említett Boolean kereséssel valósítható meg, amikor a kereső kimenete a Boolean mintának megfelelő dokumentumok listája (pl. "cikk AND NOT törvénycikk"). A keresők közötti különbség itt a felhasználható kulcsszavakban mutatkozik. Az AND, OR és NOT minden Boolean keresésben használható, a NEAR (közeli), FAR (távoli), az ADJ (rákövetkező), FOLLOWED BY (rákövetkező), és a BEFORE (megelőző) már csak néhány helyen, ezeknél finomabb Boolean keresés csak nagyon kevés helyen (pl. a Lycos-nál) állítható be.

A koncepció alapú keresés esetén a rendszer kísérletet tesz arra, hogy az egyes kulcsszavak jelentései közül azt válassza, amely a legközelebb áll a többi kulcsszóhoz, kifejezéshez. Erre elég kevés példát találni, a legismertebb az Excite. Bizonyos keresőknél speciális behatároló kulcsszavakat is használhatunk (pl. Google-n: "applet:clock" olyan appletet keres, aminek valami köze van a clock szóhoz). Az eredmények megjelenítésénél a forma általában nagyon hasonló, fontosabb szempontok egyrészt a sorrend megállapítása, másrészt az automatikus kategóriákba szervezés megléte. A találati listán levő dokumentumok sorrendjét esetenként magunk is meghatározhatjuk erre szolgáló szavakkal (pl. Altavista összetett keresés, "result ranking criteria"), más esetekben a kereső használ valamiféle módszert erre. A legjellemzőbb az, hogy nem teljes illeszkedést vizsgáló keresők a megtalált kulcsszavak száma, előfordulási aránya alapján állítanak fel egy sorrendet. Esetenként a találati lista tovább kereshető (pl. Infoseek). Néhány kereső képes arra, hogy a találati listát automatikusan kategóriákba szervezze az eredmények értékelését megkönnyítendő (pl. a Northern Light). A további értékelési szempontok között szerepel, hogy milyen nyelvű web lapokat kereshetünk (pl. a Google 36 nyelven képes k keresni), mi a helyzet a kis és nagybetűk megkülönböztetésével, képes-e a kereső a szótövek megtalálására, ragok levágására és illesztésére, valamint használe szinoníma szótárt?

Fejlett kereső rendszerek: Bármennyire is segítőkészek, a tradicionális kereső rendszerek nem oldják meg a keresés problémáját, mert a keresésnek még mindig nagyon sok olyan manuális eleme van, melyek kiváltására a mai rendszerek nem képesek. A kereső rendszerek fejlesztésére dollármilliókat költenek, de a tradicionális módszerek nem vezetnek teljes eredményre. A nem tradicionális módszerek között szinte mindent megtalálni a neurális hálózatóktól kezdve a gépi tanuláson át az automatikus szövegelemzésig (tartalom elemzésig). Ezen "fejlett" kereső rendszerek legtöbbje a kliens gépen futó szoftver, mely alapvetően három (nem technikai) kategória valamelyikébe sorolható: hirdetésekkel szponzorált ingyenes web-kereső kliens, "fejlett" módszerekkel felfegyverzett pénzért vásárolható "találmány", vagy egy nagy szoftver cég ingyenes programkódja. Általános tulajdonságuk, hogy testre szabottak, azaz megpróbálják kiismerni a használójuk érdeklődési területeit, szokásait, és ezekkel az adatokkal segíteni a keresést, melyet egyébként a hagyományos rendszerekre támaszkodva végeznek el.

A területtel átfogóan az információ beszerzés (information retrieval - IR, avagy information gathering) kutatási terület foglalkozik. A terület nem új, és nem az Internet hívta életre; gyakorlatilag a hagyományos könyvtári rendszerek megléte óta létezik, és a 40-es évek környékén vált önálló kutatási területté. Az alapkönyveket az 50-60-as években írták. Az Internet megjelenése csak tovább színesítette az amúgy is igen nehéz feladatot. Az információ beszerzés kutatásának alapvető területei az automatikus információ (szöveg-) elemzés, szótár konstrukció, statisztikai módszerek, automatikus kategorizálás, a információ beszerzés modelljei, keresési stratégiák, felhasználó modellezés, keresés értékelési módszerek, stb.

Az IR mellett legtöbbet emlegetett fogalom fejlett kereső rendszerek kapcsán az intelligens ágens (intelligent agent), amely egy olyan szoftver, amely a felhasználó nevében és érdekében önállóan cselekszik. Az ágensek egy alkalmazási területe az információ beszerzés, ahol az infomációs ágens egy olyan szoftver, amely helyettem önállóan képes megkeresni valamit az Interneten. Az ágensem ismer engem (rendelkezik a felhasználói modellemmel), segít megfogalmazni a kérésemet, önállóan lép kapcsolatba a nagy kereső rendszerekkel, beszerzi a találati listát, majd arról a legjobbnak tűnő dokumentumokat beszerezve és értékelve a kérésemnek legjobban megfelelőt rakja a lábaim elé". Mindeközben az általam kedvelt dokumentumok alapján tovább finomítja a rólam alkotott képét, megtanulja a viselkedési szokásaimat, stb. A legtöbbjük egy-két ötlet köré épített szoftver, amely - ha másra nem is jó, de - a hagyományos kereső rendszerekhez nyújt egy szebb, jobban használható, és - kliens oldali szoftver lévén - gyorsabban reagáló interfészt.