Informatika 1. előadás Keresőmotorok használata Füleki Dániel Egyetemi adjunktus Budapesti Corvinus Egyetem Informatikai Intézet (Számítástudományi Tanszék, E-Business Kutatóközpont) Szociológiai és Társadalompolitikai Intézet 2007.02.22. 1 ismét adminisztráció Témakör (jelleg) Keresőmotorok, dokumentumok és kutatási kampány (előadás) Excel (géptermi gyakorlat) Keresőhasználat (Google, géptermi gyak.) Előfizetett adatbázisok használata, keresők találatainak alkalmazása (géptermi gyak.) Online kérdőíves kutatás (géptermi gyak.) Intervallum 1-3. óra 4-6. óra 7-9. óra 10-11. óra 12-13. (14.?) óra 2007.02.22. 2 Elvárások» A tárgy gyakorlati jeggyel zárul» Minden géptermi órai munkát pontozunk» A félév során minden gyakorlati anyagrészből lesz zárthelyi (összesen 3, az utolsó két blokk összevont zárthelyi tárgyát képezi)» Pontozási terv (nem végleges!):» 11 géptermi óra * 5 pont = max. 55 pont» 3 zárthelyi * 15 pont = max. 45 pont» Extra teljesítményekért max. + 10 pont 2007.02.22. 3 1
Mi az, hogy keresőmotor? Információ-visszakereső rendszer:» Jellemzően az internet, egy portál, egy intranet vagy egy számítógép tartalmát rendszerezi és teszi kereshetővé» Dokumentumokat indexel» Kulcsszavakat (esetleg műveleti jeleket) vár a felhasználótól ( kereső-kifejezés)» Találati listát készít azokból a dokumentumokból, amelyek a kereső-kifejezés elemeit az elvárt módon tartalmazzák 2007.02.22. 4 Hogyan működik egy webkereső? Három munkafázist végez el: 1. Bejárás (és aratás) 2. Indexelés (feldolgozás) 3. Keresés (kiszolgálás)» A bejárás során végiglátogatja az összes elérhető weboldalt és a saját tárhelyére lementi azokat (vagy egy részüket)» Az indexelés során kiemeli a különféle kulcsszavakat és fontosabb formai elemeket (pl. kifelé mutató linkeket)» A felhasználó lekérdezésére találati halmazt állít össze» Releváns találat előre kerül» Relevancia ~ kulcsszó-gyakoriság, közelség, beérkező linkek száma stb. ( Google PageRank) 2007.02.22. 5 Egy szinttel feljebb: metakeresők» Gyűjtő- és többszörösen indexelő szolgáltatások (metakeresők)» Párhuzamos keresés» Eredmény-összefésülés, többszörözések kezelése» Logikai operátorok értelmezése» Információveszteség nélküli működés» Forrásrendszer-elfedés: a felhasználónak nem kell semmit tudnia az egyes indexelő szolgáltatások egyedi tulajdonságairól» Teljesség: a keresésnek addig kell tartania, amíg a megjelölt szolgáltatásokból találatok nyerhetők Példa: nigma.ru, kartoo.com ( címkefelhő ) 2007.02.22. 6 2
Keresőmotor-történet» Archie (1990)» Gopher (1991)» Veronica, Jughead» Wandex, AliWeb, Webcrawler (1993)» Lycos (1994)» InfoSeek, AltaVista (1995)» Google (1998)» Yahoo! Search (2004)» Windows Live Search (2006) 2007.02.22. 7 Kihívások a mai keresőmotorok előtt» A weblapok száma túl gyors ütemben nő egyre kisebb hányaduk indexelhető» A weblapok jelentős része frissül ezeket újra és újra be kell járni» Sok a hamis találat (a keresett kulcsszavak rendkívül messze vannak egymástól)» Adatbázis-kapcsolatos oldalak indexálása túlterhelést okozhat (tömeges oldal-kimerevítés )» Jelszóval védett, vagy űrlapkitöltést követő lapok nehezen indexelhetők» Sokszor a legjobb szándék mellett is irrelevánsak a találatok» Néhány keresőmotor találati sorrendje attól függ, melyik keresett lap tulajdonosa fizet többet az előresorolásért» Linkspam, tartalmi spam: klónozott vagy automatikusan szindikált weboldalak tartalmai relevánsabbak, mint ami valóban az» A biztonságos oldalak tartalmát (https protokollal járhatók be) általában nem lehetséges, vagy nem szabad aratni 2007.02.22. 8 Hol keresnek a leggyakrabban? 2006 december: a legforgalmasabb keresőmotorok Szolgáltató Keresések száma (ezer) Éves forgalomváltozás (%) Részarány (%) Google 3,035,617 22.6 50.8 Yahoo 1,412,904 30.1 23.6 Windows Live Search 499,946-9.7 8.4 AOL Search 362,140 7.8 6.1 My Way 141,527 4.7 2.4 Ask.com 128,452 17.2 2.1 EarthLink Search 31,930 17.6 0.5 Dogpile 30,487 2.1 0.5 Comcast Search 26,931 N/A 0.5 NexTag Search 26,835 123.2 0.4 2007.02.22. Forrás: Nielsen//NetRatings, 2007 9 3
Miért éppen Google?» Milton Sirotta (Edward Kasner matematikus 9 éves unokaöccse) ejtette ki a száján a googol szót először» A googol jelentése: 10 100, nyílt formában leírva borzasztóan hosszú szám» A jelentés áttétele: a Google szinte mérhetetlenül sok weboldalt jár be és tesz kereshetővé 2007.02.22. 10 A Google lehetőségei (1)» Kulcsszavas keresés, ezen belül:» Prefixek,» Operátorok,» Helyettesítő karakterek,» Szűrők használata» Képkeresés (környező szavak alapján)» Összetett keresés menütámogatással» Katalógus (directory) 2007.02.22. 11 A Google lehetőségei (2)» Specializált keresés» Scholar» Technikai (Microsoft, UNIX, Mac stb.)» Egyetemi kereső (USA)» Áru- és árkereső (Froogle, USA)» Hírcsoport-kereső (egyúttal levelezőlista-szerver Groups)» Számológép, valutaváltó, mértékegység-átváltó» Portletek (nem kereső, hanem főleg hírszűrő funkciót látnak el) 2007.02.22. 12 4
2007.02.22. 13 2007.02.22. 14 A Google korlátai» Csak a világnyelveket támogatja sokrétűen» Szótövezés (implicit!)» Helyesírási tanácsadás» A legtöbb kísérleti funkció csak angolul érhető el» Nincs explicit szótövezés (kereső-kifejezésben nem rendelhető meg )» Az általános helyettesítő karakter [*] csak teljes szavak helyett állhat» A kereső-kifejezés első 32 szavát értelmezi a keresőmotor (a Google Groups esetén ez a szám csak 10!)» Célszerű a legritkább szavakat meghagyni» Helyettesítő karakterek nem számítanak bele» A találatok száma hozzávetőleges adat, valójában 2-3000-szer kevesebb tényleges találat is adódhat, mint amennyit a számláló mutat! 2007.02.22. 15 5
Egyszerű keresés (1)» Konkrét keresőszavak előfordulásaira keres a motor, NEM témákra (szinonimák szerint)» Nincs különbségtétel kis- és nagybetű között» Minden keresőszó között alapértelmezett ÉS logikai kapcsolat van (mindnek elő kell fordulnia a találatban)» A VAGY-kapcsolatot külön jelezni kell (OR közbeiktatásával) 2007.02.22. 16 Egyszerű keresés (2)» Kötőszavakat figyelmen kívül hagyja (ha az egyik világnyelven vannak a keresőkifejezésben)» A keresőszavak sorrendje a felhasználói relevanciát tükrözi, azaz az első kapja a legnagyobb súlyt» Világnyelven megadott főnevek esetén a többes számú alak nem ad azonos eredményt az egyes számúval» A legrelevánsabb találat megjelenítésére külön parancsgomb (I m feeling lucky/jó napom van) 2007.02.22. 17 Alapvető vezérlőkarakterek» [+szó]: azok a találatok sorolódnak előre, amelyekben a szó gyakrabban fordul elő. Egyszerre több kereső-kifejezés elé is írható.» [ szó 1 szó 2 szó n ]: az idézőjelek közé foglalt kereső-kifejezés pontos mása kell, hogy előforduljon a találatokban» [-szó]: a találati listából kimarad minden olyan dokumentum, amelyben a szó legalább egyszer előfordult 2007.02.22. 18 6
Néhány definíció a továbblépéshez» URL: Uniform Resource Locator, azaz dokumentumok (általában: erőforrások) teljes címe a világhálón.» Első része az eléréshez használt protokollt adja meg: pl. http://, https://, ftp://» Második része a konkrét domainnevet és az elérési útvonalat (esetleg fájlnevet) adja meg (ahol a dokumentum van)» Domainnév: egy internetre kapcsolt gép IP-címének szöveges fordítása (pl. 146.110.2.4 = bors.uni-corvinus.hu)» IP-cím (internet-cím): egy internetre kapcsolódott gép egyedi elérési száma» Protokoll: kommunikációs szabályok pontos leírása (pl. HTTP megadja, hogy egy böngésző és egy webszerver hogyan kommunikáljanak egymással)» Böngésző (browser): internetes tartalmak lefordítására és megjelenítésére hivatott szoftver 2007.02.22. 19 Beépített speciális keresés Ezt a felületet a keresődoboztól jobbra lévő linkre kattintva hívhatjuk elő.» Tartalmazzák a következő szavak mindegyikét: sima keresés, nincs operátor» Tartalmazzák a következő kifejezést: idézőjellel veszi körül» Tartalmazzák a következő szavak egyikét: OR operátort illeszt a szavak közé» Nem tartalmazzák ezeket a szavakat: mínuszjelet tesz a szavak elé 2007.02.22. 20 Beépített speciális keresés (2)» Nyelv: csak itt lehet a dokumentum nyelvét előre rögzíteni! (Nincs rá beírható szűrő)» Fájlformátum: a találat csak bizonyos fájltípusú lehet (pl. pdf, xls ) szabadszavas keresésben rugalmasabban használható! (= filetype: operátor)» Dátum: a megtalált weblap frissességét lehet elvárni (szűkíteni)» Előfordulások: a keresett oldal bizonyos formai elemein belül zajlik csak a keresés» Az oldal címében: = allintitle: operátor» Az oldal szövegében: = allintext: operátor» Az oldal URL-címében: = allinurl: operátor» Az oldal címében: = allinanchor: operátor» Domain: = site: operátor 2007.02.22. 21 7
Beépített speciális keresés (3)» Hasonlóság alapján: egy domainnév tartalmához hasonlókat listáz. Elérési út megadásával szűkíthető a találatok halmaza (= related: operátor)» Linkek alapján: milyen oldalak hivatkoznak a keresett domainnévre? (= link: operátor) 2007.02.22. 22 Speciális szűrők Manuálisan összeállított kereső-kifejezések részei lehetnek.» Intitle: a keresett lap címében szerepel a szűrő után álló keresőszó» Allintitle: minden szó, ami a szűrő után áll, csak a címben fordulhat elő» Inurl: a keresett lap URL-jében szerepel a szűrő után álló keresőszó» Allinurl: minden szó, ami a szűrő után áll, csak az URL-ben fordulhat elő» Intext: a keresett lap szövegtörzsében szerepel a szűrő után álló keresőszó» Allintext: minden szó, ami a szűrő után áll, csak a szövegtörzsben fordulhat elő» Inanchor: a keresett lap linkre rakott szövegeiben szerepel a szűrő után álló keresőszó» Allinanchor: minden szó, ami a szűrő után áll, csak a linkre rakott szövegekben fordulhat elő 2007.02.22. 23 Speciális szűrők (2)» Site: az eredményeket csak bizonyos domain(ek)ről listázza a kereső» Daterange: a Google által bizonyos időintervallumon belül indexelt oldalakon keres (julián-naptári napokkal kell megadni a korlátokat Átszámító itt)» Filetype: ld. beépített speciális keresés» Link: ld. beépített speciális keresés» Related: ld. beépített speciális keresés 2007.02.22. 24 8
Speciális szűrők (3)» Info: pársoros leírást ad egy adott doménnév alatt található tartalmakról (ha annak tulajdonosa gondoskodott erről). Többféle operátort automatikusan felajánl további (szűkítő) keresésre.» Cache: főként leszedett, eltűnt vagy időközben dinamikusan átcímzett oldalak megtalálására jó: a keresett lap pontos címét kell beírni az operátor után, amely a lapnak a Google weblap-tárolójában szereplő másolatát adja eredményül» Define: fogalommeghatározást kérhetünk (a Google munkatársai által gyűjtött glosszáriumokból). Többnyelvű funkció! 2007.02.22. 25 Google Scholar (1) Tudományos szövegek vagy citációk (idézetek, kivonatok) keresésére szolgáló specializált keresőmotor. Pluszfunkciók:» Idézettséget számol» Kapcsolódó cikkeket keres» Előfizetett elektronikus adatbázisokban is keres» Képes tudományágankénti leválogatásra» Megmutatja egy írás valóságos könyvári elérhetőségét» A lezárt változat előkészületi folyamatában készült írásokat is megtalálja (konferencia-beszámoló, műhelytanulmány, kivonat stb.)» Sima keresést is indít» Megjelenési időpont szerint rendezi a találatokat» Hasonló munkákat jegyző szerzőket listázza» Képes referenciamenedzserekbe rekordokat exportálni 2007.02.22. 26 Google Scholar (2) A Scholar saját szűrői és vezérlőkarakterei:» Írás címére idézőjellel kell keresni» Használható az intitle: operátor is» Szerzőre az author: operátorral lehet keresni Minden egyéb az Advanced keresésből állítható be. 2007.02.22. 27 9
Google API-k» API = Application Programming Interface (Alkalmazásfejlesztési felszín, esetleg ráépülő felület )» Lehetővé teszi, hogy külső szoftverfejlesztők saját alkalmazásokat alkossanak, amelyek a Google egyes szolgáltatásait használják a háttérben» A felhasználó személyes adatait (pl. felhasználónév, jelszó, API-kulcs) is megadhatja rajtuk keresztül, ezeket az adatokat az API-t alkalmazó megoldás tulajdonosa nem látja 2007.02.22. 28 Amikor a Google nem jó választás» Nincs csonkolás (explicit szótövezés)» Szinte az összes többi keresőmotor képes erre» Nem menthetők a korábbi keresések (erre jó pl. az Amazon.com keresője» Bizonyos adattípusokat nem képes hatékonyan előkeresni» E-mail címek» Rövidítések» A Google nem a weboldalak időgépe, erre szakosodott szolgáltatás a WayBackMachine 2007.02.22. 29 Klaszterező keresőmotorok» Clusty.com» Témaköröket, kapcsolódó szerzőket és egyéb releváns, szintezett csoportokat képez a találatokból» Több keresőmotort használ fel (metakereső)» Csoportosítja a forrásokat TLD szerint» Kartoo.com» Grafikus témacsoportokat alakít ki ( szigetek )» A szigetek között az összeköttetést kulcsszavak adják» Menti a kereséseket (kiemelve a sikereseket!)» A Google-t NEM használja (más keresőket igen)» Nigma.ru 2007.02.22. 30 10
A kérdezés művészete» A világról mindig kevesebb tudásunk van, mint amennyi még hiányzik» Csak a részben ismeretlen dolgokra tudunk rákérdezni» Ha már tudunk kérdezni, azt jelenti, hogy az adott témában már benne vagyunk valamennyire» A célzott internetes keresés abból indul ki, amit kérdezni tudunk és akarunk» Ha nem tudunk semmit egy témáról, nem leszünk képesek kérdést feltenni vele kapcsolatban» Ha egy témában tudunk valamit, de mégsem kérdezünk rá, akkor a téma nem érdekelt bennünket 2007.02.22. 31 Zárszó Ez a tantárgy mindazoknak érdekes és hasznos lesz, akiket a világon föllelhető összes téma közül legalább egy érdekel Köszönöm a figyelmet! 2007.02.22. 32 11