1. előadás Keresőmotorok használata



Hasonló dokumentumok
2. 3. Keresés az Interneten. Navigáció az Interneten: Megoldások. Internetes keresés buktatói. 1. Keresőmotorok. Webes keresési lehetőségek

KERESÉS A NETEN DR. KÓNYA LÁSZLÓ: KERESÉS A NETEN KERESÉS MÓDSZERE, KERESŐPROGRAMOK

Tartalom. Google szolgáltatásai. Googol Google. Története. Hogyan működik? Titka

INTERNETES KERESÉS. Szórád László Óbudai Egyetem TMPK

Adatkeresés az interneten. Cicer Norbert 12/K.

A számítástechnika gyakorlata WIN 2000 I. Szerver, ügyfél Protokoll NT domain, Peer to Peer Internet o WWW oftp opop3, SMTP. Webmail (levelező)

1. lecke. Google keresési technikák. Bevezetés. Alapvető tudnivalók

EDInet Connector telepítési segédlet

Modul 3B: 1. rész Az ingyenes, világméretű adatbázisának használata

Internetes keresés. Dr. Nyéki Lajos 2019

Online információkeresés. Dr. Nyéki Lajos 2016

A lecke célja: A tananyag felhasználója megismerje a keresőmotorok működésének alapjait, tudjon segítségükkel hatékonyan keresni.

A WEBOPAC (online elektronikus katalógus) használata. 1. Keresés az adatbázisban (összetett):

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

Információ és kommunikáció

Az alábbiakban a portál felépítéséről, illetve az egyes lekérdező funkciókról kaphat részletes információkat.

MŰSZAKI KÖVETELMÉNYEK, A KÖRKERESŐ SZOFTVER SPECIFIKÁCIÓJA, KÖLTSÉGVETÉS. A) Műszaki követelmények

Savaria Egyetemi Könyvtár Katalógusa. Böngészés Keresés Találatok megjelenítése Adatbázis választás Olvasói tranzakciók

Informatika 10. évf.

ALEPH Elektronikus Katalógus rövid útmutató

ALKALMAZÁSOK ISMERTETÉSE

TextLib könyvtári integrált rendszer WebOPAC keresőfelülete

NYILVÁNOS KÖNYVTÁRI KATALÓGUSOK

Belföldi Termékosztályozás V

Nemzeti Fejlesztési és Gazdasági Minisztérium támogatásával megvalósuló KKC-2008-V számú projekt B2CR ONLINE KOMMUNIKÁCIÓ

Információ és kommunikáció

1. tétel. A kommunikáció információelméleti modellje. Analóg és digitális mennyiségek. Az információ fogalma, egységei. Informatika érettségi (diák)

Információ és kommunikáció

Miért érdemes duplikált tartalmakkal és oldalakkal

Hogy keres a Google?

Citroen Pásztor Alkatrész és tartozék webáruház

Angol szótár V

Felsô menü: Jogszabály- és dokumentumtár menüpont. Almenüpontok:

AZ INTERNET ÉS KERESŐESZKÖZEI

Hozzávalók keresése és csatolása

Felhasználói kézikönyv a WEB EDInet rendszer használatához

Web harvesztelés. Automatikus módszerekkel

TANFOLYAMI AJÁNLATUNK

ECDL Információ és kommunikáció

Közoktatási Statisztika Tájékoztató 2012/2013. Használati útmutató

KÖNYVTÁRI KATALÓGUS HASZNÁLATI ÚTMUTATÓ

Felhasználói kézikönyv MAGYAR NEMZETI BANK. ERA keretrendszer

FEOR szám kereső V

Exchange tájékoztató

PIAC_ Nemzetközi Határozatkereső rendszer fejlesztése. Szakmai fórum február 29.

ÉRETTSÉGI TÉTELCÍMEK 2018 Informatika

Felhasználói segédlet a Web of Knowledge / Web of Science adatbázis használatához

TEÁOR kód Kereső - nyilvántartó program V

6. Óravázlat. frontális, irányított beszélgetés. projektor, vagy interaktív tábla az ismétléshez,

TESZTKÉRDÉSEK ECDL Online alapismeretek Szilágyi Róbert S.

Útmutató az online katalógus használatához

Tisztelt Ügyfelünk! Változások a 6-os verzióhoz képest:

weblakszov Felhasználói útmutató

Vajda Éva. Keresőoptimalizált üzleti honlap

FEJLETT INFORMÁCIÓKERESÉSI TECHNOLÓGIA A FELSŐOKTATÁSBAN

Felhasználói kézikönyv

Logon megrendelő felület

NeoCMS tartalommenedzselő szoftver leírása

SDL Trados szervermegoldások. Szekeres Csaba SDL Trados partner M-Prospect Kft.

BARANGOLÁS AZ E-KÖNYVEK BIRODALMÁBAN Milyen legyen az elektonikus könyv?

Az informáci. Forczek Erzsébet SZTE, ÁOK Orvosi Informatikai Intézet május

PTE-PROXY VPN használata, könyvtári adatbázisok elérhetősége távolról

KUTATÁSTÁMOGATÁS SOROZAT. Felhasználói segédlet Academic Search Complete adatbázisban idézők kereséséhez

Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS)

WWW Kliens-szerver Alapfogalmak Technológiák Terv. Web programozás 1 / 31

A szemantikus Web. Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 0.

Az internet az egész világot behálózó számítógép-hálózat.

MÉRY Android Alkalmazás

Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára

Vihar 2.0 rendszer Felhasználói kézikönyv

Az egyszer keres felületen sz kíthetjük a keresést adott mez re a legördül lista segítségével.

Lekérdezések I. Egyszerű választó lekérdezések

SZE INFORMATIKAI KÉZÉS 1

VALUTAISMERTETŐ FUNKCIÓNÁLIS SPECIFIKÁCIÓ

Zimbra levelező rendszer

A Statisztikai adatszolgáltatás menüpont alatt végezhető el az adatlap kitöltése. 3 Statisztikai adatszolgáltatás menetének részletes bemutatása

ECP. Site Administration System. Felhasználói kézikönyv. v (1. kiadás a és újabb verziójú ECP SAS rendszerekhez)

Az információs műveltség fejlesztése A könyvtárak szemléletváltása és feladatai a 21. században

Geotechnika II. (NGB-SE005-2) Geo5 használat

Belépés a GroupWise levelező rendszerbe az Internet felől

Használd jól a könyvtári katalógust!

ERA KERETRENDSZER Felhasználói kézikönyv v

ELTE, IK, Információs Rendszerek Tanszék

Felhasználói kézikönyv

Változás a középfokú felvételi eljárásban

TOP SEO Trendek 2015-ben. We understand, we deliver.

Az új PHOENIX CONTACT webshop. Mojzes Gábor szeptember

Keresőmarketing ONLINE MARKETING III. ELŐADÁS KOVÁCS ISTVÁN. BME Menedzsment és Vállalatgazdaságtan Tanszék

Internet, Az internet főbb szolgáltatásai web keresőszolgáltatásokkal Keresőrendszerek: Kulcsszavas 2) Egyéb keresők: Metakeresők gyűjtőkörű keresők

Google AdWords és AdSense A Google hirdetési rendszere

Felhasználói kézikönyv

Informatika 9. évf. Webböngésző. Internet és kommunikáció II.

internet-en dr. Nyári Tibor

LOGON HASZNÁLATI ÚTMUTATÓ

Használati útmutató Az online példatárhoz

Felhasználói segédlet a PubMed adatbázis használatához. Publikációk keresése, letöltése valamint importja

A magyarok vándorlása és a honfoglalás. Készítette: OD SZ 00

Állami és önkormányzati adatbázisok

*Ezen felületet kell kitölteni saját fiók létrehozásáho z

Átírás:

Informatika 1. előadás Keresőmotorok használata Füleki Dániel Egyetemi adjunktus Budapesti Corvinus Egyetem Informatikai Intézet (Számítástudományi Tanszék, E-Business Kutatóközpont) Szociológiai és Társadalompolitikai Intézet 2007.02.22. 1 ismét adminisztráció Témakör (jelleg) Keresőmotorok, dokumentumok és kutatási kampány (előadás) Excel (géptermi gyakorlat) Keresőhasználat (Google, géptermi gyak.) Előfizetett adatbázisok használata, keresők találatainak alkalmazása (géptermi gyak.) Online kérdőíves kutatás (géptermi gyak.) Intervallum 1-3. óra 4-6. óra 7-9. óra 10-11. óra 12-13. (14.?) óra 2007.02.22. 2 Elvárások» A tárgy gyakorlati jeggyel zárul» Minden géptermi órai munkát pontozunk» A félév során minden gyakorlati anyagrészből lesz zárthelyi (összesen 3, az utolsó két blokk összevont zárthelyi tárgyát képezi)» Pontozási terv (nem végleges!):» 11 géptermi óra * 5 pont = max. 55 pont» 3 zárthelyi * 15 pont = max. 45 pont» Extra teljesítményekért max. + 10 pont 2007.02.22. 3 1

Mi az, hogy keresőmotor? Információ-visszakereső rendszer:» Jellemzően az internet, egy portál, egy intranet vagy egy számítógép tartalmát rendszerezi és teszi kereshetővé» Dokumentumokat indexel» Kulcsszavakat (esetleg műveleti jeleket) vár a felhasználótól ( kereső-kifejezés)» Találati listát készít azokból a dokumentumokból, amelyek a kereső-kifejezés elemeit az elvárt módon tartalmazzák 2007.02.22. 4 Hogyan működik egy webkereső? Három munkafázist végez el: 1. Bejárás (és aratás) 2. Indexelés (feldolgozás) 3. Keresés (kiszolgálás)» A bejárás során végiglátogatja az összes elérhető weboldalt és a saját tárhelyére lementi azokat (vagy egy részüket)» Az indexelés során kiemeli a különféle kulcsszavakat és fontosabb formai elemeket (pl. kifelé mutató linkeket)» A felhasználó lekérdezésére találati halmazt állít össze» Releváns találat előre kerül» Relevancia ~ kulcsszó-gyakoriság, közelség, beérkező linkek száma stb. ( Google PageRank) 2007.02.22. 5 Egy szinttel feljebb: metakeresők» Gyűjtő- és többszörösen indexelő szolgáltatások (metakeresők)» Párhuzamos keresés» Eredmény-összefésülés, többszörözések kezelése» Logikai operátorok értelmezése» Információveszteség nélküli működés» Forrásrendszer-elfedés: a felhasználónak nem kell semmit tudnia az egyes indexelő szolgáltatások egyedi tulajdonságairól» Teljesség: a keresésnek addig kell tartania, amíg a megjelölt szolgáltatásokból találatok nyerhetők Példa: nigma.ru, kartoo.com ( címkefelhő ) 2007.02.22. 6 2

Keresőmotor-történet» Archie (1990)» Gopher (1991)» Veronica, Jughead» Wandex, AliWeb, Webcrawler (1993)» Lycos (1994)» InfoSeek, AltaVista (1995)» Google (1998)» Yahoo! Search (2004)» Windows Live Search (2006) 2007.02.22. 7 Kihívások a mai keresőmotorok előtt» A weblapok száma túl gyors ütemben nő egyre kisebb hányaduk indexelhető» A weblapok jelentős része frissül ezeket újra és újra be kell járni» Sok a hamis találat (a keresett kulcsszavak rendkívül messze vannak egymástól)» Adatbázis-kapcsolatos oldalak indexálása túlterhelést okozhat (tömeges oldal-kimerevítés )» Jelszóval védett, vagy űrlapkitöltést követő lapok nehezen indexelhetők» Sokszor a legjobb szándék mellett is irrelevánsak a találatok» Néhány keresőmotor találati sorrendje attól függ, melyik keresett lap tulajdonosa fizet többet az előresorolásért» Linkspam, tartalmi spam: klónozott vagy automatikusan szindikált weboldalak tartalmai relevánsabbak, mint ami valóban az» A biztonságos oldalak tartalmát (https protokollal járhatók be) általában nem lehetséges, vagy nem szabad aratni 2007.02.22. 8 Hol keresnek a leggyakrabban? 2006 december: a legforgalmasabb keresőmotorok Szolgáltató Keresések száma (ezer) Éves forgalomváltozás (%) Részarány (%) Google 3,035,617 22.6 50.8 Yahoo 1,412,904 30.1 23.6 Windows Live Search 499,946-9.7 8.4 AOL Search 362,140 7.8 6.1 My Way 141,527 4.7 2.4 Ask.com 128,452 17.2 2.1 EarthLink Search 31,930 17.6 0.5 Dogpile 30,487 2.1 0.5 Comcast Search 26,931 N/A 0.5 NexTag Search 26,835 123.2 0.4 2007.02.22. Forrás: Nielsen//NetRatings, 2007 9 3

Miért éppen Google?» Milton Sirotta (Edward Kasner matematikus 9 éves unokaöccse) ejtette ki a száján a googol szót először» A googol jelentése: 10 100, nyílt formában leírva borzasztóan hosszú szám» A jelentés áttétele: a Google szinte mérhetetlenül sok weboldalt jár be és tesz kereshetővé 2007.02.22. 10 A Google lehetőségei (1)» Kulcsszavas keresés, ezen belül:» Prefixek,» Operátorok,» Helyettesítő karakterek,» Szűrők használata» Képkeresés (környező szavak alapján)» Összetett keresés menütámogatással» Katalógus (directory) 2007.02.22. 11 A Google lehetőségei (2)» Specializált keresés» Scholar» Technikai (Microsoft, UNIX, Mac stb.)» Egyetemi kereső (USA)» Áru- és árkereső (Froogle, USA)» Hírcsoport-kereső (egyúttal levelezőlista-szerver Groups)» Számológép, valutaváltó, mértékegység-átváltó» Portletek (nem kereső, hanem főleg hírszűrő funkciót látnak el) 2007.02.22. 12 4

2007.02.22. 13 2007.02.22. 14 A Google korlátai» Csak a világnyelveket támogatja sokrétűen» Szótövezés (implicit!)» Helyesírási tanácsadás» A legtöbb kísérleti funkció csak angolul érhető el» Nincs explicit szótövezés (kereső-kifejezésben nem rendelhető meg )» Az általános helyettesítő karakter [*] csak teljes szavak helyett állhat» A kereső-kifejezés első 32 szavát értelmezi a keresőmotor (a Google Groups esetén ez a szám csak 10!)» Célszerű a legritkább szavakat meghagyni» Helyettesítő karakterek nem számítanak bele» A találatok száma hozzávetőleges adat, valójában 2-3000-szer kevesebb tényleges találat is adódhat, mint amennyit a számláló mutat! 2007.02.22. 15 5

Egyszerű keresés (1)» Konkrét keresőszavak előfordulásaira keres a motor, NEM témákra (szinonimák szerint)» Nincs különbségtétel kis- és nagybetű között» Minden keresőszó között alapértelmezett ÉS logikai kapcsolat van (mindnek elő kell fordulnia a találatban)» A VAGY-kapcsolatot külön jelezni kell (OR közbeiktatásával) 2007.02.22. 16 Egyszerű keresés (2)» Kötőszavakat figyelmen kívül hagyja (ha az egyik világnyelven vannak a keresőkifejezésben)» A keresőszavak sorrendje a felhasználói relevanciát tükrözi, azaz az első kapja a legnagyobb súlyt» Világnyelven megadott főnevek esetén a többes számú alak nem ad azonos eredményt az egyes számúval» A legrelevánsabb találat megjelenítésére külön parancsgomb (I m feeling lucky/jó napom van) 2007.02.22. 17 Alapvető vezérlőkarakterek» [+szó]: azok a találatok sorolódnak előre, amelyekben a szó gyakrabban fordul elő. Egyszerre több kereső-kifejezés elé is írható.» [ szó 1 szó 2 szó n ]: az idézőjelek közé foglalt kereső-kifejezés pontos mása kell, hogy előforduljon a találatokban» [-szó]: a találati listából kimarad minden olyan dokumentum, amelyben a szó legalább egyszer előfordult 2007.02.22. 18 6

Néhány definíció a továbblépéshez» URL: Uniform Resource Locator, azaz dokumentumok (általában: erőforrások) teljes címe a világhálón.» Első része az eléréshez használt protokollt adja meg: pl. http://, https://, ftp://» Második része a konkrét domainnevet és az elérési útvonalat (esetleg fájlnevet) adja meg (ahol a dokumentum van)» Domainnév: egy internetre kapcsolt gép IP-címének szöveges fordítása (pl. 146.110.2.4 = bors.uni-corvinus.hu)» IP-cím (internet-cím): egy internetre kapcsolódott gép egyedi elérési száma» Protokoll: kommunikációs szabályok pontos leírása (pl. HTTP megadja, hogy egy böngésző és egy webszerver hogyan kommunikáljanak egymással)» Böngésző (browser): internetes tartalmak lefordítására és megjelenítésére hivatott szoftver 2007.02.22. 19 Beépített speciális keresés Ezt a felületet a keresődoboztól jobbra lévő linkre kattintva hívhatjuk elő.» Tartalmazzák a következő szavak mindegyikét: sima keresés, nincs operátor» Tartalmazzák a következő kifejezést: idézőjellel veszi körül» Tartalmazzák a következő szavak egyikét: OR operátort illeszt a szavak közé» Nem tartalmazzák ezeket a szavakat: mínuszjelet tesz a szavak elé 2007.02.22. 20 Beépített speciális keresés (2)» Nyelv: csak itt lehet a dokumentum nyelvét előre rögzíteni! (Nincs rá beírható szűrő)» Fájlformátum: a találat csak bizonyos fájltípusú lehet (pl. pdf, xls ) szabadszavas keresésben rugalmasabban használható! (= filetype: operátor)» Dátum: a megtalált weblap frissességét lehet elvárni (szűkíteni)» Előfordulások: a keresett oldal bizonyos formai elemein belül zajlik csak a keresés» Az oldal címében: = allintitle: operátor» Az oldal szövegében: = allintext: operátor» Az oldal URL-címében: = allinurl: operátor» Az oldal címében: = allinanchor: operátor» Domain: = site: operátor 2007.02.22. 21 7

Beépített speciális keresés (3)» Hasonlóság alapján: egy domainnév tartalmához hasonlókat listáz. Elérési út megadásával szűkíthető a találatok halmaza (= related: operátor)» Linkek alapján: milyen oldalak hivatkoznak a keresett domainnévre? (= link: operátor) 2007.02.22. 22 Speciális szűrők Manuálisan összeállított kereső-kifejezések részei lehetnek.» Intitle: a keresett lap címében szerepel a szűrő után álló keresőszó» Allintitle: minden szó, ami a szűrő után áll, csak a címben fordulhat elő» Inurl: a keresett lap URL-jében szerepel a szűrő után álló keresőszó» Allinurl: minden szó, ami a szűrő után áll, csak az URL-ben fordulhat elő» Intext: a keresett lap szövegtörzsében szerepel a szűrő után álló keresőszó» Allintext: minden szó, ami a szűrő után áll, csak a szövegtörzsben fordulhat elő» Inanchor: a keresett lap linkre rakott szövegeiben szerepel a szűrő után álló keresőszó» Allinanchor: minden szó, ami a szűrő után áll, csak a linkre rakott szövegekben fordulhat elő 2007.02.22. 23 Speciális szűrők (2)» Site: az eredményeket csak bizonyos domain(ek)ről listázza a kereső» Daterange: a Google által bizonyos időintervallumon belül indexelt oldalakon keres (julián-naptári napokkal kell megadni a korlátokat Átszámító itt)» Filetype: ld. beépített speciális keresés» Link: ld. beépített speciális keresés» Related: ld. beépített speciális keresés 2007.02.22. 24 8

Speciális szűrők (3)» Info: pársoros leírást ad egy adott doménnév alatt található tartalmakról (ha annak tulajdonosa gondoskodott erről). Többféle operátort automatikusan felajánl további (szűkítő) keresésre.» Cache: főként leszedett, eltűnt vagy időközben dinamikusan átcímzett oldalak megtalálására jó: a keresett lap pontos címét kell beírni az operátor után, amely a lapnak a Google weblap-tárolójában szereplő másolatát adja eredményül» Define: fogalommeghatározást kérhetünk (a Google munkatársai által gyűjtött glosszáriumokból). Többnyelvű funkció! 2007.02.22. 25 Google Scholar (1) Tudományos szövegek vagy citációk (idézetek, kivonatok) keresésére szolgáló specializált keresőmotor. Pluszfunkciók:» Idézettséget számol» Kapcsolódó cikkeket keres» Előfizetett elektronikus adatbázisokban is keres» Képes tudományágankénti leválogatásra» Megmutatja egy írás valóságos könyvári elérhetőségét» A lezárt változat előkészületi folyamatában készült írásokat is megtalálja (konferencia-beszámoló, műhelytanulmány, kivonat stb.)» Sima keresést is indít» Megjelenési időpont szerint rendezi a találatokat» Hasonló munkákat jegyző szerzőket listázza» Képes referenciamenedzserekbe rekordokat exportálni 2007.02.22. 26 Google Scholar (2) A Scholar saját szűrői és vezérlőkarakterei:» Írás címére idézőjellel kell keresni» Használható az intitle: operátor is» Szerzőre az author: operátorral lehet keresni Minden egyéb az Advanced keresésből állítható be. 2007.02.22. 27 9

Google API-k» API = Application Programming Interface (Alkalmazásfejlesztési felszín, esetleg ráépülő felület )» Lehetővé teszi, hogy külső szoftverfejlesztők saját alkalmazásokat alkossanak, amelyek a Google egyes szolgáltatásait használják a háttérben» A felhasználó személyes adatait (pl. felhasználónév, jelszó, API-kulcs) is megadhatja rajtuk keresztül, ezeket az adatokat az API-t alkalmazó megoldás tulajdonosa nem látja 2007.02.22. 28 Amikor a Google nem jó választás» Nincs csonkolás (explicit szótövezés)» Szinte az összes többi keresőmotor képes erre» Nem menthetők a korábbi keresések (erre jó pl. az Amazon.com keresője» Bizonyos adattípusokat nem képes hatékonyan előkeresni» E-mail címek» Rövidítések» A Google nem a weboldalak időgépe, erre szakosodott szolgáltatás a WayBackMachine 2007.02.22. 29 Klaszterező keresőmotorok» Clusty.com» Témaköröket, kapcsolódó szerzőket és egyéb releváns, szintezett csoportokat képez a találatokból» Több keresőmotort használ fel (metakereső)» Csoportosítja a forrásokat TLD szerint» Kartoo.com» Grafikus témacsoportokat alakít ki ( szigetek )» A szigetek között az összeköttetést kulcsszavak adják» Menti a kereséseket (kiemelve a sikereseket!)» A Google-t NEM használja (más keresőket igen)» Nigma.ru 2007.02.22. 30 10

A kérdezés művészete» A világról mindig kevesebb tudásunk van, mint amennyi még hiányzik» Csak a részben ismeretlen dolgokra tudunk rákérdezni» Ha már tudunk kérdezni, azt jelenti, hogy az adott témában már benne vagyunk valamennyire» A célzott internetes keresés abból indul ki, amit kérdezni tudunk és akarunk» Ha nem tudunk semmit egy témáról, nem leszünk képesek kérdést feltenni vele kapcsolatban» Ha egy témában tudunk valamit, de mégsem kérdezünk rá, akkor a téma nem érdekelt bennünket 2007.02.22. 31 Zárszó Ez a tantárgy mindazoknak érdekes és hasznos lesz, akiket a világon föllelhető összes téma közül legalább egy érdekel Köszönöm a figyelmet! 2007.02.22. 32 11