Internet és világháló I-II. Forczek Erzsébet Orvosi Fizikai és Orvosi Informatikai Intézet
Témakörök I. Internet és világháló Korszakok Böngészők Statikus és dinamikus oldalak - Web rétegek Keresők Orvosi információk
Internet a hálózatok hálózata Internet: (?) (általában 1) és 2) együtt) 1) hálózati infrastruktúra (kábelek, szerverek, műholdas kapcsolatok, ) 2) tartalom (adatbázis, weblap, dokumentum, film, zene, ). Világháló: World Wide Web: hiperlinkekkel összekötött dokumentumok összessége (böngésző) Desktop! Világháló része az internetnek!
Web szolgáltatás: korszakok Web1: az adatok megjelenítése (statikus oldal) (sekély web) Web2: közösségi cselekvés (közös és közzétett tartalmakról: WIKI, IWIW, ) (folkszonómia) Web3: tartalom (mély web és tartalmi összefüggés) szemantikus web irányzat (RDF, OWL, tématérképek) Web4: Felhő : igények helyben, erőforrás a felhőben (a felhasználó mentesítése)
Hozzáférés a hálóhoz: böngészők (leggyakrabban használtak) Microsoft Internet Explorer (Netscape Firefox és az Internet Explorer motorja az alapja) Opera (zárt forráskód) (biztonságos, kis méret, gyors, kényelmes) Mozilla (nyílt forráskód) (összetett: böngésző, levelező, szerkesztő; már nem frissítik) Firefox (nyílt forráskód) (biztonságos, testre szabható, gyors, kényelmes) Netscape Firefox és az Internet Explorer motorja Google Chrome (Google) (folyamatosan fejlesztik) (gyors) Safari : Apple fejleszti a Mac OS X op. rendszeréhez (Windowshoz is) Konqueror : Unix és Unix-szerű (mint pl.: Linux) operációs rendszerekre fejlesztették. Windows rendszereken nem használható.
Böngészők népszerűségi listája Source Net Applications Usage share of browsers for February 2011 Source 1.Internet Explorer 2.Firefox 3.Google Chrome 4.Safari 5.Opera StatCounter Median W3Counter Wikimedia http://en.wikipedia.org/wiki/ (megtekintve: 2011.és 2012 márc..)
Napjaink fejlesztései 2011 Lynx Chrome Opera IE Camino SeaMonkey Firefox Safari Maxthon Lunascape NetSurf Iron Jan 2.8.8.dev 8 6.4.1 Feb 9.0 9.0 Mar 10.0 9.0 4.0 10.0 Apr 11.0 11.10 2.7 May 6.5 11.0 June 12.0 11.50 2.1 5.0 3.1.1 July 2.2 5.1 12.0 Aug 13.0 6.0 13.0 Sep 14.0 2.0.9 2.4.1 7.0 2.8 14.0 Oct 15.0 11.52 5.1.1 3.2 6.5.7 Nov 2.1 2.5 8.0 5.1.2 3.2.1 6.5.8 15.0 Dec 16.0 11.60 2.6 9.0 2012 Jan 11.61 2.7.1 10.0 3.3.3.1 000 http://en.wikipedia.org/wiki/timeline_of_web_browsers
Webtartalom elérésének lehetőségei korlátozott mélységi feltárás adatformátumok: részleges feltárás (.pdf,.ppt,.jpg,.tif, stb.) gyakran változó weboldalak, valós idejű adatok (pl. hírek) navigációs rendszeren kívül vannak (nincsenek belinkelve) private web: intranet jelszóval védett oldalak regisztráció útján IP-cím szükséges a belépéshez (könyvtári szolgáltatások, EISZ, ) kizárva a kereshető lapok kategóriájából (Robots Exclusion Standard) (robot.txt) (szabadalmazott) (Keresőket elutasító meta-tag: noindex (ne indexálja), nofollow (linkeket ne kövese), noimageindex (képekket ne indexálja) )
A gépi feltárás problémái: Web rétegek Web (szolgáltatás): hipertext pókháló felszíni web (surface web) (nyitott) (statikus) (szemantika?) mély web (deep, invisible, hidden web)(adatbázisok) (zárt) (dinamikus tartalmak) ténylegesen láthatatlan web (Truly Invisible Web) (zárt) egyéb nem átlátható (zárt), Mély web 300-500-ször nagyobb a felszíninél (becslés!)
Keresők jósága A keresők közötti rangsor: releváns találatok száma Kereső-adatbázisok mérete Az adatbázisok használhatósága Keresők adatainak frissessége Keresőrobotok aktivitása Keresőprogramok felhasználóinak száma Metaadatkezelés
Népszerű keresők 2010-2011 Most Used Search Engines Google Yahoo Bing Baidu Ask Other August, 2010 September, 2010 October, 2010 November, 2010 December, 2010 January, 2011 February, 2011 84.73% 6.35% 3.30% 3.31% 0.71% 1.60% 83.34% 6.32% 3.25% 4.96% 0.73% 1.40% 85.15% 6.33% 3.22% 3.34% 0.65% 1.31% 84.72% 6.42% 3.14% 3.67% 0.56% 1.50% 84.65% 6.69% 3.29% 3.39% 0.56% 1.44% 85.37% 6.14% 3.68% 2.92% 0.58% 1.32% 84.77% 5.69% 3.89% 3.80% 0.54% 1.31% http://techzoom.org/most-used-search-engines-and-total-market-share-trend-as-of-march-2011/ (2011. március 5)
Népszerű keresők 2011-2012 http://seattletimes.nwsource.com/html/microsoftpri0 /2017469346_january_search_engine_share_bing_up_yahoo_down_aga.html
Google Keresőszó: PageRank PageRank (dokumentumokhoz számok a jóság mérésére) Meta tag Alak és képfelismerés Befolyásolja még (metaadatok és matematikai logikai alkalmazások) szemantika kódrendszerek, katalógusok, tezauruszok,.. ontológiák
Google: képkeresés (desktop!) Keresőszó: PageRank
Kulcsszó: stroke tünetei (Google)
Kulcsszó: stroke tünetei (Yahoo)
Kulcsszó: stroke tünetei (Bing)
Kulcsszó: stroke tünetei (Polymeta)
Orvosi információk keresése Felszíni web: szakmai portálok, wikipedia, webbeteg, weborvos, ESKI, kormányzati szervek Egészségügyi irodalmi adatbázisok: Medline (MeSH) MDConsult Web of Science Magyar Orvosi Bibliográfia Külön-gyűjtemények (WHO, EU, függőségek, ) Szakfolyóiratok linkgyűjteményei http://www.eisz.hu/!!!
Témakörök II. A tartalomelérés problémái, metaadatok szerepe Metaadatok lokális és globális megközelítése a tárolásban Metaadatok a tartalom leírására: kódrendszerek, tezauruszok, ontológiák
A webes keresés háttere: metaadatok Metaadatok Könyvtáraknál Informatikában Metaadatok szerepe a webes keresésekben Keresőszó szerinti keresések (Tematikus keresés) Szemantika hozzáadása a kereséshez
Metaadatok Metaadatok: adat az adatról. (Adatokat ír le, jellemez, értelmez és összeköt) - helye: fájlon kívül; fájlnévvel együtt; fájlon belül (tulajdonságok;.jpeg) - elérhetősége (felsőbb rétegekbe) - értelmezhetősége: - speciális (GeoTiff), egy konkrét felhasználásra Például: - szabványos (kódrendszerek, tématérképek, tezauruszok, ontológiák, ) - Adatbázist leíró adathalmazok (pl. táblaszerkezet, relációs információk, stb.). -Programozási nyelvek. - DICOM - Annotációk
Adatbázis rendszerek data + metadata Database Management System Model: data +database writing data +scheme +execution rules and operations Storage structure Syntactic and semantics fitting data +data links +operations The structure of information content
Adattárház (metadata) data warehouse (data + metadata) data (data + metadata) databases (data+metadata)
Filekezelő rendszerek file (data)+ metadata (system) regular attributes file system (e.g. FAT) file system manager (directory service and registry)... regular attributes + extended attributes extended attributes extended attributes programs data databases other type files
Web adattárház (idealizmus!) data + metadata system web search (metadata) web warehouse (data + metadata) data database (data + metadata)
URI (Uniform Resource Identifier) URI: data + metadata data URL - Uniform Resource Locator URN - Uniform Resource Name databases Azonosítás weben
Információszervezés (tartalom) Kódrendszer: kód + szabályhalmaz ( + struktúra ) - érvényesség - hozzárendelési szabály - jogosultság Kód: valamely objektumhalmaz elemeit egyértelműen azonosítja - valóságos objektum ( tárgyak, személyek...) - fogalmi kategória ( politikai pártok, társadalmi kategóriák ) - adathalmazok ( DRG ) - néma kód ( TAJ-szám...), mnemonikus kód ( USD = USA Dollar ) - informatív kódok ( személyi számok )
Információszervezés gyakori formái Struktúra típusok: - egyedi (folkszonómia) (Szemantikai rés (semantic gap)) - lineáris ( szekvenciális ) - hierarchikus Kódrendszerek, Tezauruszok, Ontológiák: jelentőségük az egészségügyben! Code system Thesaurus Ontology
(tezaurusz)
Ontológia Tartalomleírás Ontológia: közmegegyezésen alapuló fogalomrendszer Felhasználási területei: egészségügyi, geológia, - hierarchikus fogalmi rendszerek - leíró logikai formalizmusok - OWL ( Web Ontology Language )??? Protégé - Ontology Newspaper
Témakörök III. A webes keresés általános lépései Metaadatok a webes keresők számára Példa metaadatok közlésére a közzétételben Honlapelemzés
A webes keresés menete Crawlers (spiders or bots) robot.txt Page repository Indexing link index, text index, inverted index list (invertált index tábla) Válasz! Rangsor! PageRank value
Kereső(motoro)k Web site indexing by engines Inverted index list Index Document files Crawlers Surface web Deep web
Keresés felszíni weben Intelligent information Web site indexing by engines Web search result Inverted index list Query Index Document files Surface web Crawlers Deep web
Keresés a mély weben Intelligent information Web site indexing by engines Web search result Query Index Surface web Document files Deep web Crawlers
Keresés metaadatok segítségével felszíni weben Inverted index list Web site indexing by engines Web search result Query Index Document files Metadat a Metadat a Metadat a Surface web Crawlers Deep web
Keresés metaadatok segítségével a mély weben Web site indexing by engines Web search result Query Index Metadata Metadata Metadata Surface web Document files Deep web Crawlers
Metasearch engine (metakeresők) Web site indexing by engines Relevant results Relevant results sets Inverted index list search engines 1. search engines 2. search engines 3. Surface web Deep web
Metaadatok tartalmának reprezentálása: Tartalomleírás Windows: Tulajdonságok (Fájlon kívül).jpeg: Exif (Fájlban tárolt) Szabadszöveges információ
Metaadatok reprezentálásának módja: Információminőség DUBLIN CORE A metaadatok mezői: 1. Cím / TITLE 2. Létrehozó / CREATOR 3. Közreműködő / CONTRIBUTOR 4. Kiadó / PUBLISHER 5. Azonosító / IDENTIFIER 6. Forrás / SOURCE 7. Kapcsolat / RELATION 8. Dátum / DATE 9. Formátum / FORMAT 10. Típus / TYPE 11. Téma / SUBJECT! 12. Tartalmi leírás / DESCRIPTION 13. Tér-idő vonatkozás / COVERAGE 14. Nyelv / LANGUAGE 15. Jogok / RIGHTS http://www.mek.oszk.hu/dc/
Dublin Core (minimum metadata element set)
Dublin Core (minimum metadata element set)
Metaadatok: kódok <HEAD></HEAD> <link rel="schema.dc" href="http://purl.org/dc/elements.1.1/" /> <link rel="schema.dcterms" href="http://purl.org/dc/terms/" /> <meta name="dc.title" content="az internet működése" /> <meta name="dc.creator.personalname" content="forczek Erzsébet" /> <meta name="dc.publisher.corporatename" content="inderscience Publishers" /> <meta name="dc.source" content=" 10.1504/IJKWI.2011.038625 " /> <meta name="dc.date" content="2011.01.01" /> <meta name="dc.type" content="cikk" /> <meta name="dc.description" content="metadata education " /> <meta name="dc.date.x-metadatalastmodified" scheme="w3cdtf" content="2012-03-08"/>
Honlapelemzés Google ingyenes webhely tesztelő! Alkalmazások ( AWStats, Webalizer) és szolgáltatók (Google Analytics, freeaudit, MyStat, StatSector) - honlapon belül oldalletöltések száma - látogatók száma (IP cím) - logfájlok: dátum, IP cím, oldal cím, oldalak száma, idő és milyen weblap, milyen kereső, és kereső szó)
Megtalálja-e a honlapot az érdeklődő? (kereső: tematikus, kulcsszó; PageRank ) Megtalálja-e a honlapon az érdeklődő azt, amit keres? (visszafordulások aránya (bounce rate), idő, lap: ahol rendszeresen abbahagyják) (jól tagolt?) Szerepel-e egyáltalán a honlapon az, amit az érdeklődő keres? (használhatóság:usability) (szakmailag helyes és megfelelő?) Fizikailag, szellemileg, szakmailag képes-e a tartalmat felfogni, feldolgozni? (Akadálymentesítés) http://www.haloszem.hu/honlap_elemzes Honlapelemzés
Honlapelemzés (részletes) Keresőoptimalizálási javaslatok a honlap keresőbarátabbá tételére: Saját és más jó lapok (Alexa, Statbrain) (pontosság?) vizsgálata Kulcsszó kutatás: a weblapra jellemző kulcsszavak és előfordulási gyakoriságai (kulcsszó sűrűség); a kulcsszavak keresettsége a Google-ban; a honlap Google helyezései a kulcsszavakra A honlapra mutató külső hivatkozások (linkek) - hivatkozó weboldalak, weblapok Google PageRank (GPR) értéke; a hivatkozások szövegei A honlap kora, oldalainak száma, struktúrája stb. stb.
Kulcsszó: stroke
Kulcsszó: stroke
Ellenőrző kérdések I. Mit nevezünk Internetnek és világhálónak? Melyek a leggyakrabban használt böngészők? Mi jellemző a keresők számára rejtett vagy részlegesen elérhető tartalmak típusaira? Mi a felszíni web előnye és hátránya a mély webbel szemben? Melyek a leggyakrabban használt keresők?
Ellenőrző kérdések II. Mit nevezünk metaadatnak? Miért van különösen nagy jelentősége az adatok tárolási módjának a világhálón? Mi a szerepe a kódolásnak, kódrendszereknek, tezauruszoknak és ontológiáknak az információszervezésben?
Ellenőrző kérdések III. Miért szükséges a metaadatok jelenléte a tartalmi keresések során? Miben különböznek a metakeresők az általános keresőktől? Milyen típusú leíró adatokat szabványosít a DUBLIN CORE? A honlap mely tulajdonságait próbáljuk optimalizálni, ha ismertté akarjuk tenni?