Web-bányászati technikák alkalmazása webhelyek minőségvizsgálatára



Hasonló dokumentumok
ADATBÁNYÁSZATI MÓDSZEREK AZ ELEKTRONIKUS TANULÁSBAN. 9. elearning Fórum

WEB-BÁNYÁSZATI MÓDSZEREK ALKALMAZÁSA INTERNET-ALAPÚ TANANYAGOK MINŐSÉGVIZSGÁLATÁRA

Projektvezetői döntések támogatása webbányászattal

GOOGLE ANALITYCS VS. SPSS CLEMENTINE

AZ ESZTERHÁZY KÁROLY FŐISKOLA HONLAPJÁNAK ELEMZÉSE WEBBÁNYÁSZATI MÓDSZEREK FELHASZNÁLÁSÁVAL

A COEDU E-LEARNING KERETRENDSZER HASZNÁLATÁNAK ELEMZÉSE

Az egri Eszterházy Károly Főiskola teljes honlapjának vizsgálata. Bóta László Ph.D. hallgató (BME) május 18.

PROJEKTVEZETŐI DÖNTÉSEK TÁMOGATÁSA WEBBÁNYÁSZATTAL

Elektronikus oktatástámogató rendszer bevezetésének tapasztalatai. Jókai Erika Vig Zoltán

A BDF website elemzése SPSS CLEMENTINE WEB MINING segítségével. Zsiros Péter

TÁVOKTATÁSOS HALLGATÓK LMS HASZNÁLATÁNAK ELEMZÉSE. Nyéki Lajos Széchenyi István Egyetem. Összefoglaló

Tipikus időbeli internetezői profilok nagyméretű webes naplóállományok alapján

Microsoft SQL Server telepítése

BDF WEBSITE ELEMZÉSE AZ SPSS CLEMENTINE WEB MINING SEGÍTSÉGÉVEL MINŐSÉGBIZTOSÍTÁS CÉLJÁBÓL

Szolgáltatás mérés/riportolás magas fokon Egy valós megoldás Pepsi berkekben

Az elektronikus tanulás

Dr. Pál László, Sapientia EMTE, Csíkszereda WEB PROGRAMOZÁS 5.ELŐADÁS. Sütik és munkamenetek kezelése

A BMF TANÁRKÉPZŐ ÉS MÉRNÖKPEDAGÓGIAI KÖZPONT MOODLE VIRTUÁLIS TANULÁSI KÖRNYEZETE HASZNÁLATÁNAK ELEMZÉSE

WIN-TAX programrendszer hálózatban

Kvalitatív elemzésen alapuló reakciómechanizmus meghatározás

Süti (cookie)-szabályzat

Adatkezelési nyilatkozat

IP Thermo for Windows

API tervezése mobil környezetbe. gyakorlat

az MTA SZTAKI elearning osztályának adaptív tartalom megoldása Fazekas László Dr. Simonics István Wagner Balázs

ELTE, IK, Információs Rendszerek Tanszék

MOODLE-ALAPÚ TANTÁRGYAT VÉGZŐ HALLGATÓK TANULÁSI SZOKÁSAINAK ELEMZÉSE ADATBÁNYÁSZATI ESZKÖZÖKKEL

A SEO szerepe egy híroldal életében BUBLIK MÁTÉ

VEZETŐI DÖNTÉSEK TÁMOGATÁSA WEBBÁNYÁSZATTAL AZ INTÉZMÉNY HONLAPVÁLTÁSÁNAK TÜKRÉBEN. Bóta László Eszterházy Károly Főiskola.

Az internet az egész világot behálózó számítógép-hálózat.

A Java EE 5 plattform

Honlapok használhatóságának ergonómiai szempontjai

Virtuális tanulási környezet minőségvizsgálata web-bányászati módszerekkel

Adatbányászat és Perszonalizáció architektúra

COOKIE KEZELÉSI TÁJÉKOZTATÓ. A HTTP-cookie (köznyelvben csak cookie, vagy süti) egy olyan fájl, (egy adatsor)

Ficsor Lajos Általános Informatikai Tanszék Miskolci Egyetem

Magyar Nemzeti Bank - Elektronikus Rendszer Hitelesített Adatok Fogadásához ERA. Elektronikus aláírás - felhasználói dokumentáció

Hálózatos beállítás. A Novitax ügyviteli programrendszerek hálózatos beállítása a következők alapján történhet:

Rendszermodernizációs lehetőségek a HANA-val Poszeidon. Groma István PhD SDA DMS Zrt.

Baár-Madas Elektronikus Tanúsítvány

Titkosítás NetWare környezetben

Mobil Telefonon Keresztüli Felügyelet Felhasználói Kézikönyv

MVC Java EE Java EE Kliensek JavaBeanek Java EE komponensek Web-alkalmazások Fejlesztői környezet. Java Web technológiák

Bevezető. Servlet alapgondolatok

SACColni pedig kell Szolgáltatás tudatos kontroll és számlázás Service Aware Control and Charging

Kalumet Számlázó. Termék leírás

A számítástechnika gyakorlata WIN 2000 I. Szerver, ügyfél Protokoll NT domain, Peer to Peer Internet o WWW oftp opop3, SMTP. Webmail (levelező)

Fogalomtár Etikus hackelés tárgyban Azonosító: S2_Fogalomtar_v1 Silent Signal Kft. Web:

ADATVÉDELMI TÁJÉKOZTATÓ

Szilipet programok telepítése Hálózatos (kliens/szerver) telepítés Windows 7 operációs rendszer alatt

Szoftver fő funkciói. Diszpécser rádió GPS nyomkövetés Adatátvitel és tárolás Telefonhívások kezelése 1 / 7

Tűzfal megoldások. ComNETWORX nap, I. 30. ComNETWORX Rt.

Hálózati architektúrák és Protokollok GI Kocsis Gergely

Távolléti díj kezelése a Novitax programban

Versenyképess. Szolnok 2009 Károly

20. Tétel 1.0 Internet felépítése, OSI modell, TCP/IP modell szintjenek bemutatása, protokollok Pozsonyi ; Szemenyei

Használati alapú és modell alapú tesztelés kombinálása szolgáltatásorientált architektúrák teszteléséhez az ipari gyakorlatban

Gyakorlati vizsgatevékenység B

A J2EE fejlesztési si platform (application. model) 1.4 platform. Ficsor Lajos Általános Informatikai Tanszék Miskolci Egyetem

A webanalitika változó világa 4 felvonásban

Új módszerek és eszközök infokommunikációs hálózatok forgalmának vizsgálatához

A hálózattervezés alapvető ismeretei

A webhelyhez kötődő szoftverek architektúrája

PHP. Adatbázisok gyakorlat

A számítógép-hálózat egy olyan speciális rendszer, amely a számítógépek egymás közötti kommunikációját biztosítja.

1/9. Sunell IP kamerák webes felületének használati útmutatója. Élő kép (Live Video)

ContractTray program Leírás

Rendszerkövetelmények

1. Szolgáltatásaink. Adatok feltöltése és elemzése. Digitális feltöltés. Analóg korong feltöltés

Adatkezelési nyilatkozat, szabályzat

WIN-TAX programrendszer frissítése

FRISSÍTÉSI LEÍRÁS A WINIKSZ PROGRAMCSOMAGHOZ

TRBOnet Térinformatikai terminál és diszpécseri konzol

Baár-Madas Elektronikus Tanúsítvány

INTEGRÁLT ELEKTRONIKUS TANULÁSI KÖRNYEZET MINŐSÉGVIZSGÁLATA WEB-BÁNYÁSZATI MÓDSZEREKKEL

Cloud Computing a gyakorlatban. Szabó Gyula (GDF) Benczúr András (ELTE) Molnár Bálint (ELTE)

A 365 Solutions Kft. büszke a teljesítményére, az elért sikereire és a munkatársai képességeire. Kamatoztassa ön is a tapasztalatainkat és a

Üdvözli Önöket A PGY3 tantárgy! Bakay Árpád dr. NETvisor kft (30) arpad.bakay@netvisor.hu

COOKIE (SÜTI) SZABÁLYZAT

DebitTray program Leírás

Diplomaterv Portál. Elektronikus szakdolgozat és diplomaterv nyilvántartó és archiváló rendszer. Útmutató a címtáras bejelentkezéshez v14

Gyakorlati vizsgatevékenység

RapidAnalytics Enterprise Edition bevezetés a Telenor Magyarországnál. Szakács Balázs - Telenor Magyarország Szücs Imre United Consult

Produktív környezetben használt, nyílt forráskódú komplex térinformatikai megoldások dr. Siki Zoltán

OKTATÁSI ADATBÁNYÁSZAT

BEVEZETÉS AZ INTERNET ÉS A WORLD WIDE WEB VILÁGÁBA. Kvaszingerné Prantner Csilla, EKF

PTE-PROXY VPN használata, könyvtári adatbázisok elérhetősége távolról

Elektronikus Információs és Nyilvántartási Rendszer a Doktori Iskolák fiatal kutatói részére

MŰSZAKI KÖVETELMÉNYEK, A KÖRKERESŐ SZOFTVER SPECIFIKÁCIÓJA, KÖLTSÉGVETÉS. A) Műszaki követelmények

Adatbázis kezelő szoftverek biztonsága. Vasi Sándor G-3S

Alapfogalmak, WWW, HTTP

SÜTISZABÁLYZAT. Pontok

A JAVA FUTTATÁSAKOR ELŐFORDULÓ HIBA-

ÉRETTSÉGI TÉTELCÍMEK 2018 Informatika

eszemélyi Kliens Szoftvercsomag Telepítési Útmutató


NYME - SEK Némethné Tóth Ágnes

Webapp (in)security. Gyakori hibákról és azok kivédéséről fejlesztőknek és üzemeltetőknek egyaránt. Veres-Szentkirályi András

Nyílt forráskódú irodai programkomponensek vállalati környezetbe való integrációjának vizsgálata és implementációja

Könyvtári címkéző munkahely

Átírás:

Web-bányászati technikák alkalmazása webhelyek minőségvizsgálatára Bevezető Izsó Lajos A BME EPT konferenciája 2007. június 15. 1

Web-bányászat az SPSS Clementine programcsomag WebMining CAT modulja segítségével 2

Előzm zmények Megállapodás az SPSS Hungary és a e között arról, hogy az SPSS Hungary a Tanszék Web-bányász Kutatócsoportja számára kizárólag nonprofit kutatások céljára! - biztosítja a Clementine 10.1 adatbányász programcsomag és az azt kiegészítő WebMining CAT 1.5 modul használatát a 2006.05.15. 2007.12.31. időszakra összesen legfeljebb 15 gépre. 3

Emlékeztet keztető Az adatbányászat meghatározása: nagy adatbázisokban rejlő, korábban nem ismert mintázatok, információk felismerése és kinyerése, legtöbbször tanuló algoritmusok segítségével. A web-bányászat az adatbányászatnak az üzleti szférában kidolgozott alkalmazása az interneten vagy adott intraneteken található adatok elemzésére. További tájékoztató anyagok találhatók a Kutatócsoport webhelyén: http:///webmining/ 4

A web-bány nyászat területei Web Web Mining Web Web Structure Structure Mining Mining Web Web Usage Usage Mining Mining Web Web Content Content Mining Mining The taxonomy of web mining A felhasználó és az adott webhely interakciójának a jellegzetes mintázatait, szekvenciáit, kapcsolatait és összefüggéseit azonosítja. A továbbiakban ebben az értelemben használjuk a web-bányászat fogalmát. 5

A web-bány nyászat filozófi fiája a Clementine-ban A webhelyek (site-ok) forgalmának hagyományos, lap-középpontú kvantitatív mérése abban állt, hogy valamilyen Web stats programcsomag segítségével olyan standard jelentéseket készíttettek, illetve metrikákat számoltak, mint pl. 50 Most popular Pages (az első 50 legtöbbet látogatott lap), Visits Over Time (az egyes lapok kérésének óránkénti, napi vagy heti száma). Bár ezek az egyszerű leszámlálással kapható jellemzők is fontosak lehetnek, a tapasztalat szerint általában nagyon nehéz a hasznosításuk. 6

A web-bány nyászat filozófi fiája a Clementine-ban A korábbi lap-középpontú megközelítés helyett a Clementine radikálisan új, felhasználó-középpontú elemzési filozófiát dolgozott ki. A kettő közötti különbség, bár igen finom, mégis nagyon jelentős. 7

A web-bány nyászat filozófi fiája a Clementine-ban A két megközelítés közötti különbség lényege a következő. Ha egy felhasználó a másnapi időjárásról kíván tájékozódna, akkor nem így gondolkodik: Felmegyek a kezdőlapra, onnan pedig az időjárás-lapra, hanem így: Felmegyek a CNN-re és megnézem a várható időjárást. 8

A web-bány nyászat filozófi fiája a Clementine-ban Ha valaki a barátjának egy általa éppen olvasott könyvről beszél, nem arról szól, hogy mi van az egyes lapokon, hanem a történet egészéről, összefüggéseiről. A lap fogalma mindkét esetben pusztán technikai, a felhasználótól valójában idegen. Ha meg akarjuk érteni, hogy a felhasználók számára az adott site hogyan jelenik meg, akkor nem egyes lapokban kell gondolkodnunk, hanem tényleges tevékenységüket kell elemezni. 9

A web-bány nyászat filozófi fiája a Clementine-ban Az régóta ismert, hogy a weblog (naplófájl) adatok elvben igen gazdag információ-források a felhasználók tevékenységére vonatkozóan. A problémát sohasem az adatok hiánya okozta, hanem az analízis eszközének a megfelelő megválasztása: az egyszerű (pl. leszámlálással kapható) statisztikai jellemzők csupán a felszínt jelentik, a lényeg mélyen el van temetve a nagy mennyiségű és igen technikai természetű adatban. A lényeget tehát ki kell bányászni web-bányászat 10

A web-bány nyászat filozófi fiája a Clementine-ban A CAT (Clementine Application Templat) megközelítés lényege: az elemző kezébe adnak egy részletesen kidolgozott példa stream-ekből állógyűjteményt, amelyek az elemző konkrét igényeihez könnyen adaptálhatóak. Az elemzésnek a logfájl adatoktól független fontos támpontja az, hogy az elemző jól ismeri a site rendeltetését, szerkezetét és saját felhasználói tapasztalatokkal is rendelkezik. 11

A web-bány nyászat filozófi fiája a Clementine-ban A WebMining CAT jellegzetessége, hogy az annak központi eleméül szolgáló Web Mining node a logfájl adatokból egy igen jól elemezhető adatállományt állít elő, amely a további elemzések alapja. A WebMining stream-ek többsége minimális módosítások (pl. fájl-nevek, elérési útvonalak aktualizálása, logfájl formátumok kiválasztása) után saját adatainkkal futtatható. 12

A WebMining CAT használata A honlapok üzemeltetőjének a szerverén általában ún. logfájlok formájában automatikusan gyűlnek a forgalomra jellemző következő adatok: a kérelmet intéző távoli gép neve vagy IP címe a látogató bejelentkezési neve a távoli gépen és a kiszolgáló szerveren a kiszolgálás befejezésének dátuma (+időeltolódás) a kérelem metódusa (pl. GET, POST, HEAD) az adott lap (resource) URL címe a kliens által használt HTTP protokoll verziója a kliensnek visszaküldött státusz kód (pl. sikeres ) a letöltött bájtok száma az ún. referrer (annak az oldalnak a címe, ahonnan a kérés jött) BME az ún. APPI Ergonómia user agent és Pszichológia (infók Tanszék a látogató operációs rendszeréről és 13 a kliens programról)

A WebMining CAT használata Ezek az adatok különböző formátumokban kódolva k állnak rendelkezésre. A legelterjedtebb logfájl formátumok: CLF (Common Log Format) ECLF (Extended Common Log Format) Combined Log Format Combined Log with User Identifier Combined Log with Session Identifier NetGenesis Extended Log Format A Web Mining node-ban ezeken kívül még választható az Autodetect Log Format (W3C and flexible only) amely felismeri a W3C és a flexible formátumokat. 14

A webhelyek minősége A minőség g számos lehetséges definíci ciója közül l talán n leginkább lényegre l törő: t A minőség g a vevők k (fogyasztók, felhasználók, ügyfelek, stb.) igényei kielégítésének a mértm rtéke. A webhelyek esetén n a minőség g egyre növekvő fontosságú,, az üzleti világban közvetlen gazdasági gi jelentősége lehet. 15

A webhelyek minősége A barátságtalan azaz gyenge minőségű - webhelyekkel folytatott harc feleslegesen terheli a felhasználót. 16

Az oktatási webhelyek minősége Az interakció professzionális vizsgálata lehetővé teszi a tananyag tényleges használati módjainak az azonosítását, amiből megalapozottan következtetni lehet a tananyag hatékonys konyságára, illetve a hatékonys konyság konkrét akadályaira lyaira. A web-bány nyászati technikák ezért a tananyag fejlesztésének a folyamatában mintegy az ipari gyárt rtásközi minőségellen gellenőrzés analógi giájára - az egzakt közbenső mérések lehetőségét nyújtj jtják: : a fejlesztés minden mintavételezés után attól függő irányokat vehet, hogy a tanulók a megelőző lépésben hogyan fogadták a tananyag számukra rendelkezésre bocsátott verzióját. 17

Az oktatási webhelyek minősége A menet közben azonosított szakmai, didaktikai, használhat lhatósági, szoftver-ergon ergonómiai (leggyakrabban a navigáci cióval vagy az informáci ciómegjelenítéssel kapcsolatos) stb. problémákra ilyen módon gyors áttervezési, javítási javaslat adható és az így kialakított verzió egy újabb ciklusban tesztelhető. Ez a megközel zelítés annyiban radikálisan más a korábbiakhoz képest, hogy itt a tanulók és a tananyag vonatkozásában nem egyfajta mintavételez telezésről van szó, hanem valamennyi tanuló valamennyi interakcióját elemezhetjük a teljes tananyagban a billentyűle leütések és egér- kattintások szintjének nek megfelelő finomságú felbontásban sban. 18

Az oktatási webhelyek minősége A sikeres web-bány nyászati elemzés feltétele tele, hogy a különböző modellekkel nyert eredményeket az elemző képes legyen a tanulói/felhaszn i/felhasználói szintű élményekkel, illetve tapasztalatokkal összekapcsolni. Ez azt jelenti, hogy csak az lehet valóban sikeres, aki mind a web-bány nyászati elveket és eszközöket ket,, mind az elemzett konkrét tananyagot,, mind pedig a tananyagot használó tanulókat elégg ggé mélyen ismeri. 19

Az oktatási webhelyek minősége Végül,, az a előny nyök felsorolása után szólni kell ennek a megközel zelítésnek két jelenleg fennáll lló akadály lyáról. Az egyik az adatbány nyász, illetve webbányász programcsomagok igen magas ára. A másik pedig az a tény, hogy a technikai elsajátítása komoly szellemi erőfesz feszítéseketseket igényel nyel. Hosszabb távon azonban mindkét akadály vonatkozásában optimisták vagyunk. 20