Web-bányászati technikák alkalmazása webhelyek minőségvizsgálatára Bevezető Izsó Lajos A BME EPT konferenciája 2007. június 15. 1
Web-bányászat az SPSS Clementine programcsomag WebMining CAT modulja segítségével 2
Előzm zmények Megállapodás az SPSS Hungary és a e között arról, hogy az SPSS Hungary a Tanszék Web-bányász Kutatócsoportja számára kizárólag nonprofit kutatások céljára! - biztosítja a Clementine 10.1 adatbányász programcsomag és az azt kiegészítő WebMining CAT 1.5 modul használatát a 2006.05.15. 2007.12.31. időszakra összesen legfeljebb 15 gépre. 3
Emlékeztet keztető Az adatbányászat meghatározása: nagy adatbázisokban rejlő, korábban nem ismert mintázatok, információk felismerése és kinyerése, legtöbbször tanuló algoritmusok segítségével. A web-bányászat az adatbányászatnak az üzleti szférában kidolgozott alkalmazása az interneten vagy adott intraneteken található adatok elemzésére. További tájékoztató anyagok találhatók a Kutatócsoport webhelyén: http:///webmining/ 4
A web-bány nyászat területei Web Web Mining Web Web Structure Structure Mining Mining Web Web Usage Usage Mining Mining Web Web Content Content Mining Mining The taxonomy of web mining A felhasználó és az adott webhely interakciójának a jellegzetes mintázatait, szekvenciáit, kapcsolatait és összefüggéseit azonosítja. A továbbiakban ebben az értelemben használjuk a web-bányászat fogalmát. 5
A web-bány nyászat filozófi fiája a Clementine-ban A webhelyek (site-ok) forgalmának hagyományos, lap-középpontú kvantitatív mérése abban állt, hogy valamilyen Web stats programcsomag segítségével olyan standard jelentéseket készíttettek, illetve metrikákat számoltak, mint pl. 50 Most popular Pages (az első 50 legtöbbet látogatott lap), Visits Over Time (az egyes lapok kérésének óránkénti, napi vagy heti száma). Bár ezek az egyszerű leszámlálással kapható jellemzők is fontosak lehetnek, a tapasztalat szerint általában nagyon nehéz a hasznosításuk. 6
A web-bány nyászat filozófi fiája a Clementine-ban A korábbi lap-középpontú megközelítés helyett a Clementine radikálisan új, felhasználó-középpontú elemzési filozófiát dolgozott ki. A kettő közötti különbség, bár igen finom, mégis nagyon jelentős. 7
A web-bány nyászat filozófi fiája a Clementine-ban A két megközelítés közötti különbség lényege a következő. Ha egy felhasználó a másnapi időjárásról kíván tájékozódna, akkor nem így gondolkodik: Felmegyek a kezdőlapra, onnan pedig az időjárás-lapra, hanem így: Felmegyek a CNN-re és megnézem a várható időjárást. 8
A web-bány nyászat filozófi fiája a Clementine-ban Ha valaki a barátjának egy általa éppen olvasott könyvről beszél, nem arról szól, hogy mi van az egyes lapokon, hanem a történet egészéről, összefüggéseiről. A lap fogalma mindkét esetben pusztán technikai, a felhasználótól valójában idegen. Ha meg akarjuk érteni, hogy a felhasználók számára az adott site hogyan jelenik meg, akkor nem egyes lapokban kell gondolkodnunk, hanem tényleges tevékenységüket kell elemezni. 9
A web-bány nyászat filozófi fiája a Clementine-ban Az régóta ismert, hogy a weblog (naplófájl) adatok elvben igen gazdag információ-források a felhasználók tevékenységére vonatkozóan. A problémát sohasem az adatok hiánya okozta, hanem az analízis eszközének a megfelelő megválasztása: az egyszerű (pl. leszámlálással kapható) statisztikai jellemzők csupán a felszínt jelentik, a lényeg mélyen el van temetve a nagy mennyiségű és igen technikai természetű adatban. A lényeget tehát ki kell bányászni web-bányászat 10
A web-bány nyászat filozófi fiája a Clementine-ban A CAT (Clementine Application Templat) megközelítés lényege: az elemző kezébe adnak egy részletesen kidolgozott példa stream-ekből állógyűjteményt, amelyek az elemző konkrét igényeihez könnyen adaptálhatóak. Az elemzésnek a logfájl adatoktól független fontos támpontja az, hogy az elemző jól ismeri a site rendeltetését, szerkezetét és saját felhasználói tapasztalatokkal is rendelkezik. 11
A web-bány nyászat filozófi fiája a Clementine-ban A WebMining CAT jellegzetessége, hogy az annak központi eleméül szolgáló Web Mining node a logfájl adatokból egy igen jól elemezhető adatállományt állít elő, amely a további elemzések alapja. A WebMining stream-ek többsége minimális módosítások (pl. fájl-nevek, elérési útvonalak aktualizálása, logfájl formátumok kiválasztása) után saját adatainkkal futtatható. 12
A WebMining CAT használata A honlapok üzemeltetőjének a szerverén általában ún. logfájlok formájában automatikusan gyűlnek a forgalomra jellemző következő adatok: a kérelmet intéző távoli gép neve vagy IP címe a látogató bejelentkezési neve a távoli gépen és a kiszolgáló szerveren a kiszolgálás befejezésének dátuma (+időeltolódás) a kérelem metódusa (pl. GET, POST, HEAD) az adott lap (resource) URL címe a kliens által használt HTTP protokoll verziója a kliensnek visszaküldött státusz kód (pl. sikeres ) a letöltött bájtok száma az ún. referrer (annak az oldalnak a címe, ahonnan a kérés jött) BME az ún. APPI Ergonómia user agent és Pszichológia (infók Tanszék a látogató operációs rendszeréről és 13 a kliens programról)
A WebMining CAT használata Ezek az adatok különböző formátumokban kódolva k állnak rendelkezésre. A legelterjedtebb logfájl formátumok: CLF (Common Log Format) ECLF (Extended Common Log Format) Combined Log Format Combined Log with User Identifier Combined Log with Session Identifier NetGenesis Extended Log Format A Web Mining node-ban ezeken kívül még választható az Autodetect Log Format (W3C and flexible only) amely felismeri a W3C és a flexible formátumokat. 14
A webhelyek minősége A minőség g számos lehetséges definíci ciója közül l talán n leginkább lényegre l törő: t A minőség g a vevők k (fogyasztók, felhasználók, ügyfelek, stb.) igényei kielégítésének a mértm rtéke. A webhelyek esetén n a minőség g egyre növekvő fontosságú,, az üzleti világban közvetlen gazdasági gi jelentősége lehet. 15
A webhelyek minősége A barátságtalan azaz gyenge minőségű - webhelyekkel folytatott harc feleslegesen terheli a felhasználót. 16
Az oktatási webhelyek minősége Az interakció professzionális vizsgálata lehetővé teszi a tananyag tényleges használati módjainak az azonosítását, amiből megalapozottan következtetni lehet a tananyag hatékonys konyságára, illetve a hatékonys konyság konkrét akadályaira lyaira. A web-bány nyászati technikák ezért a tananyag fejlesztésének a folyamatában mintegy az ipari gyárt rtásközi minőségellen gellenőrzés analógi giájára - az egzakt közbenső mérések lehetőségét nyújtj jtják: : a fejlesztés minden mintavételezés után attól függő irányokat vehet, hogy a tanulók a megelőző lépésben hogyan fogadták a tananyag számukra rendelkezésre bocsátott verzióját. 17
Az oktatási webhelyek minősége A menet közben azonosított szakmai, didaktikai, használhat lhatósági, szoftver-ergon ergonómiai (leggyakrabban a navigáci cióval vagy az informáci ciómegjelenítéssel kapcsolatos) stb. problémákra ilyen módon gyors áttervezési, javítási javaslat adható és az így kialakított verzió egy újabb ciklusban tesztelhető. Ez a megközel zelítés annyiban radikálisan más a korábbiakhoz képest, hogy itt a tanulók és a tananyag vonatkozásában nem egyfajta mintavételez telezésről van szó, hanem valamennyi tanuló valamennyi interakcióját elemezhetjük a teljes tananyagban a billentyűle leütések és egér- kattintások szintjének nek megfelelő finomságú felbontásban sban. 18
Az oktatási webhelyek minősége A sikeres web-bány nyászati elemzés feltétele tele, hogy a különböző modellekkel nyert eredményeket az elemző képes legyen a tanulói/felhaszn i/felhasználói szintű élményekkel, illetve tapasztalatokkal összekapcsolni. Ez azt jelenti, hogy csak az lehet valóban sikeres, aki mind a web-bány nyászati elveket és eszközöket ket,, mind az elemzett konkrét tananyagot,, mind pedig a tananyagot használó tanulókat elégg ggé mélyen ismeri. 19
Az oktatási webhelyek minősége Végül,, az a előny nyök felsorolása után szólni kell ennek a megközel zelítésnek két jelenleg fennáll lló akadály lyáról. Az egyik az adatbány nyász, illetve webbányász programcsomagok igen magas ára. A másik pedig az a tény, hogy a technikai elsajátítása komoly szellemi erőfesz feszítéseketseket igényel nyel. Hosszabb távon azonban mindkét akadály vonatkozásában optimisták vagyunk. 20