Adatta rha zak, adatba nya szati technolo gia k
|
|
- Marcell Barta
- 10 évvel ezelőtt
- Látták:
Átírás
1 Adatta rha zak, adatba nya szati technolo gia k
2 Tartalom 1. Az adatbányászat, tudásfeltárás feladata, a tudásfeltárása folyamata, példákkal magyarázva Az adatbányászat Tudásfeltárás feladata, folyamata Mi nem adatbányászat? Miből áll a web-adatokon végzett tudásfeltárás? Minden kibányászott minta érdekes? Próbáljuk mérni a tudás érdekességét és csak érdekes tudást bányásszunk ki az adatokból Az adattárházak építése, architektúrák, példákkal magyarázva Adattárházak építése Tervezési folyamat Az adattárház tervezési folyamatának tipikus lépései Adattárház építő segédeszközök Adattárház architektúrák Az adatkockák szerepe, műveletei, példákkal magyarázva Adatkockák szerepe Adatkocka Adatkockák műveletei Az asszociációs szabályok előállítása, példákkal magyarázva Feladat leírása Példa: Az apriori eljárás: FP-Tree Az osztályozás feladata, a döntési fák előállítása, példákkal magyarázva Osztályozás feladata Döntési fa előállítása A klaszterezés feladata, két klaszterező algoritmus, példákkal magyarázva Klaszterezés feladata Két klaszterező algoritmus A k-közép klaszterezés Összevonó klaszterezési algoritmus Szövegbányászati módszerek
3 7.1 Látens szemantikai indexelés Kulcsszó alapú asszociációs analízis (keyword based association analysis) Szöveg klasszifikálása Dokumentumok klaszterezése Vektortér modell Entity resolution Record Linkage model (1969) Hogyan kötjük össze a halmazokat Comparison vector összehasonlítás mi alapján történjen Duplicate Record Detection mit kezdjünk a duplikátumokkal String matching / field similarity mely mezők egyeznek meg? Generic Entity Resolution Relational Clustering Ügyfeles példa További példák: Trendek, nyitott kérdések
4 1. Az adatbányászat, tudásfeltárás feladata, a tudásfeltárása folyamata, példákkal magyarázva.. forrás: Az adatbányászat Miért kell adatbányászat? Adatrobbanás zajlik: terabájtokról áttérünk a petabájtokra. Nagy adatgyűjtemények keletkeznek és érhetők el. Nagy mennyiségű nyers adat keletkezik a következő területeken: automatikus adatgyűjtő mérőeszközök, adatbázisrendszerek, Web, közösségi hálók, számítógépes ügyfélszolgálatok Üzleti élet: Web, e-kereskedelem, pénzügyi tranzakciók, tőzsde Tudomány: távérzékelő berendezések, bioinformatika, tudományos szimulációk Közösségi és mindennapos élet: Facebook, hírek, digitális kamerák, YouTube Ellep bennünket a rengeteg adat, bár mi valójában inkább tudásra vágyunk! A szükség szüli az új technológiát: az adatbányászat a nagy mennyiségű adatok automatikus elemzése ig csak elméleti tudomány. Az 1950-es évektől kezdve sok tudományág számítógépes részterületet kifejlesztett től már rengeteg szimuláció és tudományos eszköz generál nagy mennyiségű feldolgozandó adatot. Manapság már több petabájtnyi adatot tudunk olcsón tárolni és kezelni. Az Internet és a Grid rendszerek révén ezeket az adathalmazokat könnyen el lehet érni. A tudományos információkezelési, információgyűjtési, szervezési, lekérdezési, megjelenítési feladatok száma az adatmennyiség arányában növekszik. (Minél több az adat, annál többféle feldolgozásra vagyunk kíváncsiak.) Az adatbányászat napjaink egyik fő kihívása! 1.2 Tudásfeltárás feladata, folyamata Az adatbányászat (tudás kinyerése az adatokból): érdekes (nem triviális, implicit, eddig nem ismert és potenciálisan hasznos) mintákat (azaz tudást) akarunk kinyerni a nagyon nagy adathalmazokból lehetőleg automatikusan, és minél hatékonyabban Mi nem adatbányászat? Egyszerű keresések, lekérdezések végrehajtása (Deduktív) szakértői rendszerek 4
5 A tudásfeltárás folyamata Miből áll a web-adatokon végzett tudásfeltárás? Adattisztítás Több forrásból származó adatok integrációja Az adatokból adattárház építése Adatkockák készítése Az adatbányászathoz szükséges adatok kiválasztása Adatbányászat elvégzése Az eredményekből jelentések készítése, megjelenítése A talált minták, összefüggések (tudás) tárolása a tudásbázisban Minden kibányászott minta érdekes? Kimerítő kereséssel túl sok mintát kaphatunk Van, ami csak bizonyos helyre, időre, dimenzióra jellemző, vagyis nem elég általános Van, ami csak múló összefüggés, az aktuális adatokra véletlenül teljesül Próbáljuk mérni a tudás érdekességét és csak érdekes tudást bányásszunk ki az adatokból milyen tudás kell: leíró vagy előrejelző milyen eseteket fed le, lehetőleg minél többet mennyire tipikus vagy újszerű a minta (esőben viszünk ernyőt: érdektelen, esőben levisszük a vízilovat sétálni: érdekes) mennyire pontos az összefüggés a lefedett esetekben mennyire időszerű (mindenki vízilovat tart otthon) 5
6 2. Az adattárházak építése, architektúrák, példákkal magyarázva. forrás: Mi az adattárház? Sokféleképpen definiálják, nincs egyértelmű meghatározás. Olyan döntéstámogató adatbázis, amelyet a szervezet működéséhez szükséges adatbázisától elkülönítve üzemeltetnek. Egyesített, történeti (időtől függő) adatok elemzését, információ feldolgozását támogató platform. Az adattárház olyan témaspecifikus, integrált, időfüggő, fizikailag is tárolt adatgyűjtemény, amely a menedzsment döntéshozó folyamataihoz szükséges lehet. W. H. Inmon Témaspecifikus: Nem a napi működéshez szükséges folyamatokkal, tranzakciós folyamatokkal foglalkozunk, hanem a modellezéssel, a döntéshozók számára hasznos adatelemzésekkel. Egy speciális témakörhöz szükséges adathalmaz egyszerű, tömör reprezentálása. Kihagyjuk azokat az adatokat, amelyek nem kellenek a döntéshozáshoz. Integráltság: Többféle, heterogén adatforrás adataiból készítjük el az adattárházat. Integrációs technikákat és adattisztítást kell alkalmaznunk. Időfüggés: Általában hosszabb időtartamra (akár évekre visszamenőleg) vizsgáljuk az adatokat. Az adattárház kulcsai (azonosítói) mindig tartalmaznak időpontot, explicit vagy implicit formában, a működési adatbázisban nincs mindig időpont megadva. 2.1 Adattárházak építése Négyféle szempont az adattárház tervezéséhez 1. Fentről-le az adattárházhoz szükséges lényeges információ kiválasztása (mire van és mire lehet majd szükség) 2. Adatforrás mit tárolunk a működési rendszereinkben 3. Adattárház milyen tény és dimenziótáblákat tárolunk az adattárházban 4. Üzlet a végfelhasználó milyen célra használhatja majd az adatokat Tervezési folyamat Fentről le, vagy lentről fel, vagy kombinálva: Fentről le (Top-down): Gondosan, fokozatosan részletezve mindent megtervezünk (időigényes) Lentről fel (Bottom-up): Próbálgatunk, prototípusokat adunk (gyors) 6
7 Szoftvertervezési szempontból Vízesés modell (Waterfall): strukturált, szisztematikus elemzés, mielőtt a következő lépést megtesszük Spirális modell (Spiral): gyorsan, egyre több funkcionalitást teszünk a készülő rendszerbe Az adattárház tervezési folyamatának tipikus lépései Határozzuk meg az üzleti folyamatokat, amelyekben modellezzünk például a rendeléseket, számlákat Határozzuk meg az üzleti folyamatok atomi adatszintjét Határozzuk meg a tényrekordokhoz tartozó dimenziókat Határozzuk meg a rekordokban szereplő mértékeket Adattárház építő segédeszközök Adatgyűjtéshez több, heterogén, akár külső adatforrásból összegyűjti, kiválasztja a szükséges adatokat Adattisztításhoz adathibákat kijelzi, ha lehet ki is javítja Adattranszformációhoz az örökölt adatbázisokból az adatokat az adattárház formátumára transzformálja Betöltéshez rendez, összesít, egyesít, nézeteket készít, ellenőrzi az integritási feltételeket, indexeket készít, particionál Frissítéshez időközönként az új adatokat, változásokat betölti az adattárházba 7
8 2.2 Adattárház architektúrák Három típusa van: 1. Vállalati adattárház (Enterprise warehouse) a teljes szervezet összes fontos információját tartalmazza, amely bármilyen témájú elemzéshez valaha is kellhet 2. Adatpiac (Data Mart) egy adott témához (például marketing) szükséges adatok gyűjteménye külön is megépíthetjük, de lehet része a vállalati adattárháznak is 3. Virtuális adattárház (Virtual warehouse) A működési adatbázisra építünk nézeteket Egyes összesítő nézeteket materializálunk Adattárházak építésének diagramja 8
9 3. Az adatkockák szerepe, műveletei, példákkal magyarázva. forrás: Adatkockák szerepe Az adattárház többdimenziós adatmodellt valósít meg, tipikusan adatkockákat használ. Egy adatkocka, mint például az eladások, esetén az adatokat több dimenzióban nézhetjük, modellezhetjük: Dimenziótáblákat használunk: cikk(cikk_név, márka, típus), vagy idő(nap, hét, hónap, negyedév, év) A ténytábla tartalmazza az értékeket, mértékeket (például eladott_mennyiség_dollárban) és kulcsokat a megfelelő dimenziótáblákhoz, amely alapján a dimenzió részleteit tudjuk a tényekhez hozzákapcsolni Az n-dimenziós (n-d) alapkockát alapkuboidnak (alaptéglának) hívjuk. Ez a legrészletezettebb nézete a tényeknek. A legfelső szintű 0-D kuboid a teljes összesítést tartalmazza, (függetlenül helytől, időtől, egyéb dimenzióktól). Ez az apex kuboid. A kuboidok hálóját hívjuk adatkockának. Kuboidok hálója 9
10 3.2 Adatkocka Adattárházak modelljei: dimenziók és mértékek Csillagséma: Középen áll a ténytábla, ami dimenziótáblákkal van összekapcsolva. Csillagséma Hópehelyséma: A csillagséma finomítása, a dimenziótáblákat dekomponáljuk normálformájú kisebb dimenziótáblákra. Hópehely 10
11 Csillagkép vagy galaxisséma: Több ténytábla közös dimenziótáblákat használ. Galaxisséma 3.3 Adatkockák műveletei 1. Felgörgetés - Roll up (drill-up): összesítjük (pl. összegezzük) az adatokat a hierarchián feljebb lépve vagy a dimenziót elhagyva 11
12 2. Lefúrás - Drill down (roll down): kirészletezünk adatokat (a felgörgetés fordítottja) alacsonyabb szintű összesítést veszünk, részletezzük az adatokat, vagy bevezetünk egy új dimenziót 3. Szeletelés és kockázás - Slice and dice: vetítés és kiválasztás Szeletelés 12
13 4. Forgatás (pivotálás) - Pivot (rotate): elforgatjuk a kockát, vagy a vizualizációját, a 3D-t alkotó 2D-s síkszeletek sorozatát átrendezzük 5. Egyéb műveletek a. Keresztülfúrás - drill across: egynél több ténytáblában fúrunk le b. Átfúrás -drill through: a lefúrást SQL utasításokkal a kockában a legrészletezettebb adatokig, azaz az alap relációs táblákig folytatjuk 13
14 4. Az asszociációs szabályok előállítása, példákkal magyarázva forrás: 49.dia 4.1 Feladat leírása Feladatunk az adathalmazban előforduló gyakori minták felderítése. Az ilyen eljárások használhatóak például vásárlói kosarak vizsgáltál, ahol az együtt gyakran megvásárolt termékeket keressük. Ez az adatok feldolgozásának szempontjából is érdekes, hiszen egy adathalmazhoz tartozó gyakori minták sokat elmondanak annak tulajdonságairól. Legyenek X = {x 1,, x k } és Y = {y 1,, y k } cikkek halmaza. A feladat keresni olyan X Y szabályokat, melyek megfelelnek bizonyos support és confidence követelményeknek. Support=S annak a valószínűsége, hogy egy kosár tartalmazza X Y-t Confidence=C feltételes valószínűsége annak, hogy ha egy kosár tartalmazza X-et akkor Y-t is 4.2 Példa: n cikk esetén 2 n darab részhalmazt kéne megvizsgálni, ami sok. Bemutatjuk az apriori eljárást ami downward closure tulajdonságot tételezi fel az adathalmazról. Ez alapján a gyakori kosarak részkosarai is gyakoriak. Tehát pl. ha sör és pelenka együtt gyakran előfordul a kosarakban, akkor sör is gyakran előfordul. Ebből kifolyólag az apriori alapötlete az, hogy ha egy X cikk halmaz nem gyakori, akkor már nem kell vizsgálni az olyan cikk halmazokat melyek tartalmazzák X-et. Ezt hívjuk apriori pruning principle-nek. 4.3 Az apriori eljárás: 1. Fussunk végig az adathalmazon és keressük meg a gyakori egy elemű részhalmazokat. (tehát a gyakori cikkeket) k:=1. 2. Generáljunk k+1 hosszú részhalmazokat a gyakori k hosszú részhalmazokból. k:=k+1 3. Nézzük meg hogy az előző pontban generált részhalmazok mennyire gyakoriak. Ha nem gyakoriak hagyjuk el őket. 4. Ha már egy generált részhalmaz sem gyakori, akkor leállunk, egyébként vissza a 2-es pontra. 14
15 Hogyan generáljunk minden körben lehetséges gyakori halmaz jelölteket? Első lépés: self-joining az L k -ban. L k az eddigi gyakori k cikket tartalmazó halmazok! fontos, hogy ez rendezve van. ((lexikografikusan, a példánál érthetőbb)) Példa: Második lépés: pruning (vágás). Eltüntetjük azokat a generált halmazokat, melyek tartalmaznak olyan k méretű részhalmazt, ami nem szerepel L k -ban. Hogyan számoljuk ki a jelöltek Supportját? (05-16,17.old) 15
16 Általános problémák a gyakori minták keresésénél: Az adathalmazon többször végig kell menni (erre megoldás a DIC (23.old)) Egy körben rengeteg jelölt generálódik (erre megoldás a DHP eljárás (21.old)) Support körönkénti kiszámolása költséges 4.4 FP-Tree A diákban szó van egy olyan eljárásról, ami FP-Tree-ket épít 16
17 5. Az osztályozás feladata, a döntési fák előállítása, példákkal magyarázva. forrás: Osztályozás feladata Klasszifikáláskor meg akarjuk jósolni, hogy az egyes rekordok milyen osztályba tartoznak. A modellt egy tanuló adathalmaz alapján állítjuk be, majd ezt tipikusan egy másik tesztelő adathalmazzal értékeljük ki. Az ilyen eljárások sok területen felhasználhatók, pl hiteligénylés kiértékelésére, előzetes orvosi diagnózis esetén, célzott marketing esetén. A modell konstrukciója. Modellt csak egy már kész, és pontos adathalmazon tudjuk megkonstruálni. Jellemzően a tanítóhalmaz rekordjainak egy oszlopában van a rekordhoz rendelt osztály. A modellt magát reprezentálhatjuk szabályok sorozatával, döntési fával, vagy valamilyen matematikai formulával. A modell alkalmazása. A kész modellt érdemes először egy (a tanuló adathalmaztól független) teszt adathalmazon vizsgálni. Persze a tesztadathalmaz rekordjainak osztályait is pontosan kell ismernünk az eredmény kiértékeléséhez. Ha elég pontos válaszokat ad a modell, akkor ráengedhetjük más adatokra is. Adat tisztítás: A tanító adathalmazon, célszerű tisztítást végezni a modell konstrukciója előtt. Ide tartozik az üres értékek kezelése, valamint a zajcsökkentés, a redundáns/irreleváns attribútumok törlése, valamint az egyes értékek normalizálása. 5.2 Döntési fa előállítása A fa konstrukciója: (felülről lefelé, rekurzív oszd meg és uralkodj) Kezdetben a tanulóhalmaz minden értéke a gyökérben van. Minden lépésben az egyes csomópontokat kettéválasztjuk bizonyos attribútumok alapján. Az attribútum választás alapja általában valamilyen heurisztika vagy statisztikai mérték(az informacion gain lesz később) A fa építésével leállunk, ha az egyes csomópontokhoz tartozó rekordok már egy osztályba esnek, vagy ha már nincs attribútum, ami alapján vághatnánk, vagy nincs a csomóponthoz érték rendelve. (*Persze gondolom gyakorlatban már egy adott szint után, vagy egy minimális gain alatt leállunk). Végül megnézzük, hogy az egyes levelek milyen osztályhoz tartozó rekordokból tartalmaznak a legtöbbet ( és az lesz a levélhez tartozó osztály). Attribútum választás information gain alapján: Azzal az attribútummal vágunk, mellyel a legnagyobb az information gain Legyen p i annak a valószínűsége, hogy egy D rekordhalmazhoz tartozó rekord C i osztályba tartozik, és ezt becsüljük így: C i, D / D m Ekkor a várható információ(entrópia): Info(D) pi log2(pi) v i1 D j Szükséges információ, hogy A attribútummal vágjunk D-t v részre: Info A(D) I(D j) j1 D Nyert információ az A-alapján történt vágással: Gain(A) Info(D) Info (D) A 17
18 Példa (azt keressük, hogy vesz-e pc-t): A példában a kor szerint vágunk, mert arra lesz a legnagyobb a gain. Mi van ha A attr. folytonos? Keressük a legjobb vágási pontot. Rendezzük az A-ban előforduló értékeket növekvő sorrendben (*Gondolom a csomóban előforduló értékeket). A vágási pont tipikusan két a,b érték között lesz (a+b)/2. Azt a split-point-ot vegyük, mellyel elvágva az adathalmazt annak várható információja minimális lesz old A Gain(A) érték használatával, az eljárás hajlamos azokat az attribútumokat előnyben részesíteni, melyeknek sok értéke van. Erre a C4.5 kínál megoldást, ami normalizálja a Gain-t. Vagyis legyen SplitInfo A (D) v D j log ( j1 D D és így GainRatio(A)=Gain(A)/SplitInfo(A). Mit az előző esethez hasonlóan, azt az A-t választjuk melyre legnagyobb a GainRatio(A). Overfitting: a modell hajlamos túltanulni a tanuló adathalmazt. Sok zajra, kiugró értékre utalhat az, ha a fa túlzottan szerteágazik. Megoldás, ha csak egy adott jóság (gain) fölött bontjuk a csomópontokat, de ezt nehéz előre belőni. Másik ötlet, ha felépítjük a (túlságosan nagy) fát, és ezt lenyessük. Az ilyen vágott fák hatékonyságát célszerű nem a tanuló adathalmazon megmérni. 2 D j ) 18
19 6. A klaszterezés feladata, két klaszterező algoritmus, példákkal magyarázva. forrás: fordítások: Klaszterezés feladata Mi a klaszterezés? Objektumok halmazában keresünk olyan csoportokat, melynek tagjai egymáshoz hasonlóak, ugyanakkor más csoportokban lévő tagok különböznek Klaszterezés alkalmazásai: nagy adatállományok csökkentése, az adathalmaz jobb megértése, például a böngészésnél kapott kapcsolódó dokumentumok csoportjai, hasonló funkcionalitással bíró gének és fehérjék csoportjai, hasonló ármozgású részvények csoportjai. Hasonlóság metrikája: az objektumok attribútumaik közti hasonlóságra általában valamilyen d(i,j) metrikát adunk meg. Ezek különböző típusú változókra nagyon különbözhet (boolean,number,categorical). A klaszterek jóságát tipikusan máshogy mérjük, és egy ilyen mérték megfogalmazása nehéz. Az adatok típusa lehet: Interval-valued variables: klaszterezés előtt az ilyen jó normalizálni/standardizálni (vagyis az egyes értékekből kivonjuk a mintaátlagot, majd ezt osztjuk a szórással (most nem a szórásnégyzet gyökével, hanem a mean absolute deviation-nel)). Ezekre sokféle távolságot ráhúzhatunk, pl Euklideszi távolság, MInkowski távolság, Manhattan távolság (07 prezi, 14. oldal) Binary variables: a változónak két állapota lehet. egy lehetséges távolság, ha a nem egyező változók számát elosztjuk az összes változó számával. Nominal values: előzőhöz hasonló, de 2-nél több állapota lehet. Egy lehetséges távolság, ha a nem egyező változók számát oszjuk az összesel. Ordinal value: lehet diszkrét vagy folytonos, de az értékekre van rendezés(rank). Az internal valued variables típushoz tartozó hasonlóságok használhatók, ha a változókat rank szerint a [0,1] intervallumba képezzük. Ratio scaled variable: nemlineáris skálán vett értékek, távolság az előzőhöz hasonlóan visszavezethető az interval-valued variables típusra, de előtte az érték logaritmusát kell venni. (07-dia 20.oldal) Ha az adatbázisban több féle változó van, akkor a különböző típusok súlyozott kombinációját vesszük a hasonlóság kiszámításakor. Vector objects: 19
20 6.2 Két klaszterező algoritmus A klaszterezés két típusa: Felosztó klaszterezés: Az objektumok felosztása nem átfedő részhalmazokra (klaszterekre) úgy, hogy minden objektum pontosan egy részhalmazban szerepelhet. Hierarchikus klaszterezés: Egymásba ágyazott klaszterek egy hierarchikus fába szervezett halmaza A k-közép klaszterezés k-közép klaszterezés: Ez egy felosztó klaszterezés. Minden klasztert annak középpontja (centroidja) reprezentál. A pontokat ahhoz a klaszterhez rendeljük, melynek középpontjához a legközelebb van. Előre meg kell adni, hogy hány k darab klaszterre szeretnénk bontani a halmazt. Az eljárás: Válasszunk ki k darab pontot (általában random) Hozzunk létre k klasztert a pontoknak a legközelebbi középpontokhoz való hozzárendelésével. Számoljuk újra a középpontot minden klaszternél. Ha a középpontok megváltoztak vissza 2-esre 20
21 Megjegyzések: a középpont általában a klaszterbeli pontok átlaga Az adatokat futtatás előtt célszerű normalizálni A K-közép módszer konvergál a fenti általános hasonlósági mértékekre. A konvergencia legnagyobb része az első néhány iterációban megtörténik. Komplexitás: O( n * K * I * d ) n = pontok száma, K = klaszterek száma, I = iterációk száma, d = attribútumok száma Problémák a k-közép módszerrel: Kiugró értékekre érzékeny (k-medoid orvosolja, old) Kezdeti középpontok problémája (Ha adott K,,igazi klaszter, akkor annak esélye, hogy minden klaszterből választunk középpontot kicsi. Megoldására vannak módszerek) Az alap k-közép üres klasztereket is adhat Előre meg kell adni a klaszterek számát Összevonó klaszterezési algoritmus Összevonó klaszterezési algoritmus: Hierarchikus klaszterezés, Egymásba ágyazott klaszterek egy hierarchikus fába szervezett halmazát állítja elő (ábrázolására dendrogramot használunk. a függőleges tengely adja meg hogy mi volt a két összevont klaszter távolsága). 21
22 Hasonlósági vagy távolság mátrixot használ. 1. Számoljuk ki a közelségi mátrixot. 2. Legyen minden egyes pont egy önálló klaszter. 3. Vonjuk össze a két legközelebbi klasztert. 4. Frissítsük a közelségi mátrixot. 5. Ismételjük a 3.-tól amíg csak egy klaszter nem marad. Megjegyzések: A klaszterek közötti távolság definíciójának különböző megközelítései más-más algoritmusokhoz vezetnek. A hasonlóság mérése lehet pl: MIN, MAX, Csoport-átlag, Középpontok közötti távolságok Nem kell feltételezni semmilyen konkrét klaszter-számot előre. Tárigény: O(N 2 ) tárigény mivel a közelségi mátrixot használja. Időigény: O(N 3 ) időigény az esetek többségében (N lépést kell végrehajtani és minden egyes lépésben egy N2 méretű közelségi mátrixot kell frissíteni és kell benne keresni.) Problémák: Ha egyszer döntést hozunk arról, hogy két klasztert összevonunk, akkor azt már nem lehet meg nem történtté tenni. Nincs célfüggvény, melyet közvetlenül minimalizálunk. Érzékenység a hibára és a kiugró adatokra Hajlam nagy klaszterek szétvágására DBSCAN: egy sűrűség alapú algoritmus Sűrűség = egy rögzített sugáron (Eps) belüli pontok száma Egy pont belső pont ha egy előírtnál (MinPts) több pont van Eps sugarú környezetében. (Ezek lesznek egy klaszter belsejének pontjai.) A határ pontnak az Eps sugarú környezetben MinPts-nél kevesebb pontja van, azonban van belső pont ebben a környezetben. A zajos pont az összes olyan pont, amelyik nem belső illetve határ pont. 22
23 23
24 Máshogy leírva (először töröljük a zajokat majd): Előnyök: ellenálló zajjal szemben Különböző méretű és alakú klasztereket egyaránt tud kezelni Hátrányok: Változó sűrűségű halmazoknál gondok Magas dimenziójú adatoknál gondok (OPTICS) Ez a módszer segít egy jó eps, és Minpts eltalálására. 24
25 7. Szövegbányászati módszerek. Wiki alapján a szövegbányászat: A szövegbányászat (angolul text mining) a strukturálatlan vagy kis mértékben strukturált szöveges állományokból történő ismeret kinyerésének tudománya; olyan különböző dokumentumforrásokból származó szöveges ismeretek és információk gépi intelligenciával történő kigyűjtése és reprezentációja, amely a feldolgozás előtt rejtve és feltáratlanul maradt az elemző előtt. Az egyszerű keresésnél jóval többet hivatott nyújtani a szövegbányászat. Míg szöveges keresés esetében meglévő információkra kívánunk kis időbefektetéssel rátalálni (nagy relevanciájú találati eredmények által), addig a szövegbányászat során olyan tudásra, ismeretekre is szert kívánunk tenni, ami explicite nem volt benne a rendelkezésre álló dokumentumállományban (korpuszban), csak indirekt módon, rejtve, látensen. Bár a teljes szövegű keresés is a szövegbányászat része, a szövegbányászat a keresésnél jóval többet jelent, hasonlóan, ahogy az adatbányászat is jóval többet jelent az egyszerű adatkeresésnél. A szövegbányászat nagy mértékben épít az adatbányászat eredményeire, ahol elsősorban számszerű adatok feldolgozása történik intelligens gépi módszerekkel. Az adatbányászat azon eredményeit, amelyek minták felismerésére, adatreprezentációra, előrejelzésre, statisztikai összefüggések kimutatására vonatkoznak, a szövegbányászat is nagymértékben hasznosítja. A különbség abban mutatkozik, hogy míg adatbányászat esetében jól strukturált számszerű adatokkal dolgozunk, addig a szövegbányászatban strukturálatlan szöveges állományok képezik a kiindulási alapot. Dokumentumokat akarunk feldolgozni, osztályozni. 7.1 Látens szemantikai indexelés Forrás: Látens szemantikai Indexelés ütőkártya vagy hisztéria a Latent Semantic Indexing (LSI) alatt olyan technológiát értünk, amelyet vezető keresőmotor üzemeltetők köztük a Google vezettek be és amelyek segítségével a keresőmotorok képesek a szövegtartalmakat szemantikailag felismerni és értelmezni. Az LSI lehetővé teszi, hogy lokalizálják egy kulcsszó szinonimáit és rokon fogalmait, és az olyan szövegeket, amelyekben ilyenek előfordulnak, relevánsnak soroljanak be még akkor is, ha maga a keresőfogalom nem fordul elő a szövegben. A Latent Semantic Indexing-gel kapcsolatban egy ideje számos híresztelés terjeng, bár ezek részben hisztériák. Vegyük szemügyre a Latent Semantic Indexing fejlődését az ismertté válása óta Míg a keresőmotorok korábban csak a meglévő kulcsszavakat elemezték, a szemantikai technológia tovább megy egy lépéssel. Itt még egy megfelelő dokumentum környezetét is analizálják, azaz a keresőmotorok az adott szöveget összehasonlítják olyan dokumentumokkal, amelyek azonos vagy hasonló szavakat és szócsoportokat tartalmaznak. Ennek során a 25
26 technológia azokat a szövegeket sorolja be szemantikailag rokonnak, amelyek sok hasonló szót és szósort használnak. Ha csak kevés szó egyezik, akkor a szöveg szemantikailag távoli besorolást kap, következésképp az adott keresőfogalom szempontjából nem releváns. A gyakorlatban ez a következőt jelenti: ha egy keresőmotor Latent Semantic Indexing-et használ, akkor például a Saddam Hussein keresőfogalomra egyrészt olyan keresési eredményeket ad, amelyek összefüggésben állnak Saddam Hussein-nel és az Öböl-háborúval, az iraki háborúval vagy Kuvaittal. Másrészt azonban olyan tartalmakat is megjelenít, amelyeknél az adott keresőfogalom sehol sem fordul elő a szövegben. A keresőmotor a szöveges tartalmak alapján tudja, hogy mely eredmények lehetnek mégis relevánsak. Míg ennek alapján nagyon is van értelme rokon fogalmakat integrálni webes szövegekbe, egy weboldal üzemeltetőjének e technológia tekintetében mégis legfőképp a bejövő linkek illetve a megfelelő linkszövegek használatára kell ügyelnie. Ma már nem titok, hogy a bejövő linkek szövege nagymértékben befolyásolja a honlap helyezését. Ebből a szempontból tehát kerülni kellene a mindig azonos linkszövegek használatát. Különben gyorsan kelthetjük azt a benyomást, hogy az oldal túloptimalizált. Az ilyesmit a keresőmotorok nagyon nem szeretik. Ennek következménye lehet például úgynevezett over-optimization-penalties, ami a szembetűnően túltupírozott honlapok büntetése. A siker kulcsa itt a lehetőleg természetesnek ható linkszövegekben van. Nincs ugyan kész recept, vizsgálatok azonban azt mutatták, hogy sok top-helyezésű oldal esetében a kulcsszavaik körülbelül a beérkező linkek 30-40%-ában fordulnak elő. A linkszövegekben szinonimák és rokon fogalmak használatával tovább növelhető a beérkező linkek relevanciája, anélkül, hogy természetellenesnek hatnának. A keresőmotorok megértik ezeket az alternatív fogalmakat és az Ön oldala ennek megfelelő helyezést kap az adott keresőfogalmak szerint. Annak kiderítésére, mely fogalmakat tekinti a Google szinonimának, használhatjuk a szinonima-keresőparancsot (~ / Alt Gr + ). Ha például az autó fogalmára keres szinonimákat, egyszerűen a következő keresőfogalmat adja be a Google-ban: ~autó Így megkapja azokat az oldalakat, amelyek a keresőfogalommal rokon kulcsszavakat tartalmaznak, például autós-hírek, lízing, cars A rokon kifejezések használatával megerősítheti a főfogalmait, ami jobb helyezést eredményez gyakori ismételgetések és az ezekhez kapcsolódó büntetés veszélye nélkül. Kérem, ügyeljen arra: amíg igyekszik lehetőleg természetesen írni, és a keresőmotorok helyett mindig az olvasóira van inkább tekintettel, minden valószínűség szerint úgyis számtalan LSI kulcsszót használ. Így ennek a témának nem kell különösebb plusz figyelmet szentelnie. Összegzés a Latent Semantic Indexing tekintetében: használjon különféle kulcsszavakat, beleértve a szinonimákat és rokon fogalmakat, különösen a linkszövegekben. Ezáltal az oldala természetesebbnek hat. Ez pedig segíti abban, hogy helyezést kapjon a rokon fogalmak szerint is még akkor is, ha azok épp nem fordulnak elő az oldalán. Ráadásul ezáltal javíthatja a főfogalmai szerinti helyezését is. 26
27 7.2 Kulcsszó alapú asszociációs analízis (keyword based association analysis) A cél megtalálni olyan kulcsszavakat/kifejezéseket, melyek gyakran fordulnak elő együtt, majd megtalálni az asszociációs illetve korrelációs kapcsolatot közöttük. Az asszociációs analízis szakaszai: A szöveg elő feldolgozása (parsing, stemming(pl drug=drugs=drugged), removing stop words(pl. a, the of, always, with), etc.) Már bevált asszociációs szabályokat kereső eljárások használata. Kezeljük a dokumentumokat kosarakként. A cikkek pedig legyenek a kulcsszavak, amiket tartalmazhatnak a kosarak.?term level association mining:? nem kell embernek felügyelni, csökken az értelmetlen eredmények száma és gyorsabb is lesz 7.3 Szöveg klasszifikálása Motiváció: nagyon sok online dokumentumot szeretnénk automatikusan klasszifikálni/osztályozni. (weblapok, ) A folyamat pontokba szedve: Adatok elő feldolgozása Tanuló és teszt adatok előállítása A klasszifikációs modell elkészítése (pl. valamilyen tanult módon) A modell kiértékelése A modellt ráengedjük új szövegekre Nehézséget jelent, hogy a szöveg nem olyan jól strukturált mint egy relációs adatbázis 7.4 Dokumentumok klaszterezése Motiváció: A szövegek automatikus csoportosítása tartalmuk alapján, futásidő alatt, tanuló adathalmaz nélkül. A folyamat: Adat elő feldolgozás (remove stop words, stem, feature extraction, lexical analysis, etc.) Hierarchikus klaszterezés/modell based klaszterezés 27
28 7.5 Vektortér modell A dokumentumot egy term vektorral reprezentáljuk. A term lehet szó vagy kifejezés. Minden term egy dimenziót definiál, így n term kifeszít egy n dimenziós vektorteret. A vektorokat súlyozzuk aszerint, hogy az egyes termek mennyire fontosak. A dokumentumot az azt reprezentáló vektora alapján soroljuk be, vektorhasonlóság alapján. Hogyan súlyozzunk? TF súlyozás: minél gyakrabban fordul elő a t term annál közelebb van a témához. TF=f(t,d) megadja, hogy hányszor fordul elő a t term a d dokumentumban. Mivel a dokumentum hossza torzítja az eredményt érdemes normalizálni. IDF súlyozás: minél ritkábban szerepel a dokumentumok összeségében, annál diszkriminatív. TF-IDF súlyozás: a felső kettő kombinációja weight(t,d)=tf(t,d)*idf(t) Hogyan mérjük a hasonlóságot? 28
29 A lényeg hogy a fentiekkel van egy vektorterünk, amire a szokásos megoldásokat rá lehet engedni (pl k-közép, döntési fa,neuronhálók,svm) 29
Gépi tanulás a gyakorlatban. Bevezetés
Gépi tanulás a gyakorlatban Bevezetés Motiváció Nagyon gyakran találkozunk gépi tanuló alkalmazásokkal Spam detekció Karakter felismerés Fotó címkézés Szociális háló elemzés Piaci szegmentáció analízis
The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék Adatelemzés intelligens módszerekkel Hullám Gábor Adatelemzés hagyományos megközelítésben I. Megválaszolandó
Adatbázisrendszerek április 17.
Adatbázisrendszerek Áttekintés az adattárházakról és az OLAP-ról 2018. április 17. Az adattárházak célja 2 A számítási kapacitások állandó növekedése és az analitikai eszközök és módszerek egyre összetettebbé
Adatbányászat: Klaszterezés Haladó fogalmak és algoritmusok
Adatbányászat: Klaszterezés Haladó fogalmak és algoritmusok 9. fejezet Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította Ispány Márton Logók és támogatás A tananyag a TÁMOP-4.1.2-08/1/A-2009-0046
Gyakorló feladatok adatbányászati technikák tantárgyhoz
Gyakorló feladatok adatbányászati technikák tantárgyhoz Buza Krisztián Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Klaszterezés kiértékelése Feladat:
Entity Resolution azonosságfeloldás
1 Entity Resolution azonosságfeloldás Entity Resolution (ER) is the process of identifying groups of records that refer to the same real-world entity. rejtett, való világbeli entitásokhoz köthető megfigyelések
Tudásalapú információ integráció
Tudásalapú információ integráció (A Szemantikus Web megközelítés és a másik irány) Tanszéki értekezlet, 2008. május 14. 1 Miért van szükségünk ilyesmire? WWW: (Alkalmazások) Keresés a weben (pl. összehasonlítás
R ++ -tree: an efficient spatial access method for highly redundant point data - Martin Šumák, Peter Gurský
R ++ -tree: an efficient spatial access method for highly redundant point data - Martin Šumák, Peter Gurský Recenzió: Németh Boldizsár Térbeli indexelés Az adatszerkezetek alapvetően fontos feladata, hogy
Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés
Gépi tanulás a gyakorlatban Kiértékelés és Klaszterezés Hogyan alkalmazzuk sikeresen a gépi tanuló módszereket? Hogyan válasszuk az algoritmusokat? Hogyan hangoljuk a paramétereiket? Precízebben: Tegyük
Sikerünk kulcsa: az információ De honnan lesz adatunk? Palaczk Péter
Sikerünk kulcsa: az információ De honnan lesz adatunk? Palaczk Péter Bevezető az Oracle9i adattárházas újdonságaihoz Elemzési és vezetői információs igények 80:20 az adatgyűjtés javára! Adattárházak kínálta
Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben.
Tartalom Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben. Előszó 1. Az adatbányászatról általában 19 1.1. Miért adatbányászat? 21 1.2. Technológia a rejtett információk
Entity Resolution azonosságfeloldás
Entity Resolution azonosságfeloldás Témák: probléma leírása, példák, változatok megoldások: attribútum-hasonlóság alapúak kapcsolat alapúak (hálózati) egzakt szabály alapúak új eredmények: megoldások minőségének
Közösség detektálás gráfokban
Közösség detektálás gráfokban Önszervező rendszerek Hegedűs István Célkitűzés: valamilyen objektumok halmaza felett minták, csoportok detektálása csakis az egyedek közötti kapcsolatok struktúrájának a
MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR
MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR Korszerű információs technológiák Klaszteranalízis Tompa Tamás tanársegéd Általános Informatikai Intézeti Tanszék Miskolc, 2018. október 20. Tartalom
Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.
Regresszió Csorba János Nagyméretű adathalmazok kezelése 2010. március 31. A feladat X magyarázó attribútumok halmaza Y magyarázandó attribútumok) Kérdés: f : X -> Y a kapcsolat pár tanítópontban ismert
SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből
2010/2011 tavaszi félév SZTE Eötvös Loránd Kollégium 1. Dombi József: Fuzzy elmélet és alkalmazásai 2011. március 3. 19:00 2. Móra György: Információkinyerés természetes nyelvű szövegekből 2011. március
Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése
Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése 1 Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Természetes nyelv feldolgozás 2 Tudásalapú információ-kereső rendszerek
Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén
Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén Dombi József Szegedi Tudományegyetem Bevezetés - ID3 (Iterative Dichotomiser 3) Az ID algoritmusok egy elemhalmaz felhasználásával
Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.
Tudásmodellezés Kereskedelmi Alkalmazásokban Dezsényi Csaba Ovitas Magyarország kft. Tudásmenedzsment Adat -> Információ -> Tudás Intézményi tudásvagyon hatékony kezelése az üzleti célok megvalósításának
1. gyakorlat. Mesterséges Intelligencia 2.
1. gyakorlat Mesterséges Intelligencia. Elérhetőségek web: www.inf.u-szeged.hu/~gulyasg mail: gulyasg@inf.u-szeged.hu Követelmények (nem teljes) gyakorlat látogatása kötelező ZH írása a gyakorlaton elhangzott
Adatbányászati technikák (VISZM185) 2015 tavasz
Adatbányászati technikák (VISZM185) 2015 tavasz Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2015. február 11. Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 1 / 27
Vállalati információs rendszerek I, MIN5B6IN, 5 kredit, K. 4. A meghirdetés ideje (mintatanterv szerint vagy keresztfélében):
Követelményrendszer 1. Tantárgynév, kód, kredit, választhatóság: Vállalati információs rendszerek I, MIN5B6IN, 5 kredit, K 2. Felelős tanszék: Informatika Szakcsoport 3. Szak, szakirány, tagozat: Műszaki
Big Data az adattárházban
Big Data az adattárházban A párbaj folytatódik? Néhány fontos Big Data projekt Cég Téma Adat Újfajta Mennyiség Saját adat? Típus Google Influenza Google I big I Előjelzés előjelzés Farecast Xoom Chicagoi
Adatbányászati szemelvények MapReduce környezetben
Adatbányászati szemelvények MapReduce környezetben Salánki Ágnes salanki@mit.bme.hu 2014.11.10. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Felügyelt
Adatelemzés és adatbányászat MSc
Adatelemzés és adatbányászat MSc 12. téma Klaszterezési módszerek Klaszterezés célja Adott az objektumok, tulajdonságaik együttese. Az objektumok között hasonlóságot és különbözőséget fedezhetünk fel.
Entity Resolution azonosságfeloldás
1 Entity Resolution azonosságfeloldás Entity Resolution (ER) is the process of identifying groups of records that refer to the same real-world entity. rejtett, való világbeli entitásokhoz köthető megfigyelések
Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS)
Networkshop, 2008 Márc. 17 19., Dunaújváros Holl Erdődi: Fejlett kereső... 1 Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS) Holl András Erdődi Péter MTA Konkoly Thege Miklós
Adatbányászat: Klaszterezés Alapfogalmak és algoritmusok
Adatbányászat: Klaszterezés Alapfogalmak és algoritmusok 8. fejezet Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította Ispány Márton Tan,Steinbach, Kumar Introduction to Data
Adattárház tiszta alapokon Oracle Day, Budapest, november 8.
Adattárház tiszta alapokon Oracle Day, Budapest, 2011. november 8. WIT-SYS Consulting Zrt. Lévai Gábor gabor.levai@wit-sys.hu Tematika Az adattárházról általánosan Az adattárház definíciója Fő jellemzők
Adatszerkezetek 2. Dr. Iványi Péter
Adatszerkezetek 2. Dr. Iványi Péter 1 Fák Fákat akkor használunk, ha az adatok között valamilyen alá- és fölérendeltség van. Pl. könyvtárszerkezet gyökér (root) Nincsennek hurkok!!! 2 Bináris fák Azokat
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Klaszteranalízis Hasonló dolgok csoportosítását jelenti, gyakorlatilag az osztályozás szinonimájaként értelmezhetjük. A klaszteranalízis célja A klaszteranalízis alapvető célja, hogy a megfigyelési egységeket
Adatbányászat: Klaszterezés Alapfogalmak és algoritmusok
Adatbányászat: Klaszterezés Alapfogalmak és algoritmusok 8. fejezet Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította Ispány Márton Tan,Steinbach, Kumar Introduction to Data
Csima Judit október 24.
Adatbáziskezelés Funkcionális függőségek Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2018. október 24. Csima Judit Adatbáziskezelés Funkcionális függőségek 1 / 1 Relációs sémák
Gyakori elemhalmazok
Gyakori elemhalmazok Bankó Tibor June 9, 2010 Bankó Tibor (BME) Gyakori elemhalmazok June 9, 2010 1 / 26 Tartalom 1 Bevezetés 2 Az algoritmusok Egy speciális eset Apriori Eclat FP-Growth 3 Az algoritmusok
Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék
Keresés képi jellemzők alapján Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Lusta gépi tanulási algoritmusok Osztályozás: k=1: piros k=5: kék k-legközelebbi szomszéd (k=1,3,5,7)
Gyakori elemhalmazok kinyerése
Gyakori elemhalmazok kinyerése Balambér Dávid Budapesti M szaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Kar Számítástudomány szakirány 2011 március 11. Balambér Dávid (BME) Gyakori
Intelligens adatelemzés
Antal Péter, Antos András, Horváth Gábor, Hullám Gábor, Kocsis Imre, Marx Péter, Millinghoffer András, Pataricza András, Salánki Ágnes Intelligens adatelemzés Szerkesztette: Antal Péter A jegyzetben az
Multimédiás adatbázisok
Multimédiás adatbázisok Multimédiás adatbázis kezelő Olyan adatbázis kezelő, mely támogatja multimédiás adatok (dokumentum, kép, hang, videó) tárolását, módosítását és visszakeresését Minimális elvárás
JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN
JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN Supporting Top-k item exchange recommendations in large online communities Barabás Gábor Nagy Dávid Nemes Tamás Probléma Cserekereskedelem
Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására
VÉGZŐS KONFERENCIA 2009 2009. május 20, Budapest Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására Hidasi Balázs hidasi@tmit.bme.hu Konzulens: Gáspár-Papanek Csaba Budapesti
Adaptív dinamikus szegmentálás idősorok indexeléséhez
Adaptív dinamikus szegmentálás idősorok indexeléséhez IPM-08irAREAE kurzus cikkfeldolgozás Balassi Márton 1 Englert Péter 1 Tömösy Péter 1 1 Eötvös Loránd Tudományegyetem Informatikai Kar 2013. november
Data Vault adatmodellezés.
Data Vault adatmodellezés Nemeth.Zoltan@iqpp.hu Új adattárház adatmodellezési módszer Dan Linstedt nevéhez fűződik Ismérvei Részletes, tételes adatok Történetiség kezelése Data Vault Üzleti területek köré
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 8 VIII. REGREssZIÓ 1. A REGREssZIÓs EGYENEs Két valószínűségi változó kapcsolatának leírására az eddigiek alapján vagy egy numerikus
Analitikus adatfeldolgozás. Adattárház Adatkocka Adatbányászat
Analitikus adatfeldolgozás Adattárház Adatkocka Adatbányászat 1 Áttekintés A hagyományos adatbázisokat sok, apró, egyszerű lekérdezésre hangolták A jelenlegi alkalmazások kevesebb, de idő igényesebb, bonyolultabb
2. 3. Keresés az Interneten. Navigáció az Interneten: Megoldások. Internetes keresés buktatói. 1. Keresőmotorok. Webes keresési lehetőségek
Keresés az Interneten Navigáció az Interneten: Keresőrendszerek, keresési tippek Egyszerű keresőrendszerek Tematikus keresőrendszerek, katalógusok Portálok Adatbázisok, online folyóiratok Elektronikus
Térinformatikai adatszerkezetek
Térinformatikai adatszerkezetek 1. Pont Egy többdimenziós pont reprezentálható sokféle módon. A választott reprezentáció függ attól, hogy milyen alkalmazás során akarjuk használni, és milyen típusú műveleteket
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 10 X. SZIMULÁCIÓ 1. VÉLETLEN számok A véletlen számok fontos szerepet játszanak a véletlen helyzetek generálásában (pénzérme, dobókocka,
Klaszterezés. Kovács Máté március 22. BME. Kovács Máté (BME) Klaszterezés március / 37
Klaszterezés Kovács Máté BME 2012. március 22. Kovács Máté (BME) Klaszterezés 2012. március 22. 1 / 37 Mi a klaszterezés? Intuitív meghatározás Adott dolgokból halmazokat klasztereket alakítunk ki úgy,
Ellenőrző kérdések. 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t
Ellenőrző kérdések 2. Kis dolgozat kérdései 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t 37. Ha t szintű indexet használunk,
Mérési struktúrák
Mérési struktúrák 2007.02.19. 1 Mérési struktúrák A mérés művelete: a mérendő jellemző és a szimbólum halmaz közötti leképezés megvalósítása jel- és rendszerelméleti aspektus mérési folyamat: a leképezést
Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára
Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára Vázsonyi Miklós VÁZSONYI Informatikai és Tanácsadó Kft. BME Információ- és Tudásmenedzsment Tanszék 1/23 Tartalom A MEK jelenlegi
Adatbázis, adatbázis-kezelő
Adatbázisok I. rész Adatbázis, adatbázis-kezelő Adatbázis: Nagy adathalmaz Közvetlenül elérhető háttértárolón (pl. merevlemez) Jól szervezett Osztott Adatbázis-kezelő szoftver hozzáadás, lekérdezés, módosítás,
TSIMMIS egy lekérdezés centrikus megközelítés. TSIMMIS célok, technikák, megoldások TSIMMIS korlátai További lehetségek
TSIMMIS egy lekérdezés centrikus megközelítés TSIMMIS célok, technikák, megoldások TSIMMIS korlátai További lehetségek 1 Információk heterogén információs forrásokban érhetk el WWW Társalgás Jegyzet papírok
Célkitűzések Az Oracle10 g felépítésének, használatának alapszíntű megismerése
BEVEZETÉS Célkitűzések Az Oracle10g felépítésének, használatának alapszíntű megismerése A relációs adatbázis-kezelés elméleti és gyakorlati vonatkozásainak áttekintése Az SQL, PL/SQL nyelvek használatának
Az informatika kulcsfogalmai
Az informatika kulcsfogalmai Kulcsfogalmak Melyek azok a fogalmak, amelyek nagyon sok más fogalommal kapcsolatba hozhatók? Melyek azok a fogalmak, amelyek más-más környezetben újra és újra megjelennek?
Az adatok a vállalat kulcsfontosságú erőforrásai. Az információs rendszer adatai kezelésének két alapvető változata:
ADATSZERVEZÉS Az adatok a vállalat kulcsfontosságú erőforrásai. Az információs rendszer adatai kezelésének két alapvető változata: fájlrendszerek (a konvencionális módszer) és adatbázis rendszerek (a haladóbb
Nagyméretű adathalmazok kezelése (BMEVISZM144) Reinhardt Gábor április 5.
Asszociációs szabályok Budapesti Műszaki- és Gazdaságtudományi Egyetem 2012. április 5. Tartalom 1 2 3 4 5 6 7 ismétlés A feladat Gyakran együtt vásárolt termékek meghatározása Tanultunk rá hatékony algoritmusokat
Gépi tanulás a gyakorlatban. Lineáris regresszió
Gépi tanulás a gyakorlatban Lineáris regresszió Lineáris Regresszió Legyen adott egy tanuló adatbázis: Rendelkezésünkre áll egy olyan előfeldolgozott adathalmaz, aminek sorai az egyes ingatlanokat írják
Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás
STATISZTIKA, BIOMETRIA. Előadás Mintavétel, mintavételi technikák, adatbázis Mintavétel fogalmai A mintavételt meg kell tervezni A sokaság elemei: X, X X N, lehet véges és végtelen Mintaelemek: x, x x
MS ACCESS 2010 ADATBÁZIS-KEZELÉS ELMÉLET SZE INFORMATIKAI KÉPZÉS 1
SZE INFORMATIKAI KÉPZÉS 1 ADATBÁZIS-KEZELÉS MS ACCESS 2010 A feladat megoldása során a Microsoft Office Access 2010 használata a javasolt. Ebben a feladatban a következőket fogjuk gyakorolni: Adatok importálása
Leggyakrabban használt adatbányászási technikák. Vezetői információs rendszerek
Leggyakrabban használt adatbányászási technikák ADATBÁNYÁSZÁS II. 1. A társításelemzés társítási szabályok (asszociációs szabályok) feltárását jelenti. Azt vizsgájuk, hogy az adatbázis elemei között létezik-e
Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék
Számítógépes képelemzés 7. előadás Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Momentumok Momentum-alapú jellemzők Tömegközéppont Irányultáság 1 2 tan 2 1 2,0 1,1 0, 2 Befoglaló
Kódverifikáció gépi tanulással
Kódverifikáció gépi tanulással Szoftver verifikáció és validáció kiselőadás Hidasi Balázs 2013. 12. 12. Áttekintés Gépi tanuló módszerek áttekintése Kódverifikáció Motiváció Néhány megközelítés Fault Invariant
számított mező, számított tétel
számított mező, számított tétel A pivot táblában négy számított objektumot hozhatunk létre. Ebből kettőnek a képletét közvetlenül a felhasználó szerkeszti meg, a másik kettőét a program állítja össze.
Adatmodellezés. 1. Fogalmi modell
Adatmodellezés MODELL: a bonyolult (és időben változó) valóság leegyszerűsített mása, egy adott vizsgálat céljából. A modellben többnyire a vizsgálat szempontjából releváns jellemzőket (tulajdonságokat)
Statisztikai eljárások a mintafelismerésben és a gépi tanulásban
Statisztikai eljárások a mintafelismerésben és a gépi tanulásban Varga Domonkos (I.évf. PhD hallgató) 2014 május A prezentáció felépítése 1) Alapfogalmak 2) A gépi tanulás, mintafelismerés alkalmazási
Microsoft SQL Server telepítése
Microsoft SQL Server telepítése Az SQL Server a Microsoft adatbázis kiszolgáló megoldása Windows operációs rendszerekre. Az SQL Server 1.0 verziója 1989-ben jelent meg, amelyet tizenegy további verzió
Gyakori elemhalmazok és asszociációs szabályok
Gyakori elemhalmazok és asszociációs szabályok Nagyméretű adathalmazok kezelése Ilsinszki Balázs! 2014. 03. 10. Anyag felosztása 1. Gyakori elemhalmazok 2. Asszociációs szabályok Anyag felosztása 1. Gyakori
ALAPOK. 0 és 255 közé eső számértékek tárolására. Számértékek, például távolságok, pontszámok, darabszámok.
ADATBÁZIS-KEZELÉS ALAPOK Főbb Adattípusok: Igen/Nem Bájt Ez az adattípus logikai adatok tárolására alkalmas. A logikai adatok mindössze két értéket vehetnek fel. (Igen/Nem, Igaz/Hamis, Férfi/Nő, Fej/Írás
A WEBOPAC (online elektronikus katalógus) használata. 1. Keresés az adatbázisban (összetett):
A WEBOPAC (online elektronikus katalógus) használata A Corvina Integrált Könyvtári Rendszer webpac rendszere alkalmas arra, hogy a távoli felhasználók is tájékozódjanak az adott könyvtár adatbázisában.
Informatikai alapismeretek Földtudományi BSC számára
Informatikai alapismeretek Földtudományi BSC számára 2010-2011 Őszi félév Heizlerné Bakonyi Viktória HBV@ludens.elte.hu Titkosítás,hitelesítés Szimmetrikus DES 56 bites kulcs (kb. 1000 év) felcserél, helyettesít
Idősorok elemzése. Salánki Ágnes
Idősorok elemzése Salánki Ágnes salanki.agnes@gmail.com 2012.04.13. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék 1 Idősorok analízise Alapfogalmak Komponenselemzés
Access gyakorlati feladatok lépésről lépésre
Access gyakorlati feladatok lépésről lépésre 1. feladat: Hajómenetrend A balatoni hajómenetrend rendelkezésünkre áll a menetrend.txt állományban. Készítsen új adatbázist HAJO néven! A mellékelt adatállományt
Többfelhasználós és internetes térkép kezelés, megjelenítés
Többfelhasználós és internetes térkép kezelés, megjelenítés Többfelhasználós környezetek Egyszerű fájlszerveres megoldás, LAN (Novel, Windows hálózat) Egy fájl egyidejű módosítása több helyről nem lehetséges
Csima Judit április 9.
Osztályozókról még pár dolog Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2018. április 9. Csima Judit Osztályozókról még pár dolog 1 / 19 SVM (support vector machine) ez is egy
Takács Gábor mérnök informatikus, okl. mérnöktanár
Takács Gábor mérnök informatikus, okl. mérnöktanár takacsg@sze.hu http://rs1.sze.hu/~takacsg/ Big Data Definition Big Data is data that can t be stored or analyzed using traditional tools. Információ tartalom,
8. Pontmegfeleltetések
8. Pontmegfeleltetések Kató Zoltán Képfeldolgozás és Számítógépes Grafika tanszék SZTE (http://www.inf.u-szeged.hu/~kato/teaching/) 2 Példa: panoráma kép készítés 1. Jellemzőpontok detektálása mindkét
Témaválasztás, kutatási kérdések, kutatásmódszertan
Témaválasztás, kutatási kérdések, kutatásmódszertan Dr. Dernóczy-Polyák Adrienn PhD egyetemi adjunktus, MMT dernoczy@sze.hu A projekt címe: Széchenyi István Egyetem minőségi kutatói utánpótlás nevelésének
Asszociációs szabályok
Asszociációs szabályok Nikházy László Nagy adathalmazok kezelése 2010. március 10. Mi az értelme? A ö asszociációs szabály azt állítja, hogy azon vásárlói kosarak, amik tartalmaznak pelenkát, általában
Gyors sikerek adatbányászati módszerekkel
Gyors sikerek adatbányászati módszerekkel Kezdő adatbányászati workshop Petrócziné Huczman Zsuzsanna 2015.10.13. Bemutatkozás BME, műszaki informatika szak, adatbányászati szakirány Citibank Data Explorer
Oracle SQL Developer Data Modeler és a DW adatmodellezés. Gollnhofer Gábor Meta Consulting Kft.
Oracle SQL Developer Data Modeler és a DW adatmodellezés Gollnhofer Gábor Meta Consulting Kft. Oracle Information Management & Big Data Reference Architecture 2 Mi a NoSQL modellezés célja? Forrás: Insights
Fekete Csaba Csongor Üzleti intelligencia vezető Citibank ZRt.
Fekete Csaba Csongor Üzleti intelligencia vezető Citibank ZRt. Tartalom BI mérföld kövek Kezdeti architektúra és kontextus Lokális Adattárház Kialakítása CRM Evolúció Üzleti Intelligencia kiaknázó eszközök
Ügyfél- és címadatok feldolgozása Talenddel
Ügyfél- és címadatok feldolgozása Talenddel 2012.október 4. Dr. Miskolczi Mátyás, Kiss György A Stratisról röviden Jellemzők - Alapítva: 1998 - Tisztán magyar tulajdon - 50 tanácsadó - 140 ügyfél - 500+
7. Régió alapú szegmentálás
Digitális képek szegmentálása 7. Régió alapú szegmentálás Kató Zoltán http://www.cab.u-szeged.hu/~kato/segmentation/ Szegmentálási kritériumok Particionáljuk a képet az alábbi kritériumokat kielégítő régiókba
Fájlszervezés. Adatbázisok tervezése, megvalósítása és menedzselése
Fájlszervezés Adatbázisok tervezése, megvalósítása és menedzselése Célok: gyors lekérdezés, gyors adatmódosítás, minél kisebb tárolási terület. Kezdetek Nincs általánosan legjobb optimalizáció. Az egyik
Mesterséges Intelligencia MI
Mesterséges Intelligencia MI Valószínűségi hálók - következtetés Dobrowiecki Tadeusz Eredics Péter, és mások BME I.E. 437, 463-28-99 dobrowiecki@mit.bme.hu, http://www.mit.bme.hu/general/staff/tade Következtetés
Adatbázisok elmélete 12. előadás
Adatbázisok elmélete 12. előadás Katona Gyula Y. Budapesti Műszaki és Gazdaságtudományi Egyetem Számítástudományi Tsz. I. B. 137/b kiskat@cs.bme.hu http://www.cs.bme.hu/ kiskat 2005 ADATBÁZISOK ELMÉLETE
Google App Engine az Oktatásban 1.0. ügyvezető MattaKis Consulting http://www.mattakis.com
Google App Engine az Oktatásban Kis 1.0 Gergely ügyvezető MattaKis Consulting http://www.mattakis.com Bemutatkozás 1998-2002 között LME aktivista 2004-2007 Siemens PSE mobiltelefon szoftverfejlesztés,
KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / 2014.10.16. Mezei Ferenc üzletág-igazgató
KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / 2014.10.16. Mezei Ferenc üzletág-igazgató Hasonló, mégis más Ez se rossz amíg ezt ki nem próbáltad!
Hálózati elemzések az üzleti életben. Kovács Gyula Sixtep Kft.
Hálózati elemzések az üzleti életben Kovács Gyula Sixtep Kft. Hálózat kutatás rövid ismertetése Königsbergi hidak problémája Háttér: A probléma története, hogy a poroszországi Königsberg (most Kalinyingrád,
Vezetői információs rendszerek
Vezetői információs rendszerek Kiadott anyag: Vállalat és információk Elekes Edit, 2015. E-mail: elekes.edit@eng.unideb.hu Anyagok: eng.unideb.hu/userdir/vezetoi_inf_rd 1 A vállalat, mint információs rendszer
IBM SPSS Modeler 18.2 Újdonságok
IBM SPSS Modeler 18.2 Újdonságok 1 2 Új, modern megjelenés Vizualizáció fejlesztése Újabb algoritmusok (Python, Spark alapú) View Data, t-sne, e-plot GMM, HDBSCAN, KDE, Isotonic-Regression 3 Új, modern
Bevezetés Standard 1 vállalatos feladatok Standard több vállalatos feladatok 2017/ Szegedi Tudományegyetem Informatikai Intézet
Operációkutatás I. 2017/2018-2. Szegedi Tudományegyetem Informatikai Intézet Számítógépes Optimalizálás Tanszék 10. Előadás Vállalatelhelyezés Vállalatelhelyezés Amikor egy új telephelyet kell nyitni,
Adatbázismodellek. 1. ábra Hierarchikus modell
Eddig az adatbázisokkal általános szempontból foglalkoztunk: mire valók, milyen elemekből épülnek fel. Ennek során tisztáztuk, hogy létezik az adatbázis fogalmi modellje (adatbázisterv), amely az egyedek,
Számítógépes döntéstámogatás. Genetikus algoritmusok
BLSZM-10 p. 1/18 Számítógépes döntéstámogatás Genetikus algoritmusok Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu BLSZM-10 p. 2/18 Bevezetés 1950-60-as
Adatbázis-kezelés. alapfogalmak
Adatbázis-kezelés alapfogalmak Témakörök Alapfogalmak Adatmodellek Relációalgebra Normalizálás VÉGE Adatbázis-kezelő rendszer Database Management System - DBMS Integrált programcsomag, melynek funkciói:
Random Forests - Véletlen erdők
Random Forests - Véletlen erdők Szabó Adrienn Adatbányászat és Webes Keresés Kutatócsoport 2010 Tartalom Fő forrás: Leo Breiman: Random Forests Machine Learning, 45, 5-32, 2001 Alapok Döntési fa Véletlen
Klaszterezés, 2. rész
Klaszterezés, 2. rész Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 208. április 6. Csima Judit Klaszterezés, 2. rész / 29 Hierarchikus klaszterezés egymásba ágyazott klasztereket
DW 9. előadás DW tervezése, DW-projekt
DW 9. előadás DW tervezése, DW-projekt Követelmény felmérés DW séma tervezése Betöltési modul tervezése Fizikai DW tervezése OLAP felület tervezése Hardver kiépítése Implementáció Tesztelés, bevezetés
(Independence, dependence, random variables)
Két valószínűségi változó együttes vizsgálata Feltételes eloszlások Két diszkrét változó együttes eloszlása a lehetséges értékpárok és a hozzájuk tartozó valószínűségek (táblázat) Példa: Egy urna 3 fehér,