Adatta rha zak, adatba nya szati technolo gia k

Méret: px
Mutatás kezdődik a ... oldaltól:

Download "Adatta rha zak, adatba nya szati technolo gia k"

Átírás

1 Adatta rha zak, adatba nya szati technolo gia k

2 Tartalom 1. Az adatbányászat, tudásfeltárás feladata, a tudásfeltárása folyamata, példákkal magyarázva Az adatbányászat Tudásfeltárás feladata, folyamata Mi nem adatbányászat? Miből áll a web-adatokon végzett tudásfeltárás? Minden kibányászott minta érdekes? Próbáljuk mérni a tudás érdekességét és csak érdekes tudást bányásszunk ki az adatokból Az adattárházak építése, architektúrák, példákkal magyarázva Adattárházak építése Tervezési folyamat Az adattárház tervezési folyamatának tipikus lépései Adattárház építő segédeszközök Adattárház architektúrák Az adatkockák szerepe, műveletei, példákkal magyarázva Adatkockák szerepe Adatkocka Adatkockák műveletei Az asszociációs szabályok előállítása, példákkal magyarázva Feladat leírása Példa: Az apriori eljárás: FP-Tree Az osztályozás feladata, a döntési fák előállítása, példákkal magyarázva Osztályozás feladata Döntési fa előállítása A klaszterezés feladata, két klaszterező algoritmus, példákkal magyarázva Klaszterezés feladata Két klaszterező algoritmus A k-közép klaszterezés Összevonó klaszterezési algoritmus Szövegbányászati módszerek

3 7.1 Látens szemantikai indexelés Kulcsszó alapú asszociációs analízis (keyword based association analysis) Szöveg klasszifikálása Dokumentumok klaszterezése Vektortér modell Entity resolution Record Linkage model (1969) Hogyan kötjük össze a halmazokat Comparison vector összehasonlítás mi alapján történjen Duplicate Record Detection mit kezdjünk a duplikátumokkal String matching / field similarity mely mezők egyeznek meg? Generic Entity Resolution Relational Clustering Ügyfeles példa További példák: Trendek, nyitott kérdések

4 1. Az adatbányászat, tudásfeltárás feladata, a tudásfeltárása folyamata, példákkal magyarázva.. forrás: Az adatbányászat Miért kell adatbányászat? Adatrobbanás zajlik: terabájtokról áttérünk a petabájtokra. Nagy adatgyűjtemények keletkeznek és érhetők el. Nagy mennyiségű nyers adat keletkezik a következő területeken: automatikus adatgyűjtő mérőeszközök, adatbázisrendszerek, Web, közösségi hálók, számítógépes ügyfélszolgálatok Üzleti élet: Web, e-kereskedelem, pénzügyi tranzakciók, tőzsde Tudomány: távérzékelő berendezések, bioinformatika, tudományos szimulációk Közösségi és mindennapos élet: Facebook, hírek, digitális kamerák, YouTube Ellep bennünket a rengeteg adat, bár mi valójában inkább tudásra vágyunk! A szükség szüli az új technológiát: az adatbányászat a nagy mennyiségű adatok automatikus elemzése ig csak elméleti tudomány. Az 1950-es évektől kezdve sok tudományág számítógépes részterületet kifejlesztett től már rengeteg szimuláció és tudományos eszköz generál nagy mennyiségű feldolgozandó adatot. Manapság már több petabájtnyi adatot tudunk olcsón tárolni és kezelni. Az Internet és a Grid rendszerek révén ezeket az adathalmazokat könnyen el lehet érni. A tudományos információkezelési, információgyűjtési, szervezési, lekérdezési, megjelenítési feladatok száma az adatmennyiség arányában növekszik. (Minél több az adat, annál többféle feldolgozásra vagyunk kíváncsiak.) Az adatbányászat napjaink egyik fő kihívása! 1.2 Tudásfeltárás feladata, folyamata Az adatbányászat (tudás kinyerése az adatokból): érdekes (nem triviális, implicit, eddig nem ismert és potenciálisan hasznos) mintákat (azaz tudást) akarunk kinyerni a nagyon nagy adathalmazokból lehetőleg automatikusan, és minél hatékonyabban Mi nem adatbányászat? Egyszerű keresések, lekérdezések végrehajtása (Deduktív) szakértői rendszerek 4

5 A tudásfeltárás folyamata Miből áll a web-adatokon végzett tudásfeltárás? Adattisztítás Több forrásból származó adatok integrációja Az adatokból adattárház építése Adatkockák készítése Az adatbányászathoz szükséges adatok kiválasztása Adatbányászat elvégzése Az eredményekből jelentések készítése, megjelenítése A talált minták, összefüggések (tudás) tárolása a tudásbázisban Minden kibányászott minta érdekes? Kimerítő kereséssel túl sok mintát kaphatunk Van, ami csak bizonyos helyre, időre, dimenzióra jellemző, vagyis nem elég általános Van, ami csak múló összefüggés, az aktuális adatokra véletlenül teljesül Próbáljuk mérni a tudás érdekességét és csak érdekes tudást bányásszunk ki az adatokból milyen tudás kell: leíró vagy előrejelző milyen eseteket fed le, lehetőleg minél többet mennyire tipikus vagy újszerű a minta (esőben viszünk ernyőt: érdektelen, esőben levisszük a vízilovat sétálni: érdekes) mennyire pontos az összefüggés a lefedett esetekben mennyire időszerű (mindenki vízilovat tart otthon) 5

6 2. Az adattárházak építése, architektúrák, példákkal magyarázva. forrás: Mi az adattárház? Sokféleképpen definiálják, nincs egyértelmű meghatározás. Olyan döntéstámogató adatbázis, amelyet a szervezet működéséhez szükséges adatbázisától elkülönítve üzemeltetnek. Egyesített, történeti (időtől függő) adatok elemzését, információ feldolgozását támogató platform. Az adattárház olyan témaspecifikus, integrált, időfüggő, fizikailag is tárolt adatgyűjtemény, amely a menedzsment döntéshozó folyamataihoz szükséges lehet. W. H. Inmon Témaspecifikus: Nem a napi működéshez szükséges folyamatokkal, tranzakciós folyamatokkal foglalkozunk, hanem a modellezéssel, a döntéshozók számára hasznos adatelemzésekkel. Egy speciális témakörhöz szükséges adathalmaz egyszerű, tömör reprezentálása. Kihagyjuk azokat az adatokat, amelyek nem kellenek a döntéshozáshoz. Integráltság: Többféle, heterogén adatforrás adataiból készítjük el az adattárházat. Integrációs technikákat és adattisztítást kell alkalmaznunk. Időfüggés: Általában hosszabb időtartamra (akár évekre visszamenőleg) vizsgáljuk az adatokat. Az adattárház kulcsai (azonosítói) mindig tartalmaznak időpontot, explicit vagy implicit formában, a működési adatbázisban nincs mindig időpont megadva. 2.1 Adattárházak építése Négyféle szempont az adattárház tervezéséhez 1. Fentről-le az adattárházhoz szükséges lényeges információ kiválasztása (mire van és mire lehet majd szükség) 2. Adatforrás mit tárolunk a működési rendszereinkben 3. Adattárház milyen tény és dimenziótáblákat tárolunk az adattárházban 4. Üzlet a végfelhasználó milyen célra használhatja majd az adatokat Tervezési folyamat Fentről le, vagy lentről fel, vagy kombinálva: Fentről le (Top-down): Gondosan, fokozatosan részletezve mindent megtervezünk (időigényes) Lentről fel (Bottom-up): Próbálgatunk, prototípusokat adunk (gyors) 6

7 Szoftvertervezési szempontból Vízesés modell (Waterfall): strukturált, szisztematikus elemzés, mielőtt a következő lépést megtesszük Spirális modell (Spiral): gyorsan, egyre több funkcionalitást teszünk a készülő rendszerbe Az adattárház tervezési folyamatának tipikus lépései Határozzuk meg az üzleti folyamatokat, amelyekben modellezzünk például a rendeléseket, számlákat Határozzuk meg az üzleti folyamatok atomi adatszintjét Határozzuk meg a tényrekordokhoz tartozó dimenziókat Határozzuk meg a rekordokban szereplő mértékeket Adattárház építő segédeszközök Adatgyűjtéshez több, heterogén, akár külső adatforrásból összegyűjti, kiválasztja a szükséges adatokat Adattisztításhoz adathibákat kijelzi, ha lehet ki is javítja Adattranszformációhoz az örökölt adatbázisokból az adatokat az adattárház formátumára transzformálja Betöltéshez rendez, összesít, egyesít, nézeteket készít, ellenőrzi az integritási feltételeket, indexeket készít, particionál Frissítéshez időközönként az új adatokat, változásokat betölti az adattárházba 7

8 2.2 Adattárház architektúrák Három típusa van: 1. Vállalati adattárház (Enterprise warehouse) a teljes szervezet összes fontos információját tartalmazza, amely bármilyen témájú elemzéshez valaha is kellhet 2. Adatpiac (Data Mart) egy adott témához (például marketing) szükséges adatok gyűjteménye külön is megépíthetjük, de lehet része a vállalati adattárháznak is 3. Virtuális adattárház (Virtual warehouse) A működési adatbázisra építünk nézeteket Egyes összesítő nézeteket materializálunk Adattárházak építésének diagramja 8

9 3. Az adatkockák szerepe, műveletei, példákkal magyarázva. forrás: Adatkockák szerepe Az adattárház többdimenziós adatmodellt valósít meg, tipikusan adatkockákat használ. Egy adatkocka, mint például az eladások, esetén az adatokat több dimenzióban nézhetjük, modellezhetjük: Dimenziótáblákat használunk: cikk(cikk_név, márka, típus), vagy idő(nap, hét, hónap, negyedév, év) A ténytábla tartalmazza az értékeket, mértékeket (például eladott_mennyiség_dollárban) és kulcsokat a megfelelő dimenziótáblákhoz, amely alapján a dimenzió részleteit tudjuk a tényekhez hozzákapcsolni Az n-dimenziós (n-d) alapkockát alapkuboidnak (alaptéglának) hívjuk. Ez a legrészletezettebb nézete a tényeknek. A legfelső szintű 0-D kuboid a teljes összesítést tartalmazza, (függetlenül helytől, időtől, egyéb dimenzióktól). Ez az apex kuboid. A kuboidok hálóját hívjuk adatkockának. Kuboidok hálója 9

10 3.2 Adatkocka Adattárházak modelljei: dimenziók és mértékek Csillagséma: Középen áll a ténytábla, ami dimenziótáblákkal van összekapcsolva. Csillagséma Hópehelyséma: A csillagséma finomítása, a dimenziótáblákat dekomponáljuk normálformájú kisebb dimenziótáblákra. Hópehely 10

11 Csillagkép vagy galaxisséma: Több ténytábla közös dimenziótáblákat használ. Galaxisséma 3.3 Adatkockák műveletei 1. Felgörgetés - Roll up (drill-up): összesítjük (pl. összegezzük) az adatokat a hierarchián feljebb lépve vagy a dimenziót elhagyva 11

12 2. Lefúrás - Drill down (roll down): kirészletezünk adatokat (a felgörgetés fordítottja) alacsonyabb szintű összesítést veszünk, részletezzük az adatokat, vagy bevezetünk egy új dimenziót 3. Szeletelés és kockázás - Slice and dice: vetítés és kiválasztás Szeletelés 12

13 4. Forgatás (pivotálás) - Pivot (rotate): elforgatjuk a kockát, vagy a vizualizációját, a 3D-t alkotó 2D-s síkszeletek sorozatát átrendezzük 5. Egyéb műveletek a. Keresztülfúrás - drill across: egynél több ténytáblában fúrunk le b. Átfúrás -drill through: a lefúrást SQL utasításokkal a kockában a legrészletezettebb adatokig, azaz az alap relációs táblákig folytatjuk 13

14 4. Az asszociációs szabályok előállítása, példákkal magyarázva forrás: 49.dia 4.1 Feladat leírása Feladatunk az adathalmazban előforduló gyakori minták felderítése. Az ilyen eljárások használhatóak például vásárlói kosarak vizsgáltál, ahol az együtt gyakran megvásárolt termékeket keressük. Ez az adatok feldolgozásának szempontjából is érdekes, hiszen egy adathalmazhoz tartozó gyakori minták sokat elmondanak annak tulajdonságairól. Legyenek X = {x 1,, x k } és Y = {y 1,, y k } cikkek halmaza. A feladat keresni olyan X Y szabályokat, melyek megfelelnek bizonyos support és confidence követelményeknek. Support=S annak a valószínűsége, hogy egy kosár tartalmazza X Y-t Confidence=C feltételes valószínűsége annak, hogy ha egy kosár tartalmazza X-et akkor Y-t is 4.2 Példa: n cikk esetén 2 n darab részhalmazt kéne megvizsgálni, ami sok. Bemutatjuk az apriori eljárást ami downward closure tulajdonságot tételezi fel az adathalmazról. Ez alapján a gyakori kosarak részkosarai is gyakoriak. Tehát pl. ha sör és pelenka együtt gyakran előfordul a kosarakban, akkor sör is gyakran előfordul. Ebből kifolyólag az apriori alapötlete az, hogy ha egy X cikk halmaz nem gyakori, akkor már nem kell vizsgálni az olyan cikk halmazokat melyek tartalmazzák X-et. Ezt hívjuk apriori pruning principle-nek. 4.3 Az apriori eljárás: 1. Fussunk végig az adathalmazon és keressük meg a gyakori egy elemű részhalmazokat. (tehát a gyakori cikkeket) k:=1. 2. Generáljunk k+1 hosszú részhalmazokat a gyakori k hosszú részhalmazokból. k:=k+1 3. Nézzük meg hogy az előző pontban generált részhalmazok mennyire gyakoriak. Ha nem gyakoriak hagyjuk el őket. 4. Ha már egy generált részhalmaz sem gyakori, akkor leállunk, egyébként vissza a 2-es pontra. 14

15 Hogyan generáljunk minden körben lehetséges gyakori halmaz jelölteket? Első lépés: self-joining az L k -ban. L k az eddigi gyakori k cikket tartalmazó halmazok! fontos, hogy ez rendezve van. ((lexikografikusan, a példánál érthetőbb)) Példa: Második lépés: pruning (vágás). Eltüntetjük azokat a generált halmazokat, melyek tartalmaznak olyan k méretű részhalmazt, ami nem szerepel L k -ban. Hogyan számoljuk ki a jelöltek Supportját? (05-16,17.old) 15

16 Általános problémák a gyakori minták keresésénél: Az adathalmazon többször végig kell menni (erre megoldás a DIC (23.old)) Egy körben rengeteg jelölt generálódik (erre megoldás a DHP eljárás (21.old)) Support körönkénti kiszámolása költséges 4.4 FP-Tree A diákban szó van egy olyan eljárásról, ami FP-Tree-ket épít 16

17 5. Az osztályozás feladata, a döntési fák előállítása, példákkal magyarázva. forrás: Osztályozás feladata Klasszifikáláskor meg akarjuk jósolni, hogy az egyes rekordok milyen osztályba tartoznak. A modellt egy tanuló adathalmaz alapján állítjuk be, majd ezt tipikusan egy másik tesztelő adathalmazzal értékeljük ki. Az ilyen eljárások sok területen felhasználhatók, pl hiteligénylés kiértékelésére, előzetes orvosi diagnózis esetén, célzott marketing esetén. A modell konstrukciója. Modellt csak egy már kész, és pontos adathalmazon tudjuk megkonstruálni. Jellemzően a tanítóhalmaz rekordjainak egy oszlopában van a rekordhoz rendelt osztály. A modellt magát reprezentálhatjuk szabályok sorozatával, döntési fával, vagy valamilyen matematikai formulával. A modell alkalmazása. A kész modellt érdemes először egy (a tanuló adathalmaztól független) teszt adathalmazon vizsgálni. Persze a tesztadathalmaz rekordjainak osztályait is pontosan kell ismernünk az eredmény kiértékeléséhez. Ha elég pontos válaszokat ad a modell, akkor ráengedhetjük más adatokra is. Adat tisztítás: A tanító adathalmazon, célszerű tisztítást végezni a modell konstrukciója előtt. Ide tartozik az üres értékek kezelése, valamint a zajcsökkentés, a redundáns/irreleváns attribútumok törlése, valamint az egyes értékek normalizálása. 5.2 Döntési fa előállítása A fa konstrukciója: (felülről lefelé, rekurzív oszd meg és uralkodj) Kezdetben a tanulóhalmaz minden értéke a gyökérben van. Minden lépésben az egyes csomópontokat kettéválasztjuk bizonyos attribútumok alapján. Az attribútum választás alapja általában valamilyen heurisztika vagy statisztikai mérték(az informacion gain lesz később) A fa építésével leállunk, ha az egyes csomópontokhoz tartozó rekordok már egy osztályba esnek, vagy ha már nincs attribútum, ami alapján vághatnánk, vagy nincs a csomóponthoz érték rendelve. (*Persze gondolom gyakorlatban már egy adott szint után, vagy egy minimális gain alatt leállunk). Végül megnézzük, hogy az egyes levelek milyen osztályhoz tartozó rekordokból tartalmaznak a legtöbbet ( és az lesz a levélhez tartozó osztály). Attribútum választás information gain alapján: Azzal az attribútummal vágunk, mellyel a legnagyobb az information gain Legyen p i annak a valószínűsége, hogy egy D rekordhalmazhoz tartozó rekord C i osztályba tartozik, és ezt becsüljük így: C i, D / D m Ekkor a várható információ(entrópia): Info(D) pi log2(pi) v i1 D j Szükséges információ, hogy A attribútummal vágjunk D-t v részre: Info A(D) I(D j) j1 D Nyert információ az A-alapján történt vágással: Gain(A) Info(D) Info (D) A 17

18 Példa (azt keressük, hogy vesz-e pc-t): A példában a kor szerint vágunk, mert arra lesz a legnagyobb a gain. Mi van ha A attr. folytonos? Keressük a legjobb vágási pontot. Rendezzük az A-ban előforduló értékeket növekvő sorrendben (*Gondolom a csomóban előforduló értékeket). A vágási pont tipikusan két a,b érték között lesz (a+b)/2. Azt a split-point-ot vegyük, mellyel elvágva az adathalmazt annak várható információja minimális lesz old A Gain(A) érték használatával, az eljárás hajlamos azokat az attribútumokat előnyben részesíteni, melyeknek sok értéke van. Erre a C4.5 kínál megoldást, ami normalizálja a Gain-t. Vagyis legyen SplitInfo A (D) v D j log ( j1 D D és így GainRatio(A)=Gain(A)/SplitInfo(A). Mit az előző esethez hasonlóan, azt az A-t választjuk melyre legnagyobb a GainRatio(A). Overfitting: a modell hajlamos túltanulni a tanuló adathalmazt. Sok zajra, kiugró értékre utalhat az, ha a fa túlzottan szerteágazik. Megoldás, ha csak egy adott jóság (gain) fölött bontjuk a csomópontokat, de ezt nehéz előre belőni. Másik ötlet, ha felépítjük a (túlságosan nagy) fát, és ezt lenyessük. Az ilyen vágott fák hatékonyságát célszerű nem a tanuló adathalmazon megmérni. 2 D j ) 18

19 6. A klaszterezés feladata, két klaszterező algoritmus, példákkal magyarázva. forrás: fordítások: Klaszterezés feladata Mi a klaszterezés? Objektumok halmazában keresünk olyan csoportokat, melynek tagjai egymáshoz hasonlóak, ugyanakkor más csoportokban lévő tagok különböznek Klaszterezés alkalmazásai: nagy adatállományok csökkentése, az adathalmaz jobb megértése, például a böngészésnél kapott kapcsolódó dokumentumok csoportjai, hasonló funkcionalitással bíró gének és fehérjék csoportjai, hasonló ármozgású részvények csoportjai. Hasonlóság metrikája: az objektumok attribútumaik közti hasonlóságra általában valamilyen d(i,j) metrikát adunk meg. Ezek különböző típusú változókra nagyon különbözhet (boolean,number,categorical). A klaszterek jóságát tipikusan máshogy mérjük, és egy ilyen mérték megfogalmazása nehéz. Az adatok típusa lehet: Interval-valued variables: klaszterezés előtt az ilyen jó normalizálni/standardizálni (vagyis az egyes értékekből kivonjuk a mintaátlagot, majd ezt osztjuk a szórással (most nem a szórásnégyzet gyökével, hanem a mean absolute deviation-nel)). Ezekre sokféle távolságot ráhúzhatunk, pl Euklideszi távolság, MInkowski távolság, Manhattan távolság (07 prezi, 14. oldal) Binary variables: a változónak két állapota lehet. egy lehetséges távolság, ha a nem egyező változók számát elosztjuk az összes változó számával. Nominal values: előzőhöz hasonló, de 2-nél több állapota lehet. Egy lehetséges távolság, ha a nem egyező változók számát oszjuk az összesel. Ordinal value: lehet diszkrét vagy folytonos, de az értékekre van rendezés(rank). Az internal valued variables típushoz tartozó hasonlóságok használhatók, ha a változókat rank szerint a [0,1] intervallumba képezzük. Ratio scaled variable: nemlineáris skálán vett értékek, távolság az előzőhöz hasonlóan visszavezethető az interval-valued variables típusra, de előtte az érték logaritmusát kell venni. (07-dia 20.oldal) Ha az adatbázisban több féle változó van, akkor a különböző típusok súlyozott kombinációját vesszük a hasonlóság kiszámításakor. Vector objects: 19

20 6.2 Két klaszterező algoritmus A klaszterezés két típusa: Felosztó klaszterezés: Az objektumok felosztása nem átfedő részhalmazokra (klaszterekre) úgy, hogy minden objektum pontosan egy részhalmazban szerepelhet. Hierarchikus klaszterezés: Egymásba ágyazott klaszterek egy hierarchikus fába szervezett halmaza A k-közép klaszterezés k-közép klaszterezés: Ez egy felosztó klaszterezés. Minden klasztert annak középpontja (centroidja) reprezentál. A pontokat ahhoz a klaszterhez rendeljük, melynek középpontjához a legközelebb van. Előre meg kell adni, hogy hány k darab klaszterre szeretnénk bontani a halmazt. Az eljárás: Válasszunk ki k darab pontot (általában random) Hozzunk létre k klasztert a pontoknak a legközelebbi középpontokhoz való hozzárendelésével. Számoljuk újra a középpontot minden klaszternél. Ha a középpontok megváltoztak vissza 2-esre 20

21 Megjegyzések: a középpont általában a klaszterbeli pontok átlaga Az adatokat futtatás előtt célszerű normalizálni A K-közép módszer konvergál a fenti általános hasonlósági mértékekre. A konvergencia legnagyobb része az első néhány iterációban megtörténik. Komplexitás: O( n * K * I * d ) n = pontok száma, K = klaszterek száma, I = iterációk száma, d = attribútumok száma Problémák a k-közép módszerrel: Kiugró értékekre érzékeny (k-medoid orvosolja, old) Kezdeti középpontok problémája (Ha adott K,,igazi klaszter, akkor annak esélye, hogy minden klaszterből választunk középpontot kicsi. Megoldására vannak módszerek) Az alap k-közép üres klasztereket is adhat Előre meg kell adni a klaszterek számát Összevonó klaszterezési algoritmus Összevonó klaszterezési algoritmus: Hierarchikus klaszterezés, Egymásba ágyazott klaszterek egy hierarchikus fába szervezett halmazát állítja elő (ábrázolására dendrogramot használunk. a függőleges tengely adja meg hogy mi volt a két összevont klaszter távolsága). 21

22 Hasonlósági vagy távolság mátrixot használ. 1. Számoljuk ki a közelségi mátrixot. 2. Legyen minden egyes pont egy önálló klaszter. 3. Vonjuk össze a két legközelebbi klasztert. 4. Frissítsük a közelségi mátrixot. 5. Ismételjük a 3.-tól amíg csak egy klaszter nem marad. Megjegyzések: A klaszterek közötti távolság definíciójának különböző megközelítései más-más algoritmusokhoz vezetnek. A hasonlóság mérése lehet pl: MIN, MAX, Csoport-átlag, Középpontok közötti távolságok Nem kell feltételezni semmilyen konkrét klaszter-számot előre. Tárigény: O(N 2 ) tárigény mivel a közelségi mátrixot használja. Időigény: O(N 3 ) időigény az esetek többségében (N lépést kell végrehajtani és minden egyes lépésben egy N2 méretű közelségi mátrixot kell frissíteni és kell benne keresni.) Problémák: Ha egyszer döntést hozunk arról, hogy két klasztert összevonunk, akkor azt már nem lehet meg nem történtté tenni. Nincs célfüggvény, melyet közvetlenül minimalizálunk. Érzékenység a hibára és a kiugró adatokra Hajlam nagy klaszterek szétvágására DBSCAN: egy sűrűség alapú algoritmus Sűrűség = egy rögzített sugáron (Eps) belüli pontok száma Egy pont belső pont ha egy előírtnál (MinPts) több pont van Eps sugarú környezetében. (Ezek lesznek egy klaszter belsejének pontjai.) A határ pontnak az Eps sugarú környezetben MinPts-nél kevesebb pontja van, azonban van belső pont ebben a környezetben. A zajos pont az összes olyan pont, amelyik nem belső illetve határ pont. 22

23 23

24 Máshogy leírva (először töröljük a zajokat majd): Előnyök: ellenálló zajjal szemben Különböző méretű és alakú klasztereket egyaránt tud kezelni Hátrányok: Változó sűrűségű halmazoknál gondok Magas dimenziójú adatoknál gondok (OPTICS) Ez a módszer segít egy jó eps, és Minpts eltalálására. 24

25 7. Szövegbányászati módszerek. Wiki alapján a szövegbányászat: A szövegbányászat (angolul text mining) a strukturálatlan vagy kis mértékben strukturált szöveges állományokból történő ismeret kinyerésének tudománya; olyan különböző dokumentumforrásokból származó szöveges ismeretek és információk gépi intelligenciával történő kigyűjtése és reprezentációja, amely a feldolgozás előtt rejtve és feltáratlanul maradt az elemző előtt. Az egyszerű keresésnél jóval többet hivatott nyújtani a szövegbányászat. Míg szöveges keresés esetében meglévő információkra kívánunk kis időbefektetéssel rátalálni (nagy relevanciájú találati eredmények által), addig a szövegbányászat során olyan tudásra, ismeretekre is szert kívánunk tenni, ami explicite nem volt benne a rendelkezésre álló dokumentumállományban (korpuszban), csak indirekt módon, rejtve, látensen. Bár a teljes szövegű keresés is a szövegbányászat része, a szövegbányászat a keresésnél jóval többet jelent, hasonlóan, ahogy az adatbányászat is jóval többet jelent az egyszerű adatkeresésnél. A szövegbányászat nagy mértékben épít az adatbányászat eredményeire, ahol elsősorban számszerű adatok feldolgozása történik intelligens gépi módszerekkel. Az adatbányászat azon eredményeit, amelyek minták felismerésére, adatreprezentációra, előrejelzésre, statisztikai összefüggések kimutatására vonatkoznak, a szövegbányászat is nagymértékben hasznosítja. A különbség abban mutatkozik, hogy míg adatbányászat esetében jól strukturált számszerű adatokkal dolgozunk, addig a szövegbányászatban strukturálatlan szöveges állományok képezik a kiindulási alapot. Dokumentumokat akarunk feldolgozni, osztályozni. 7.1 Látens szemantikai indexelés Forrás: Látens szemantikai Indexelés ütőkártya vagy hisztéria a Latent Semantic Indexing (LSI) alatt olyan technológiát értünk, amelyet vezető keresőmotor üzemeltetők köztük a Google vezettek be és amelyek segítségével a keresőmotorok képesek a szövegtartalmakat szemantikailag felismerni és értelmezni. Az LSI lehetővé teszi, hogy lokalizálják egy kulcsszó szinonimáit és rokon fogalmait, és az olyan szövegeket, amelyekben ilyenek előfordulnak, relevánsnak soroljanak be még akkor is, ha maga a keresőfogalom nem fordul elő a szövegben. A Latent Semantic Indexing-gel kapcsolatban egy ideje számos híresztelés terjeng, bár ezek részben hisztériák. Vegyük szemügyre a Latent Semantic Indexing fejlődését az ismertté válása óta Míg a keresőmotorok korábban csak a meglévő kulcsszavakat elemezték, a szemantikai technológia tovább megy egy lépéssel. Itt még egy megfelelő dokumentum környezetét is analizálják, azaz a keresőmotorok az adott szöveget összehasonlítják olyan dokumentumokkal, amelyek azonos vagy hasonló szavakat és szócsoportokat tartalmaznak. Ennek során a 25

26 technológia azokat a szövegeket sorolja be szemantikailag rokonnak, amelyek sok hasonló szót és szósort használnak. Ha csak kevés szó egyezik, akkor a szöveg szemantikailag távoli besorolást kap, következésképp az adott keresőfogalom szempontjából nem releváns. A gyakorlatban ez a következőt jelenti: ha egy keresőmotor Latent Semantic Indexing-et használ, akkor például a Saddam Hussein keresőfogalomra egyrészt olyan keresési eredményeket ad, amelyek összefüggésben állnak Saddam Hussein-nel és az Öböl-háborúval, az iraki háborúval vagy Kuvaittal. Másrészt azonban olyan tartalmakat is megjelenít, amelyeknél az adott keresőfogalom sehol sem fordul elő a szövegben. A keresőmotor a szöveges tartalmak alapján tudja, hogy mely eredmények lehetnek mégis relevánsak. Míg ennek alapján nagyon is van értelme rokon fogalmakat integrálni webes szövegekbe, egy weboldal üzemeltetőjének e technológia tekintetében mégis legfőképp a bejövő linkek illetve a megfelelő linkszövegek használatára kell ügyelnie. Ma már nem titok, hogy a bejövő linkek szövege nagymértékben befolyásolja a honlap helyezését. Ebből a szempontból tehát kerülni kellene a mindig azonos linkszövegek használatát. Különben gyorsan kelthetjük azt a benyomást, hogy az oldal túloptimalizált. Az ilyesmit a keresőmotorok nagyon nem szeretik. Ennek következménye lehet például úgynevezett over-optimization-penalties, ami a szembetűnően túltupírozott honlapok büntetése. A siker kulcsa itt a lehetőleg természetesnek ható linkszövegekben van. Nincs ugyan kész recept, vizsgálatok azonban azt mutatták, hogy sok top-helyezésű oldal esetében a kulcsszavaik körülbelül a beérkező linkek 30-40%-ában fordulnak elő. A linkszövegekben szinonimák és rokon fogalmak használatával tovább növelhető a beérkező linkek relevanciája, anélkül, hogy természetellenesnek hatnának. A keresőmotorok megértik ezeket az alternatív fogalmakat és az Ön oldala ennek megfelelő helyezést kap az adott keresőfogalmak szerint. Annak kiderítésére, mely fogalmakat tekinti a Google szinonimának, használhatjuk a szinonima-keresőparancsot (~ / Alt Gr + ). Ha például az autó fogalmára keres szinonimákat, egyszerűen a következő keresőfogalmat adja be a Google-ban: ~autó Így megkapja azokat az oldalakat, amelyek a keresőfogalommal rokon kulcsszavakat tartalmaznak, például autós-hírek, lízing, cars A rokon kifejezések használatával megerősítheti a főfogalmait, ami jobb helyezést eredményez gyakori ismételgetések és az ezekhez kapcsolódó büntetés veszélye nélkül. Kérem, ügyeljen arra: amíg igyekszik lehetőleg természetesen írni, és a keresőmotorok helyett mindig az olvasóira van inkább tekintettel, minden valószínűség szerint úgyis számtalan LSI kulcsszót használ. Így ennek a témának nem kell különösebb plusz figyelmet szentelnie. Összegzés a Latent Semantic Indexing tekintetében: használjon különféle kulcsszavakat, beleértve a szinonimákat és rokon fogalmakat, különösen a linkszövegekben. Ezáltal az oldala természetesebbnek hat. Ez pedig segíti abban, hogy helyezést kapjon a rokon fogalmak szerint is még akkor is, ha azok épp nem fordulnak elő az oldalán. Ráadásul ezáltal javíthatja a főfogalmai szerinti helyezését is. 26

27 7.2 Kulcsszó alapú asszociációs analízis (keyword based association analysis) A cél megtalálni olyan kulcsszavakat/kifejezéseket, melyek gyakran fordulnak elő együtt, majd megtalálni az asszociációs illetve korrelációs kapcsolatot közöttük. Az asszociációs analízis szakaszai: A szöveg elő feldolgozása (parsing, stemming(pl drug=drugs=drugged), removing stop words(pl. a, the of, always, with), etc.) Már bevált asszociációs szabályokat kereső eljárások használata. Kezeljük a dokumentumokat kosarakként. A cikkek pedig legyenek a kulcsszavak, amiket tartalmazhatnak a kosarak.?term level association mining:? nem kell embernek felügyelni, csökken az értelmetlen eredmények száma és gyorsabb is lesz 7.3 Szöveg klasszifikálása Motiváció: nagyon sok online dokumentumot szeretnénk automatikusan klasszifikálni/osztályozni. (weblapok, ) A folyamat pontokba szedve: Adatok elő feldolgozása Tanuló és teszt adatok előállítása A klasszifikációs modell elkészítése (pl. valamilyen tanult módon) A modell kiértékelése A modellt ráengedjük új szövegekre Nehézséget jelent, hogy a szöveg nem olyan jól strukturált mint egy relációs adatbázis 7.4 Dokumentumok klaszterezése Motiváció: A szövegek automatikus csoportosítása tartalmuk alapján, futásidő alatt, tanuló adathalmaz nélkül. A folyamat: Adat elő feldolgozás (remove stop words, stem, feature extraction, lexical analysis, etc.) Hierarchikus klaszterezés/modell based klaszterezés 27

28 7.5 Vektortér modell A dokumentumot egy term vektorral reprezentáljuk. A term lehet szó vagy kifejezés. Minden term egy dimenziót definiál, így n term kifeszít egy n dimenziós vektorteret. A vektorokat súlyozzuk aszerint, hogy az egyes termek mennyire fontosak. A dokumentumot az azt reprezentáló vektora alapján soroljuk be, vektorhasonlóság alapján. Hogyan súlyozzunk? TF súlyozás: minél gyakrabban fordul elő a t term annál közelebb van a témához. TF=f(t,d) megadja, hogy hányszor fordul elő a t term a d dokumentumban. Mivel a dokumentum hossza torzítja az eredményt érdemes normalizálni. IDF súlyozás: minél ritkábban szerepel a dokumentumok összeségében, annál diszkriminatív. TF-IDF súlyozás: a felső kettő kombinációja weight(t,d)=tf(t,d)*idf(t) Hogyan mérjük a hasonlóságot? 28

29 A lényeg hogy a fentiekkel van egy vektorterünk, amire a szokásos megoldásokat rá lehet engedni (pl k-közép, döntési fa,neuronhálók,svm) 29

Gépi tanulás a gyakorlatban. Bevezetés

Gépi tanulás a gyakorlatban. Bevezetés Gépi tanulás a gyakorlatban Bevezetés Motiváció Nagyon gyakran találkozunk gépi tanuló alkalmazásokkal Spam detekció Karakter felismerés Fotó címkézés Szociális háló elemzés Piaci szegmentáció analízis

Részletesebben

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék Adatelemzés intelligens módszerekkel Hullám Gábor Adatelemzés hagyományos megközelítésben I. Megválaszolandó

Részletesebben

Adatbázisrendszerek április 17.

Adatbázisrendszerek április 17. Adatbázisrendszerek Áttekintés az adattárházakról és az OLAP-ról 2018. április 17. Az adattárházak célja 2 A számítási kapacitások állandó növekedése és az analitikai eszközök és módszerek egyre összetettebbé

Részletesebben

Adatbányászat: Klaszterezés Haladó fogalmak és algoritmusok

Adatbányászat: Klaszterezés Haladó fogalmak és algoritmusok Adatbányászat: Klaszterezés Haladó fogalmak és algoritmusok 9. fejezet Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította Ispány Márton Logók és támogatás A tananyag a TÁMOP-4.1.2-08/1/A-2009-0046

Részletesebben

Gyakorló feladatok adatbányászati technikák tantárgyhoz

Gyakorló feladatok adatbányászati technikák tantárgyhoz Gyakorló feladatok adatbányászati technikák tantárgyhoz Buza Krisztián Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Klaszterezés kiértékelése Feladat:

Részletesebben

Entity Resolution azonosságfeloldás

Entity Resolution azonosságfeloldás 1 Entity Resolution azonosságfeloldás Entity Resolution (ER) is the process of identifying groups of records that refer to the same real-world entity. rejtett, való világbeli entitásokhoz köthető megfigyelések

Részletesebben

Tudásalapú információ integráció

Tudásalapú információ integráció Tudásalapú információ integráció (A Szemantikus Web megközelítés és a másik irány) Tanszéki értekezlet, 2008. május 14. 1 Miért van szükségünk ilyesmire? WWW: (Alkalmazások) Keresés a weben (pl. összehasonlítás

Részletesebben

R ++ -tree: an efficient spatial access method for highly redundant point data - Martin Šumák, Peter Gurský

R ++ -tree: an efficient spatial access method for highly redundant point data - Martin Šumák, Peter Gurský R ++ -tree: an efficient spatial access method for highly redundant point data - Martin Šumák, Peter Gurský Recenzió: Németh Boldizsár Térbeli indexelés Az adatszerkezetek alapvetően fontos feladata, hogy

Részletesebben

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés Gépi tanulás a gyakorlatban Kiértékelés és Klaszterezés Hogyan alkalmazzuk sikeresen a gépi tanuló módszereket? Hogyan válasszuk az algoritmusokat? Hogyan hangoljuk a paramétereiket? Precízebben: Tegyük

Részletesebben

Sikerünk kulcsa: az információ De honnan lesz adatunk? Palaczk Péter

Sikerünk kulcsa: az információ De honnan lesz adatunk? Palaczk Péter Sikerünk kulcsa: az információ De honnan lesz adatunk? Palaczk Péter Bevezető az Oracle9i adattárházas újdonságaihoz Elemzési és vezetői információs igények 80:20 az adatgyűjtés javára! Adattárházak kínálta

Részletesebben

Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben.

Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben. Tartalom Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben. Előszó 1. Az adatbányászatról általában 19 1.1. Miért adatbányászat? 21 1.2. Technológia a rejtett információk

Részletesebben

Entity Resolution azonosságfeloldás

Entity Resolution azonosságfeloldás Entity Resolution azonosságfeloldás Témák: probléma leírása, példák, változatok megoldások: attribútum-hasonlóság alapúak kapcsolat alapúak (hálózati) egzakt szabály alapúak új eredmények: megoldások minőségének

Részletesebben

Közösség detektálás gráfokban

Közösség detektálás gráfokban Közösség detektálás gráfokban Önszervező rendszerek Hegedűs István Célkitűzés: valamilyen objektumok halmaza felett minták, csoportok detektálása csakis az egyedek közötti kapcsolatok struktúrájának a

Részletesebben

MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR

MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR Korszerű információs technológiák Klaszteranalízis Tompa Tamás tanársegéd Általános Informatikai Intézeti Tanszék Miskolc, 2018. október 20. Tartalom

Részletesebben

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31. Regresszió Csorba János Nagyméretű adathalmazok kezelése 2010. március 31. A feladat X magyarázó attribútumok halmaza Y magyarázandó attribútumok) Kérdés: f : X -> Y a kapcsolat pár tanítópontban ismert

Részletesebben

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből 2010/2011 tavaszi félév SZTE Eötvös Loránd Kollégium 1. Dombi József: Fuzzy elmélet és alkalmazásai 2011. március 3. 19:00 2. Móra György: Információkinyerés természetes nyelvű szövegekből 2011. március

Részletesebben

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése 1 Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Természetes nyelv feldolgozás 2 Tudásalapú információ-kereső rendszerek

Részletesebben

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén Dombi József Szegedi Tudományegyetem Bevezetés - ID3 (Iterative Dichotomiser 3) Az ID algoritmusok egy elemhalmaz felhasználásával

Részletesebben

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft. Tudásmodellezés Kereskedelmi Alkalmazásokban Dezsényi Csaba Ovitas Magyarország kft. Tudásmenedzsment Adat -> Információ -> Tudás Intézményi tudásvagyon hatékony kezelése az üzleti célok megvalósításának

Részletesebben

1. gyakorlat. Mesterséges Intelligencia 2.

1. gyakorlat. Mesterséges Intelligencia 2. 1. gyakorlat Mesterséges Intelligencia. Elérhetőségek web: www.inf.u-szeged.hu/~gulyasg mail: gulyasg@inf.u-szeged.hu Követelmények (nem teljes) gyakorlat látogatása kötelező ZH írása a gyakorlaton elhangzott

Részletesebben

Adatbányászati technikák (VISZM185) 2015 tavasz

Adatbányászati technikák (VISZM185) 2015 tavasz Adatbányászati technikák (VISZM185) 2015 tavasz Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2015. február 11. Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 1 / 27

Részletesebben

Vállalati információs rendszerek I, MIN5B6IN, 5 kredit, K. 4. A meghirdetés ideje (mintatanterv szerint vagy keresztfélében):

Vállalati információs rendszerek I, MIN5B6IN, 5 kredit, K. 4. A meghirdetés ideje (mintatanterv szerint vagy keresztfélében): Követelményrendszer 1. Tantárgynév, kód, kredit, választhatóság: Vállalati információs rendszerek I, MIN5B6IN, 5 kredit, K 2. Felelős tanszék: Informatika Szakcsoport 3. Szak, szakirány, tagozat: Műszaki

Részletesebben

Big Data az adattárházban

Big Data az adattárházban Big Data az adattárházban A párbaj folytatódik? Néhány fontos Big Data projekt Cég Téma Adat Újfajta Mennyiség Saját adat? Típus Google Influenza Google I big I Előjelzés előjelzés Farecast Xoom Chicagoi

Részletesebben

Adatbányászati szemelvények MapReduce környezetben

Adatbányászati szemelvények MapReduce környezetben Adatbányászati szemelvények MapReduce környezetben Salánki Ágnes salanki@mit.bme.hu 2014.11.10. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Felügyelt

Részletesebben

Adatelemzés és adatbányászat MSc

Adatelemzés és adatbányászat MSc Adatelemzés és adatbányászat MSc 12. téma Klaszterezési módszerek Klaszterezés célja Adott az objektumok, tulajdonságaik együttese. Az objektumok között hasonlóságot és különbözőséget fedezhetünk fel.

Részletesebben

Entity Resolution azonosságfeloldás

Entity Resolution azonosságfeloldás 1 Entity Resolution azonosságfeloldás Entity Resolution (ER) is the process of identifying groups of records that refer to the same real-world entity. rejtett, való világbeli entitásokhoz köthető megfigyelések

Részletesebben

Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS)

Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS) Networkshop, 2008 Márc. 17 19., Dunaújváros Holl Erdődi: Fejlett kereső... 1 Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS) Holl András Erdődi Péter MTA Konkoly Thege Miklós

Részletesebben

Adatbányászat: Klaszterezés Alapfogalmak és algoritmusok

Adatbányászat: Klaszterezés Alapfogalmak és algoritmusok Adatbányászat: Klaszterezés Alapfogalmak és algoritmusok 8. fejezet Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította Ispány Márton Tan,Steinbach, Kumar Introduction to Data

Részletesebben

Adattárház tiszta alapokon Oracle Day, Budapest, november 8.

Adattárház tiszta alapokon Oracle Day, Budapest, november 8. Adattárház tiszta alapokon Oracle Day, Budapest, 2011. november 8. WIT-SYS Consulting Zrt. Lévai Gábor gabor.levai@wit-sys.hu Tematika Az adattárházról általánosan Az adattárház definíciója Fő jellemzők

Részletesebben

Adatszerkezetek 2. Dr. Iványi Péter

Adatszerkezetek 2. Dr. Iványi Péter Adatszerkezetek 2. Dr. Iványi Péter 1 Fák Fákat akkor használunk, ha az adatok között valamilyen alá- és fölérendeltség van. Pl. könyvtárszerkezet gyökér (root) Nincsennek hurkok!!! 2 Bináris fák Azokat

Részletesebben

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Klaszteranalízis Hasonló dolgok csoportosítását jelenti, gyakorlatilag az osztályozás szinonimájaként értelmezhetjük. A klaszteranalízis célja A klaszteranalízis alapvető célja, hogy a megfigyelési egységeket

Részletesebben

Adatbányászat: Klaszterezés Alapfogalmak és algoritmusok

Adatbányászat: Klaszterezés Alapfogalmak és algoritmusok Adatbányászat: Klaszterezés Alapfogalmak és algoritmusok 8. fejezet Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította Ispány Márton Tan,Steinbach, Kumar Introduction to Data

Részletesebben

Csima Judit október 24.

Csima Judit október 24. Adatbáziskezelés Funkcionális függőségek Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2018. október 24. Csima Judit Adatbáziskezelés Funkcionális függőségek 1 / 1 Relációs sémák

Részletesebben

Gyakori elemhalmazok

Gyakori elemhalmazok Gyakori elemhalmazok Bankó Tibor June 9, 2010 Bankó Tibor (BME) Gyakori elemhalmazok June 9, 2010 1 / 26 Tartalom 1 Bevezetés 2 Az algoritmusok Egy speciális eset Apriori Eclat FP-Growth 3 Az algoritmusok

Részletesebben

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Keresés képi jellemzők alapján Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Lusta gépi tanulási algoritmusok Osztályozás: k=1: piros k=5: kék k-legközelebbi szomszéd (k=1,3,5,7)

Részletesebben

Gyakori elemhalmazok kinyerése

Gyakori elemhalmazok kinyerése Gyakori elemhalmazok kinyerése Balambér Dávid Budapesti M szaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Kar Számítástudomány szakirány 2011 március 11. Balambér Dávid (BME) Gyakori

Részletesebben

Intelligens adatelemzés

Intelligens adatelemzés Antal Péter, Antos András, Horváth Gábor, Hullám Gábor, Kocsis Imre, Marx Péter, Millinghoffer András, Pataricza András, Salánki Ágnes Intelligens adatelemzés Szerkesztette: Antal Péter A jegyzetben az

Részletesebben

Multimédiás adatbázisok

Multimédiás adatbázisok Multimédiás adatbázisok Multimédiás adatbázis kezelő Olyan adatbázis kezelő, mely támogatja multimédiás adatok (dokumentum, kép, hang, videó) tárolását, módosítását és visszakeresését Minimális elvárás

Részletesebben

JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN

JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN Supporting Top-k item exchange recommendations in large online communities Barabás Gábor Nagy Dávid Nemes Tamás Probléma Cserekereskedelem

Részletesebben

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására VÉGZŐS KONFERENCIA 2009 2009. május 20, Budapest Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására Hidasi Balázs hidasi@tmit.bme.hu Konzulens: Gáspár-Papanek Csaba Budapesti

Részletesebben

Adaptív dinamikus szegmentálás idősorok indexeléséhez

Adaptív dinamikus szegmentálás idősorok indexeléséhez Adaptív dinamikus szegmentálás idősorok indexeléséhez IPM-08irAREAE kurzus cikkfeldolgozás Balassi Márton 1 Englert Péter 1 Tömösy Péter 1 1 Eötvös Loránd Tudományegyetem Informatikai Kar 2013. november

Részletesebben

Data Vault adatmodellezés.

Data Vault adatmodellezés. Data Vault adatmodellezés Nemeth.Zoltan@iqpp.hu Új adattárház adatmodellezési módszer Dan Linstedt nevéhez fűződik Ismérvei Részletes, tételes adatok Történetiség kezelése Data Vault Üzleti területek köré

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 8 VIII. REGREssZIÓ 1. A REGREssZIÓs EGYENEs Két valószínűségi változó kapcsolatának leírására az eddigiek alapján vagy egy numerikus

Részletesebben

Analitikus adatfeldolgozás. Adattárház Adatkocka Adatbányászat

Analitikus adatfeldolgozás. Adattárház Adatkocka Adatbányászat Analitikus adatfeldolgozás Adattárház Adatkocka Adatbányászat 1 Áttekintés A hagyományos adatbázisokat sok, apró, egyszerű lekérdezésre hangolták A jelenlegi alkalmazások kevesebb, de idő igényesebb, bonyolultabb

Részletesebben

2. 3. Keresés az Interneten. Navigáció az Interneten: Megoldások. Internetes keresés buktatói. 1. Keresőmotorok. Webes keresési lehetőségek

2. 3. Keresés az Interneten. Navigáció az Interneten: Megoldások. Internetes keresés buktatói. 1. Keresőmotorok. Webes keresési lehetőségek Keresés az Interneten Navigáció az Interneten: Keresőrendszerek, keresési tippek Egyszerű keresőrendszerek Tematikus keresőrendszerek, katalógusok Portálok Adatbázisok, online folyóiratok Elektronikus

Részletesebben

Térinformatikai adatszerkezetek

Térinformatikai adatszerkezetek Térinformatikai adatszerkezetek 1. Pont Egy többdimenziós pont reprezentálható sokféle módon. A választott reprezentáció függ attól, hogy milyen alkalmazás során akarjuk használni, és milyen típusú műveleteket

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 10 X. SZIMULÁCIÓ 1. VÉLETLEN számok A véletlen számok fontos szerepet játszanak a véletlen helyzetek generálásában (pénzérme, dobókocka,

Részletesebben

Klaszterezés. Kovács Máté március 22. BME. Kovács Máté (BME) Klaszterezés március / 37

Klaszterezés. Kovács Máté március 22. BME. Kovács Máté (BME) Klaszterezés március / 37 Klaszterezés Kovács Máté BME 2012. március 22. Kovács Máté (BME) Klaszterezés 2012. március 22. 1 / 37 Mi a klaszterezés? Intuitív meghatározás Adott dolgokból halmazokat klasztereket alakítunk ki úgy,

Részletesebben

Ellenőrző kérdések. 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t

Ellenőrző kérdések. 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t Ellenőrző kérdések 2. Kis dolgozat kérdései 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t 37. Ha t szintű indexet használunk,

Részletesebben

Mérési struktúrák

Mérési struktúrák Mérési struktúrák 2007.02.19. 1 Mérési struktúrák A mérés művelete: a mérendő jellemző és a szimbólum halmaz közötti leképezés megvalósítása jel- és rendszerelméleti aspektus mérési folyamat: a leképezést

Részletesebben

Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára

Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára Vázsonyi Miklós VÁZSONYI Informatikai és Tanácsadó Kft. BME Információ- és Tudásmenedzsment Tanszék 1/23 Tartalom A MEK jelenlegi

Részletesebben

Adatbázis, adatbázis-kezelő

Adatbázis, adatbázis-kezelő Adatbázisok I. rész Adatbázis, adatbázis-kezelő Adatbázis: Nagy adathalmaz Közvetlenül elérhető háttértárolón (pl. merevlemez) Jól szervezett Osztott Adatbázis-kezelő szoftver hozzáadás, lekérdezés, módosítás,

Részletesebben

TSIMMIS egy lekérdezés centrikus megközelítés. TSIMMIS célok, technikák, megoldások TSIMMIS korlátai További lehetségek

TSIMMIS egy lekérdezés centrikus megközelítés. TSIMMIS célok, technikák, megoldások TSIMMIS korlátai További lehetségek TSIMMIS egy lekérdezés centrikus megközelítés TSIMMIS célok, technikák, megoldások TSIMMIS korlátai További lehetségek 1 Információk heterogén információs forrásokban érhetk el WWW Társalgás Jegyzet papírok

Részletesebben

Célkitűzések Az Oracle10 g felépítésének, használatának alapszíntű megismerése

Célkitűzések Az Oracle10 g felépítésének, használatának alapszíntű megismerése BEVEZETÉS Célkitűzések Az Oracle10g felépítésének, használatának alapszíntű megismerése A relációs adatbázis-kezelés elméleti és gyakorlati vonatkozásainak áttekintése Az SQL, PL/SQL nyelvek használatának

Részletesebben

Az informatika kulcsfogalmai

Az informatika kulcsfogalmai Az informatika kulcsfogalmai Kulcsfogalmak Melyek azok a fogalmak, amelyek nagyon sok más fogalommal kapcsolatba hozhatók? Melyek azok a fogalmak, amelyek más-más környezetben újra és újra megjelennek?

Részletesebben

Az adatok a vállalat kulcsfontosságú erőforrásai. Az információs rendszer adatai kezelésének két alapvető változata:

Az adatok a vállalat kulcsfontosságú erőforrásai. Az információs rendszer adatai kezelésének két alapvető változata: ADATSZERVEZÉS Az adatok a vállalat kulcsfontosságú erőforrásai. Az információs rendszer adatai kezelésének két alapvető változata: fájlrendszerek (a konvencionális módszer) és adatbázis rendszerek (a haladóbb

Részletesebben

Nagyméretű adathalmazok kezelése (BMEVISZM144) Reinhardt Gábor április 5.

Nagyméretű adathalmazok kezelése (BMEVISZM144) Reinhardt Gábor április 5. Asszociációs szabályok Budapesti Műszaki- és Gazdaságtudományi Egyetem 2012. április 5. Tartalom 1 2 3 4 5 6 7 ismétlés A feladat Gyakran együtt vásárolt termékek meghatározása Tanultunk rá hatékony algoritmusokat

Részletesebben

Gépi tanulás a gyakorlatban. Lineáris regresszió

Gépi tanulás a gyakorlatban. Lineáris regresszió Gépi tanulás a gyakorlatban Lineáris regresszió Lineáris Regresszió Legyen adott egy tanuló adatbázis: Rendelkezésünkre áll egy olyan előfeldolgozott adathalmaz, aminek sorai az egyes ingatlanokat írják

Részletesebben

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás STATISZTIKA, BIOMETRIA. Előadás Mintavétel, mintavételi technikák, adatbázis Mintavétel fogalmai A mintavételt meg kell tervezni A sokaság elemei: X, X X N, lehet véges és végtelen Mintaelemek: x, x x

Részletesebben

MS ACCESS 2010 ADATBÁZIS-KEZELÉS ELMÉLET SZE INFORMATIKAI KÉPZÉS 1

MS ACCESS 2010 ADATBÁZIS-KEZELÉS ELMÉLET SZE INFORMATIKAI KÉPZÉS 1 SZE INFORMATIKAI KÉPZÉS 1 ADATBÁZIS-KEZELÉS MS ACCESS 2010 A feladat megoldása során a Microsoft Office Access 2010 használata a javasolt. Ebben a feladatban a következőket fogjuk gyakorolni: Adatok importálása

Részletesebben

Leggyakrabban használt adatbányászási technikák. Vezetői információs rendszerek

Leggyakrabban használt adatbányászási technikák. Vezetői információs rendszerek Leggyakrabban használt adatbányászási technikák ADATBÁNYÁSZÁS II. 1. A társításelemzés társítási szabályok (asszociációs szabályok) feltárását jelenti. Azt vizsgájuk, hogy az adatbázis elemei között létezik-e

Részletesebben

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Számítógépes képelemzés 7. előadás Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Momentumok Momentum-alapú jellemzők Tömegközéppont Irányultáság 1 2 tan 2 1 2,0 1,1 0, 2 Befoglaló

Részletesebben

Kódverifikáció gépi tanulással

Kódverifikáció gépi tanulással Kódverifikáció gépi tanulással Szoftver verifikáció és validáció kiselőadás Hidasi Balázs 2013. 12. 12. Áttekintés Gépi tanuló módszerek áttekintése Kódverifikáció Motiváció Néhány megközelítés Fault Invariant

Részletesebben

számított mező, számított tétel

számított mező, számított tétel számított mező, számított tétel A pivot táblában négy számított objektumot hozhatunk létre. Ebből kettőnek a képletét közvetlenül a felhasználó szerkeszti meg, a másik kettőét a program állítja össze.

Részletesebben

Adatmodellezés. 1. Fogalmi modell

Adatmodellezés. 1. Fogalmi modell Adatmodellezés MODELL: a bonyolult (és időben változó) valóság leegyszerűsített mása, egy adott vizsgálat céljából. A modellben többnyire a vizsgálat szempontjából releváns jellemzőket (tulajdonságokat)

Részletesebben

Statisztikai eljárások a mintafelismerésben és a gépi tanulásban

Statisztikai eljárások a mintafelismerésben és a gépi tanulásban Statisztikai eljárások a mintafelismerésben és a gépi tanulásban Varga Domonkos (I.évf. PhD hallgató) 2014 május A prezentáció felépítése 1) Alapfogalmak 2) A gépi tanulás, mintafelismerés alkalmazási

Részletesebben

Microsoft SQL Server telepítése

Microsoft SQL Server telepítése Microsoft SQL Server telepítése Az SQL Server a Microsoft adatbázis kiszolgáló megoldása Windows operációs rendszerekre. Az SQL Server 1.0 verziója 1989-ben jelent meg, amelyet tizenegy további verzió

Részletesebben

Gyakori elemhalmazok és asszociációs szabályok

Gyakori elemhalmazok és asszociációs szabályok Gyakori elemhalmazok és asszociációs szabályok Nagyméretű adathalmazok kezelése Ilsinszki Balázs! 2014. 03. 10. Anyag felosztása 1. Gyakori elemhalmazok 2. Asszociációs szabályok Anyag felosztása 1. Gyakori

Részletesebben

ALAPOK. 0 és 255 közé eső számértékek tárolására. Számértékek, például távolságok, pontszámok, darabszámok.

ALAPOK. 0 és 255 közé eső számértékek tárolására. Számértékek, például távolságok, pontszámok, darabszámok. ADATBÁZIS-KEZELÉS ALAPOK Főbb Adattípusok: Igen/Nem Bájt Ez az adattípus logikai adatok tárolására alkalmas. A logikai adatok mindössze két értéket vehetnek fel. (Igen/Nem, Igaz/Hamis, Férfi/Nő, Fej/Írás

Részletesebben

A WEBOPAC (online elektronikus katalógus) használata. 1. Keresés az adatbázisban (összetett):

A WEBOPAC (online elektronikus katalógus) használata. 1. Keresés az adatbázisban (összetett): A WEBOPAC (online elektronikus katalógus) használata A Corvina Integrált Könyvtári Rendszer webpac rendszere alkalmas arra, hogy a távoli felhasználók is tájékozódjanak az adott könyvtár adatbázisában.

Részletesebben

Informatikai alapismeretek Földtudományi BSC számára

Informatikai alapismeretek Földtudományi BSC számára Informatikai alapismeretek Földtudományi BSC számára 2010-2011 Őszi félév Heizlerné Bakonyi Viktória HBV@ludens.elte.hu Titkosítás,hitelesítés Szimmetrikus DES 56 bites kulcs (kb. 1000 év) felcserél, helyettesít

Részletesebben

Idősorok elemzése. Salánki Ágnes

Idősorok elemzése. Salánki Ágnes Idősorok elemzése Salánki Ágnes salanki.agnes@gmail.com 2012.04.13. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék 1 Idősorok analízise Alapfogalmak Komponenselemzés

Részletesebben

Access gyakorlati feladatok lépésről lépésre

Access gyakorlati feladatok lépésről lépésre Access gyakorlati feladatok lépésről lépésre 1. feladat: Hajómenetrend A balatoni hajómenetrend rendelkezésünkre áll a menetrend.txt állományban. Készítsen új adatbázist HAJO néven! A mellékelt adatállományt

Részletesebben

Többfelhasználós és internetes térkép kezelés, megjelenítés

Többfelhasználós és internetes térkép kezelés, megjelenítés Többfelhasználós és internetes térkép kezelés, megjelenítés Többfelhasználós környezetek Egyszerű fájlszerveres megoldás, LAN (Novel, Windows hálózat) Egy fájl egyidejű módosítása több helyről nem lehetséges

Részletesebben

Csima Judit április 9.

Csima Judit április 9. Osztályozókról még pár dolog Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2018. április 9. Csima Judit Osztályozókról még pár dolog 1 / 19 SVM (support vector machine) ez is egy

Részletesebben

Takács Gábor mérnök informatikus, okl. mérnöktanár

Takács Gábor mérnök informatikus, okl. mérnöktanár Takács Gábor mérnök informatikus, okl. mérnöktanár takacsg@sze.hu http://rs1.sze.hu/~takacsg/ Big Data Definition Big Data is data that can t be stored or analyzed using traditional tools. Információ tartalom,

Részletesebben

8. Pontmegfeleltetések

8. Pontmegfeleltetések 8. Pontmegfeleltetések Kató Zoltán Képfeldolgozás és Számítógépes Grafika tanszék SZTE (http://www.inf.u-szeged.hu/~kato/teaching/) 2 Példa: panoráma kép készítés 1. Jellemzőpontok detektálása mindkét

Részletesebben

Témaválasztás, kutatási kérdések, kutatásmódszertan

Témaválasztás, kutatási kérdések, kutatásmódszertan Témaválasztás, kutatási kérdések, kutatásmódszertan Dr. Dernóczy-Polyák Adrienn PhD egyetemi adjunktus, MMT dernoczy@sze.hu A projekt címe: Széchenyi István Egyetem minőségi kutatói utánpótlás nevelésének

Részletesebben

Asszociációs szabályok

Asszociációs szabályok Asszociációs szabályok Nikházy László Nagy adathalmazok kezelése 2010. március 10. Mi az értelme? A ö asszociációs szabály azt állítja, hogy azon vásárlói kosarak, amik tartalmaznak pelenkát, általában

Részletesebben

Gyors sikerek adatbányászati módszerekkel

Gyors sikerek adatbányászati módszerekkel Gyors sikerek adatbányászati módszerekkel Kezdő adatbányászati workshop Petrócziné Huczman Zsuzsanna 2015.10.13. Bemutatkozás BME, műszaki informatika szak, adatbányászati szakirány Citibank Data Explorer

Részletesebben

Oracle SQL Developer Data Modeler és a DW adatmodellezés. Gollnhofer Gábor Meta Consulting Kft.

Oracle SQL Developer Data Modeler és a DW adatmodellezés. Gollnhofer Gábor Meta Consulting Kft. Oracle SQL Developer Data Modeler és a DW adatmodellezés Gollnhofer Gábor Meta Consulting Kft. Oracle Information Management & Big Data Reference Architecture 2 Mi a NoSQL modellezés célja? Forrás: Insights

Részletesebben

Fekete Csaba Csongor Üzleti intelligencia vezető Citibank ZRt.

Fekete Csaba Csongor Üzleti intelligencia vezető Citibank ZRt. Fekete Csaba Csongor Üzleti intelligencia vezető Citibank ZRt. Tartalom BI mérföld kövek Kezdeti architektúra és kontextus Lokális Adattárház Kialakítása CRM Evolúció Üzleti Intelligencia kiaknázó eszközök

Részletesebben

Ügyfél- és címadatok feldolgozása Talenddel

Ügyfél- és címadatok feldolgozása Talenddel Ügyfél- és címadatok feldolgozása Talenddel 2012.október 4. Dr. Miskolczi Mátyás, Kiss György A Stratisról röviden Jellemzők - Alapítva: 1998 - Tisztán magyar tulajdon - 50 tanácsadó - 140 ügyfél - 500+

Részletesebben

7. Régió alapú szegmentálás

7. Régió alapú szegmentálás Digitális képek szegmentálása 7. Régió alapú szegmentálás Kató Zoltán http://www.cab.u-szeged.hu/~kato/segmentation/ Szegmentálási kritériumok Particionáljuk a képet az alábbi kritériumokat kielégítő régiókba

Részletesebben

Fájlszervezés. Adatbázisok tervezése, megvalósítása és menedzselése

Fájlszervezés. Adatbázisok tervezése, megvalósítása és menedzselése Fájlszervezés Adatbázisok tervezése, megvalósítása és menedzselése Célok: gyors lekérdezés, gyors adatmódosítás, minél kisebb tárolási terület. Kezdetek Nincs általánosan legjobb optimalizáció. Az egyik

Részletesebben

Mesterséges Intelligencia MI

Mesterséges Intelligencia MI Mesterséges Intelligencia MI Valószínűségi hálók - következtetés Dobrowiecki Tadeusz Eredics Péter, és mások BME I.E. 437, 463-28-99 dobrowiecki@mit.bme.hu, http://www.mit.bme.hu/general/staff/tade Következtetés

Részletesebben

Adatbázisok elmélete 12. előadás

Adatbázisok elmélete 12. előadás Adatbázisok elmélete 12. előadás Katona Gyula Y. Budapesti Műszaki és Gazdaságtudományi Egyetem Számítástudományi Tsz. I. B. 137/b kiskat@cs.bme.hu http://www.cs.bme.hu/ kiskat 2005 ADATBÁZISOK ELMÉLETE

Részletesebben

Google App Engine az Oktatásban 1.0. ügyvezető MattaKis Consulting http://www.mattakis.com

Google App Engine az Oktatásban 1.0. ügyvezető MattaKis Consulting http://www.mattakis.com Google App Engine az Oktatásban Kis 1.0 Gergely ügyvezető MattaKis Consulting http://www.mattakis.com Bemutatkozás 1998-2002 között LME aktivista 2004-2007 Siemens PSE mobiltelefon szoftverfejlesztés,

Részletesebben

KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / 2014.10.16. Mezei Ferenc üzletág-igazgató

KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / 2014.10.16. Mezei Ferenc üzletág-igazgató KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / 2014.10.16. Mezei Ferenc üzletág-igazgató Hasonló, mégis más Ez se rossz amíg ezt ki nem próbáltad!

Részletesebben

Hálózati elemzések az üzleti életben. Kovács Gyula Sixtep Kft.

Hálózati elemzések az üzleti életben. Kovács Gyula Sixtep Kft. Hálózati elemzések az üzleti életben Kovács Gyula Sixtep Kft. Hálózat kutatás rövid ismertetése Königsbergi hidak problémája Háttér: A probléma története, hogy a poroszországi Königsberg (most Kalinyingrád,

Részletesebben

Vezetői információs rendszerek

Vezetői információs rendszerek Vezetői információs rendszerek Kiadott anyag: Vállalat és információk Elekes Edit, 2015. E-mail: elekes.edit@eng.unideb.hu Anyagok: eng.unideb.hu/userdir/vezetoi_inf_rd 1 A vállalat, mint információs rendszer

Részletesebben

IBM SPSS Modeler 18.2 Újdonságok

IBM SPSS Modeler 18.2 Újdonságok IBM SPSS Modeler 18.2 Újdonságok 1 2 Új, modern megjelenés Vizualizáció fejlesztése Újabb algoritmusok (Python, Spark alapú) View Data, t-sne, e-plot GMM, HDBSCAN, KDE, Isotonic-Regression 3 Új, modern

Részletesebben

Bevezetés Standard 1 vállalatos feladatok Standard több vállalatos feladatok 2017/ Szegedi Tudományegyetem Informatikai Intézet

Bevezetés Standard 1 vállalatos feladatok Standard több vállalatos feladatok 2017/ Szegedi Tudományegyetem Informatikai Intézet Operációkutatás I. 2017/2018-2. Szegedi Tudományegyetem Informatikai Intézet Számítógépes Optimalizálás Tanszék 10. Előadás Vállalatelhelyezés Vállalatelhelyezés Amikor egy új telephelyet kell nyitni,

Részletesebben

Adatbázismodellek. 1. ábra Hierarchikus modell

Adatbázismodellek. 1. ábra Hierarchikus modell Eddig az adatbázisokkal általános szempontból foglalkoztunk: mire valók, milyen elemekből épülnek fel. Ennek során tisztáztuk, hogy létezik az adatbázis fogalmi modellje (adatbázisterv), amely az egyedek,

Részletesebben

Számítógépes döntéstámogatás. Genetikus algoritmusok

Számítógépes döntéstámogatás. Genetikus algoritmusok BLSZM-10 p. 1/18 Számítógépes döntéstámogatás Genetikus algoritmusok Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu BLSZM-10 p. 2/18 Bevezetés 1950-60-as

Részletesebben

Adatbázis-kezelés. alapfogalmak

Adatbázis-kezelés. alapfogalmak Adatbázis-kezelés alapfogalmak Témakörök Alapfogalmak Adatmodellek Relációalgebra Normalizálás VÉGE Adatbázis-kezelő rendszer Database Management System - DBMS Integrált programcsomag, melynek funkciói:

Részletesebben

Random Forests - Véletlen erdők

Random Forests - Véletlen erdők Random Forests - Véletlen erdők Szabó Adrienn Adatbányászat és Webes Keresés Kutatócsoport 2010 Tartalom Fő forrás: Leo Breiman: Random Forests Machine Learning, 45, 5-32, 2001 Alapok Döntési fa Véletlen

Részletesebben

Klaszterezés, 2. rész

Klaszterezés, 2. rész Klaszterezés, 2. rész Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 208. április 6. Csima Judit Klaszterezés, 2. rész / 29 Hierarchikus klaszterezés egymásba ágyazott klasztereket

Részletesebben

DW 9. előadás DW tervezése, DW-projekt

DW 9. előadás DW tervezése, DW-projekt DW 9. előadás DW tervezése, DW-projekt Követelmény felmérés DW séma tervezése Betöltési modul tervezése Fizikai DW tervezése OLAP felület tervezése Hardver kiépítése Implementáció Tesztelés, bevezetés

Részletesebben

(Independence, dependence, random variables)

(Independence, dependence, random variables) Két valószínűségi változó együttes vizsgálata Feltételes eloszlások Két diszkrét változó együttes eloszlása a lehetséges értékpárok és a hozzájuk tartozó valószínűségek (táblázat) Példa: Egy urna 3 fehér,

Részletesebben