Adatta rha zak, adatba nya szati technolo gia k

Méret: px
Mutatás kezdődik a ... oldaltól:

Download "Adatta rha zak, adatba nya szati technolo gia k"

Átírás

1 Adatta rha zak, adatba nya szati technolo gia k

2 Tartalom 1. Az adatbányászat, tudásfeltárás feladata, a tudásfeltárása folyamata, példákkal magyarázva Az adatbányászat Tudásfeltárás feladata, folyamata Mi nem adatbányászat? Miből áll a web-adatokon végzett tudásfeltárás? Minden kibányászott minta érdekes? Próbáljuk mérni a tudás érdekességét és csak érdekes tudást bányásszunk ki az adatokból Az adattárházak építése, architektúrák, példákkal magyarázva Adattárházak építése Tervezési folyamat Az adattárház tervezési folyamatának tipikus lépései Adattárház építő segédeszközök Adattárház architektúrák Az adatkockák szerepe, műveletei, példákkal magyarázva Adatkockák szerepe Adatkocka Adatkockák műveletei Az asszociációs szabályok előállítása, példákkal magyarázva Feladat leírása Példa: Az apriori eljárás: FP-Tree Az osztályozás feladata, a döntési fák előállítása, példákkal magyarázva Osztályozás feladata Döntési fa előállítása A klaszterezés feladata, két klaszterező algoritmus, példákkal magyarázva Klaszterezés feladata Két klaszterező algoritmus A k-közép klaszterezés Összevonó klaszterezési algoritmus Szövegbányászati módszerek

3 7.1 Látens szemantikai indexelés Kulcsszó alapú asszociációs analízis (keyword based association analysis) Szöveg klasszifikálása Dokumentumok klaszterezése Vektortér modell Entity resolution Record Linkage model (1969) Hogyan kötjük össze a halmazokat Comparison vector összehasonlítás mi alapján történjen Duplicate Record Detection mit kezdjünk a duplikátumokkal String matching / field similarity mely mezők egyeznek meg? Generic Entity Resolution Relational Clustering Ügyfeles példa További példák: Trendek, nyitott kérdések

4 1. Az adatbányászat, tudásfeltárás feladata, a tudásfeltárása folyamata, példákkal magyarázva.. forrás: 1.1 Az adatbányászat Miért kell adatbányászat? Adatrobbanás zajlik: terabájtokról áttérünk a petabájtokra. Nagy adatgyűjtemények keletkeznek és érhetők el. Nagy mennyiségű nyers adat keletkezik a következő területeken: automatikus adatgyűjtő mérőeszközök, adatbázisrendszerek, Web, közösségi hálók, számítógépes ügyfélszolgálatok Üzleti élet: Web, e-kereskedelem, pénzügyi tranzakciók, tőzsde Tudomány: távérzékelő berendezések, bioinformatika, tudományos szimulációk Közösségi és mindennapos élet: Facebook, hírek, digitális kamerák, YouTube Ellep bennünket a rengeteg adat, bár mi valójában inkább tudásra vágyunk! A szükség szüli az új technológiát: az adatbányászat a nagy mennyiségű adatok automatikus elemzése ig csak elméleti tudomány. Az 1950-es évektől kezdve sok tudományág számítógépes részterületet kifejlesztett től már rengeteg szimuláció és tudományos eszköz generál nagy mennyiségű feldolgozandó adatot. Manapság már több petabájtnyi adatot tudunk olcsón tárolni és kezelni. Az Internet és a Grid rendszerek révén ezeket az adathalmazokat könnyen el lehet érni. A tudományos információkezelési, információgyűjtési, szervezési, lekérdezési, megjelenítési feladatok száma az adatmennyiség arányában növekszik. (Minél több az adat, annál többféle feldolgozásra vagyunk kíváncsiak.) Az adatbányászat napjaink egyik fő kihívása! 1.2 Tudásfeltárás feladata, folyamata Az adatbányászat (tudás kinyerése az adatokból): érdekes (nem triviális, implicit, eddig nem ismert és potenciálisan hasznos) mintákat (azaz tudást) akarunk kinyerni a nagyon nagy adathalmazokból lehetőleg automatikusan, és minél hatékonyabban Mi nem adatbányászat? Egyszerű keresések, lekérdezések végrehajtása (Deduktív) szakértői rendszerek 4

5 A tudásfeltárás folyamata Miből áll a web-adatokon végzett tudásfeltárás? Adattisztítás Több forrásból származó adatok integrációja Az adatokból adattárház építése Adatkockák készítése Az adatbányászathoz szükséges adatok kiválasztása Adatbányászat elvégzése Az eredményekből jelentések készítése, megjelenítése A talált minták, összefüggések (tudás) tárolása a tudásbázisban Minden kibányászott minta érdekes? Kimerítő kereséssel túl sok mintát kaphatunk Van, ami csak bizonyos helyre, időre, dimenzióra jellemző, vagyis nem elég általános Van, ami csak múló összefüggés, az aktuális adatokra véletlenül teljesül Próbáljuk mérni a tudás érdekességét és csak érdekes tudást bányásszunk ki az adatokból milyen tudás kell: leíró vagy előrejelző milyen eseteket fed le, lehetőleg minél többet mennyire tipikus vagy újszerű a minta (esőben viszünk ernyőt: érdektelen, esőben levisszük a vízilovat sétálni: érdekes) mennyire pontos az összefüggés a lefedett esetekben mennyire időszerű (mindenki vízilovat tart otthon) 5

6 2. Az adattárházak építése, architektúrák, példákkal magyarázva. forrás: Mi az adattárház? Sokféleképpen definiálják, nincs egyértelmű meghatározás. Olyan döntéstámogató adatbázis, amelyet a szervezet működéséhez szükséges adatbázisától elkülönítve üzemeltetnek. Egyesített, történeti (időtől függő) adatok elemzését, információ feldolgozását támogató platform. Az adattárház olyan témaspecifikus, integrált, időfüggő, fizikailag is tárolt adatgyűjtemény, amely a menedzsment döntéshozó folyamataihoz szükséges lehet. W. H. Inmon Témaspecifikus: Nem a napi működéshez szükséges folyamatokkal, tranzakciós folyamatokkal foglalkozunk, hanem a modellezéssel, a döntéshozók számára hasznos adatelemzésekkel. Egy speciális témakörhöz szükséges adathalmaz egyszerű, tömör reprezentálása. Kihagyjuk azokat az adatokat, amelyek nem kellenek a döntéshozáshoz. Integráltság: Többféle, heterogén adatforrás adataiból készítjük el az adattárházat. Integrációs technikákat és adattisztítást kell alkalmaznunk. Időfüggés: Általában hosszabb időtartamra (akár évekre visszamenőleg) vizsgáljuk az adatokat. Az adattárház kulcsai (azonosítói) mindig tartalmaznak időpontot, explicit vagy implicit formában, a működési adatbázisban nincs mindig időpont megadva. 2.1 Adattárházak építése Négyféle szempont az adattárház tervezéséhez 1. Fentről-le az adattárházhoz szükséges lényeges információ kiválasztása (mire van és mire lehet majd szükség) 2. Adatforrás mit tárolunk a működési rendszereinkben 3. Adattárház milyen tény és dimenziótáblákat tárolunk az adattárházban 4. Üzlet a végfelhasználó milyen célra használhatja majd az adatokat Tervezési folyamat Fentről le, vagy lentről fel, vagy kombinálva: Fentről le (Top-down): Gondosan, fokozatosan részletezve mindent megtervezünk (időigényes) Lentről fel (Bottom-up): Próbálgatunk, prototípusokat adunk (gyors) 6

7 Szoftvertervezési szempontból Vízesés modell (Waterfall): strukturált, szisztematikus elemzés, mielőtt a következő lépést megtesszük Spirális modell (Spiral): gyorsan, egyre több funkcionalitást teszünk a készülő rendszerbe Az adattárház tervezési folyamatának tipikus lépései Határozzuk meg az üzleti folyamatokat, amelyekben modellezzünk például a rendeléseket, számlákat Határozzuk meg az üzleti folyamatok atomi adatszintjét Határozzuk meg a tényrekordokhoz tartozó dimenziókat Határozzuk meg a rekordokban szereplő mértékeket Adattárház építő segédeszközök Adatgyűjtéshez több, heterogén, akár külső adatforrásból összegyűjti, kiválasztja a szükséges adatokat Adattisztításhoz adathibákat kijelzi, ha lehet ki is javítja Adattranszformációhoz az örökölt adatbázisokból az adatokat az adattárház formátumára transzformálja Betöltéshez rendez, összesít, egyesít, nézeteket készít, ellenőrzi az integritási feltételeket, indexeket készít, particionál Frissítéshez időközönként az új adatokat, változásokat betölti az adattárházba 7

8 2.2 Adattárház architektúrák Három típusa van: 1. Vállalati adattárház (Enterprise warehouse) a teljes szervezet összes fontos információját tartalmazza, amely bármilyen témájú elemzéshez valaha is kellhet 2. Adatpiac (Data Mart) egy adott témához (például marketing) szükséges adatok gyűjteménye külön is megépíthetjük, de lehet része a vállalati adattárháznak is 3. Virtuális adattárház (Virtual warehouse) A működési adatbázisra építünk nézeteket Egyes összesítő nézeteket materializálunk Adattárházak építésének diagramja 8

9 3. Az adatkockák szerepe, műveletei, példákkal magyarázva. forrás: 3.1 Adatkockák szerepe Az adattárház többdimenziós adatmodellt valósít meg, tipikusan adatkockákat használ. Egy adatkocka, mint például az eladások, esetén az adatokat több dimenzióban nézhetjük, modellezhetjük: Dimenziótáblákat használunk: cikk(cikk_név, márka, típus), vagy idő(nap, hét, hónap, negyedév, év) A ténytábla tartalmazza az értékeket, mértékeket (például eladott_mennyiség_dollárban) és kulcsokat a megfelelő dimenziótáblákhoz, amely alapján a dimenzió részleteit tudjuk a tényekhez hozzákapcsolni Az n-dimenziós (n-d) alapkockát alapkuboidnak (alaptéglának) hívjuk. Ez a legrészletezettebb nézete a tényeknek. A legfelső szintű 0-D kuboid a teljes összesítést tartalmazza, (függetlenül helytől, időtől, egyéb dimenzióktól). Ez az apex kuboid. A kuboidok hálóját hívjuk adatkockának. Kuboidok hálója 9

10 3.2 Adatkocka Adattárházak modelljei: dimenziók és mértékek Csillagséma: Középen áll a ténytábla, ami dimenziótáblákkal van összekapcsolva. Csillagséma Hópehelyséma: A csillagséma finomítása, a dimenziótáblákat dekomponáljuk normálformájú kisebb dimenziótáblákra. Hópehely 10

11 Csillagkép vagy galaxisséma: Több ténytábla közös dimenziótáblákat használ. Galaxisséma 3.3 Adatkockák műveletei 1. Felgörgetés - Roll up (drill-up): összesítjük (pl. összegezzük) az adatokat a hierarchián feljebb lépve vagy a dimenziót elhagyva 11

12 2. Lefúrás - Drill down (roll down): kirészletezünk adatokat (a felgörgetés fordítottja) alacsonyabb szintű összesítést veszünk, részletezzük az adatokat, vagy bevezetünk egy új dimenziót 3. Szeletelés és kockázás - Slice and dice: vetítés és kiválasztás Szeletelés 12

13 4. Forgatás (pivotálás) - Pivot (rotate): elforgatjuk a kockát, vagy a vizualizációját, a 3D-t alkotó 2D-s síkszeletek sorozatát átrendezzük 5. Egyéb műveletek a. Keresztülfúrás - drill across: egynél több ténytáblában fúrunk le b. Átfúrás -drill through: a lefúrást SQL utasításokkal a kockában a legrészletezettebb adatokig, azaz az alap relációs táblákig folytatjuk 13

14 4. Az asszociációs szabályok előállítása, példákkal magyarázva forrás: 49.dia 4.1 Feladat leírása Feladatunk az adathalmazban előforduló gyakori minták felderítése. Az ilyen eljárások használhatóak például vásárlói kosarak vizsgáltál, ahol az együtt gyakran megvásárolt termékeket keressük. Ez az adatok feldolgozásának szempontjából is érdekes, hiszen egy adathalmazhoz tartozó gyakori minták sokat elmondanak annak tulajdonságairól. Legyenek X = {x 1,, x k } és Y = {y 1,, y k } cikkek halmaza. A feladat keresni olyan X Y szabályokat, melyek megfelelnek bizonyos support és confidence követelményeknek. Support=S annak a valószínűsége, hogy egy kosár tartalmazza X Y-t Confidence=C feltételes valószínűsége annak, hogy ha egy kosár tartalmazza X-et akkor Y-t is 4.2 Példa: n cikk esetén 2 n darab részhalmazt kéne megvizsgálni, ami sok. Bemutatjuk az apriori eljárást ami downward closure tulajdonságot tételezi fel az adathalmazról. Ez alapján a gyakori kosarak részkosarai is gyakoriak. Tehát pl. ha sör és pelenka együtt gyakran előfordul a kosarakban, akkor sör is gyakran előfordul. Ebből kifolyólag az apriori alapötlete az, hogy ha egy X cikk halmaz nem gyakori, akkor már nem kell vizsgálni az olyan cikk halmazokat melyek tartalmazzák X-et. Ezt hívjuk apriori pruning principle-nek. 4.3 Az apriori eljárás: 1. Fussunk végig az adathalmazon és keressük meg a gyakori egy elemű részhalmazokat. (tehát a gyakori cikkeket) k:=1. 2. Generáljunk k+1 hosszú részhalmazokat a gyakori k hosszú részhalmazokból. k:=k+1 3. Nézzük meg hogy az előző pontban generált részhalmazok mennyire gyakoriak. Ha nem gyakoriak hagyjuk el őket. 4. Ha már egy generált részhalmaz sem gyakori, akkor leállunk, egyébként vissza a 2-es pontra. 14

15 Hogyan generáljunk minden körben lehetséges gyakori halmaz jelölteket? Első lépés: self-joining az L k -ban. L k az eddigi gyakori k cikket tartalmazó halmazok! fontos, hogy ez rendezve van. ((lexikografikusan, a példánál érthetőbb)) Példa: Második lépés: pruning (vágás). Eltüntetjük azokat a generált halmazokat, melyek tartalmaznak olyan k méretű részhalmazt, ami nem szerepel L k -ban. Hogyan számoljuk ki a jelöltek Supportját? (05-16,17.old) 15

16 Általános problémák a gyakori minták keresésénél: Az adathalmazon többször végig kell menni (erre megoldás a DIC (23.old)) Egy körben rengeteg jelölt generálódik (erre megoldás a DHP eljárás (21.old)) Support körönkénti kiszámolása költséges 4.4 FP-Tree A diákban szó van egy olyan eljárásról, ami FP-Tree-ket épít 16

17 5. Az osztályozás feladata, a döntési fák előállítása, példákkal magyarázva. forrás: 5.1 Osztályozás feladata Klasszifikáláskor meg akarjuk jósolni, hogy az egyes rekordok milyen osztályba tartoznak. A modellt egy tanuló adathalmaz alapján állítjuk be, majd ezt tipikusan egy másik tesztelő adathalmazzal értékeljük ki. Az ilyen eljárások sok területen felhasználhatók, pl hiteligénylés kiértékelésére, előzetes orvosi diagnózis esetén, célzott marketing esetén. A modell konstrukciója. Modellt csak egy már kész, és pontos adathalmazon tudjuk megkonstruálni. Jellemzően a tanítóhalmaz rekordjainak egy oszlopában van a rekordhoz rendelt osztály. A modellt magát reprezentálhatjuk szabályok sorozatával, döntési fával, vagy valamilyen matematikai formulával. A modell alkalmazása. A kész modellt érdemes először egy (a tanuló adathalmaztól független) teszt adathalmazon vizsgálni. Persze a tesztadathalmaz rekordjainak osztályait is pontosan kell ismernünk az eredmény kiértékeléséhez. Ha elég pontos válaszokat ad a modell, akkor ráengedhetjük más adatokra is. Adat tisztítás: A tanító adathalmazon, célszerű tisztítást végezni a modell konstrukciója előtt. Ide tartozik az üres értékek kezelése, valamint a zajcsökkentés, a redundáns/irreleváns attribútumok törlése, valamint az egyes értékek normalizálása. 5.2 Döntési fa előállítása A fa konstrukciója: (felülről lefelé, rekurzív oszd meg és uralkodj) Kezdetben a tanulóhalmaz minden értéke a gyökérben van. Minden lépésben az egyes csomópontokat kettéválasztjuk bizonyos attribútumok alapján. Az attribútum választás alapja általában valamilyen heurisztika vagy statisztikai mérték(az informacion gain lesz később) A fa építésével leállunk, ha az egyes csomópontokhoz tartozó rekordok már egy osztályba esnek, vagy ha már nincs attribútum, ami alapján vághatnánk, vagy nincs a csomóponthoz érték rendelve. (*Persze gondolom gyakorlatban már egy adott szint után, vagy egy minimális gain alatt leállunk). Végül megnézzük, hogy az egyes levelek milyen osztályhoz tartozó rekordokból tartalmaznak a legtöbbet ( és az lesz a levélhez tartozó osztály). Attribútum választás information gain alapján: Azzal az attribútummal vágunk, mellyel a legnagyobb az information gain Legyen p i annak a valószínűsége, hogy egy D rekordhalmazhoz tartozó rekord C i osztályba tartozik, és ezt becsüljük így: C i, D / D m Ekkor a várható információ(entrópia): Info(D) pi log2(pi) v i1 D j Szükséges információ, hogy A attribútummal vágjunk D-t v részre: Info A(D) I(D j) j1 D Nyert információ az A-alapján történt vágással: Gain(A) Info(D) Info (D) A 17

18 Példa (azt keressük, hogy vesz-e pc-t): A példában a kor szerint vágunk, mert arra lesz a legnagyobb a gain. Mi van ha A attr. folytonos? Keressük a legjobb vágási pontot. Rendezzük az A-ban előforduló értékeket növekvő sorrendben (*Gondolom a csomóban előforduló értékeket). A vágási pont tipikusan két a,b érték között lesz (a+b)/2. Azt a split-point-ot vegyük, mellyel elvágva az adathalmazt annak várható információja minimális lesz old A Gain(A) érték használatával, az eljárás hajlamos azokat az attribútumokat előnyben részesíteni, melyeknek sok értéke van. Erre a C4.5 kínál megoldást, ami normalizálja a Gain-t. Vagyis legyen SplitInfo A (D) v D j log ( j1 D D és így GainRatio(A)=Gain(A)/SplitInfo(A). Mit az előző esethez hasonlóan, azt az A-t választjuk melyre legnagyobb a GainRatio(A). Overfitting: a modell hajlamos túltanulni a tanuló adathalmazt. Sok zajra, kiugró értékre utalhat az, ha a fa túlzottan szerteágazik. Megoldás, ha csak egy adott jóság (gain) fölött bontjuk a csomópontokat, de ezt nehéz előre belőni. Másik ötlet, ha felépítjük a (túlságosan nagy) fát, és ezt lenyessük. Az ilyen vágott fák hatékonyságát célszerű nem a tanuló adathalmazon megmérni. 2 D j ) 18

19 6. A klaszterezés feladata, két klaszterező algoritmus, példákkal magyarázva. forrás: fordítások: Klaszterezés feladata Mi a klaszterezés? Objektumok halmazában keresünk olyan csoportokat, melynek tagjai egymáshoz hasonlóak, ugyanakkor más csoportokban lévő tagok különböznek Klaszterezés alkalmazásai: nagy adatállományok csökkentése, az adathalmaz jobb megértése, például a böngészésnél kapott kapcsolódó dokumentumok csoportjai, hasonló funkcionalitással bíró gének és fehérjék csoportjai, hasonló ármozgású részvények csoportjai. Hasonlóság metrikája: az objektumok attribútumaik közti hasonlóságra általában valamilyen d(i,j) metrikát adunk meg. Ezek különböző típusú változókra nagyon különbözhet (boolean,number,categorical). A klaszterek jóságát tipikusan máshogy mérjük, és egy ilyen mérték megfogalmazása nehéz. Az adatok típusa lehet: Interval-valued variables: klaszterezés előtt az ilyen jó normalizálni/standardizálni (vagyis az egyes értékekből kivonjuk a mintaátlagot, majd ezt osztjuk a szórással (most nem a szórásnégyzet gyökével, hanem a mean absolute deviation-nel)). Ezekre sokféle távolságot ráhúzhatunk, pl Euklideszi távolság, MInkowski távolság, Manhattan távolság (07 prezi, 14. oldal) Binary variables: a változónak két állapota lehet. egy lehetséges távolság, ha a nem egyező változók számát elosztjuk az összes változó számával. Nominal values: előzőhöz hasonló, de 2-nél több állapota lehet. Egy lehetséges távolság, ha a nem egyező változók számát oszjuk az összesel. Ordinal value: lehet diszkrét vagy folytonos, de az értékekre van rendezés(rank). Az internal valued variables típushoz tartozó hasonlóságok használhatók, ha a változókat rank szerint a [0,1] intervallumba képezzük. Ratio scaled variable: nemlineáris skálán vett értékek, távolság az előzőhöz hasonlóan visszavezethető az interval-valued variables típusra, de előtte az érték logaritmusát kell venni. (07-dia 20.oldal) Ha az adatbázisban több féle változó van, akkor a különböző típusok súlyozott kombinációját vesszük a hasonlóság kiszámításakor. Vector objects: 19

20 6.2 Két klaszterező algoritmus A klaszterezés két típusa: Felosztó klaszterezés: Az objektumok felosztása nem átfedő részhalmazokra (klaszterekre) úgy, hogy minden objektum pontosan egy részhalmazban szerepelhet. Hierarchikus klaszterezés: Egymásba ágyazott klaszterek egy hierarchikus fába szervezett halmaza A k-közép klaszterezés k-közép klaszterezés: Ez egy felosztó klaszterezés. Minden klasztert annak középpontja (centroidja) reprezentál. A pontokat ahhoz a klaszterhez rendeljük, melynek középpontjához a legközelebb van. Előre meg kell adni, hogy hány k darab klaszterre szeretnénk bontani a halmazt. Az eljárás: Válasszunk ki k darab pontot (általában random) Hozzunk létre k klasztert a pontoknak a legközelebbi középpontokhoz való hozzárendelésével. Számoljuk újra a középpontot minden klaszternél. Ha a középpontok megváltoztak vissza 2-esre 20

21 Megjegyzések: a középpont általában a klaszterbeli pontok átlaga Az adatokat futtatás előtt célszerű normalizálni A K-közép módszer konvergál a fenti általános hasonlósági mértékekre. A konvergencia legnagyobb része az első néhány iterációban megtörténik. Komplexitás: O( n * K * I * d ) n = pontok száma, K = klaszterek száma, I = iterációk száma, d = attribútumok száma Problémák a k-közép módszerrel: Kiugró értékekre érzékeny (k-medoid orvosolja, old) Kezdeti középpontok problémája (Ha adott K,,igazi klaszter, akkor annak esélye, hogy minden klaszterből választunk középpontot kicsi. Megoldására vannak módszerek) Az alap k-közép üres klasztereket is adhat Előre meg kell adni a klaszterek számát Összevonó klaszterezési algoritmus Összevonó klaszterezési algoritmus: Hierarchikus klaszterezés, Egymásba ágyazott klaszterek egy hierarchikus fába szervezett halmazát állítja elő (ábrázolására dendrogramot használunk. a függőleges tengely adja meg hogy mi volt a két összevont klaszter távolsága). 21

22 Hasonlósági vagy távolság mátrixot használ. 1. Számoljuk ki a közelségi mátrixot. 2. Legyen minden egyes pont egy önálló klaszter. 3. Vonjuk össze a két legközelebbi klasztert. 4. Frissítsük a közelségi mátrixot. 5. Ismételjük a 3.-tól amíg csak egy klaszter nem marad. Megjegyzések: A klaszterek közötti távolság definíciójának különböző megközelítései más-más algoritmusokhoz vezetnek. A hasonlóság mérése lehet pl: MIN, MAX, Csoport-átlag, Középpontok közötti távolságok Nem kell feltételezni semmilyen konkrét klaszter-számot előre. Tárigény: O(N 2 ) tárigény mivel a közelségi mátrixot használja. Időigény: O(N 3 ) időigény az esetek többségében (N lépést kell végrehajtani és minden egyes lépésben egy N2 méretű közelségi mátrixot kell frissíteni és kell benne keresni.) Problémák: Ha egyszer döntést hozunk arról, hogy két klasztert összevonunk, akkor azt már nem lehet meg nem történtté tenni. Nincs célfüggvény, melyet közvetlenül minimalizálunk. Érzékenység a hibára és a kiugró adatokra Hajlam nagy klaszterek szétvágására DBSCAN: egy sűrűség alapú algoritmus Sűrűség = egy rögzített sugáron (Eps) belüli pontok száma Egy pont belső pont ha egy előírtnál (MinPts) több pont van Eps sugarú környezetében. (Ezek lesznek egy klaszter belsejének pontjai.) A határ pontnak az Eps sugarú környezetben MinPts-nél kevesebb pontja van, azonban van belső pont ebben a környezetben. A zajos pont az összes olyan pont, amelyik nem belső illetve határ pont. 22

23 23

24 Máshogy leírva (először töröljük a zajokat majd): Előnyök: ellenálló zajjal szemben Különböző méretű és alakú klasztereket egyaránt tud kezelni Hátrányok: Változó sűrűségű halmazoknál gondok Magas dimenziójú adatoknál gondok (OPTICS) Ez a módszer segít egy jó eps, és Minpts eltalálására. 24

25 7. Szövegbányászati módszerek. Wiki alapján a szövegbányászat: A szövegbányászat (angolul text mining) a strukturálatlan vagy kis mértékben strukturált szöveges állományokból történő ismeret kinyerésének tudománya; olyan különböző dokumentumforrásokból származó szöveges ismeretek és információk gépi intelligenciával történő kigyűjtése és reprezentációja, amely a feldolgozás előtt rejtve és feltáratlanul maradt az elemző előtt. Az egyszerű keresésnél jóval többet hivatott nyújtani a szövegbányászat. Míg szöveges keresés esetében meglévő információkra kívánunk kis időbefektetéssel rátalálni (nagy relevanciájú találati eredmények által), addig a szövegbányászat során olyan tudásra, ismeretekre is szert kívánunk tenni, ami explicite nem volt benne a rendelkezésre álló dokumentumállományban (korpuszban), csak indirekt módon, rejtve, látensen. Bár a teljes szövegű keresés is a szövegbányászat része, a szövegbányászat a keresésnél jóval többet jelent, hasonlóan, ahogy az adatbányászat is jóval többet jelent az egyszerű adatkeresésnél. A szövegbányászat nagy mértékben épít az adatbányászat eredményeire, ahol elsősorban számszerű adatok feldolgozása történik intelligens gépi módszerekkel. Az adatbányászat azon eredményeit, amelyek minták felismerésére, adatreprezentációra, előrejelzésre, statisztikai összefüggések kimutatására vonatkoznak, a szövegbányászat is nagymértékben hasznosítja. A különbség abban mutatkozik, hogy míg adatbányászat esetében jól strukturált számszerű adatokkal dolgozunk, addig a szövegbányászatban strukturálatlan szöveges állományok képezik a kiindulási alapot. Dokumentumokat akarunk feldolgozni, osztályozni. 7.1 Látens szemantikai indexelés Forrás: Látens szemantikai Indexelés ütőkártya vagy hisztéria a Latent Semantic Indexing (LSI) alatt olyan technológiát értünk, amelyet vezető keresőmotor üzemeltetők köztük a Google vezettek be és amelyek segítségével a keresőmotorok képesek a szövegtartalmakat szemantikailag felismerni és értelmezni. Az LSI lehetővé teszi, hogy lokalizálják egy kulcsszó szinonimáit és rokon fogalmait, és az olyan szövegeket, amelyekben ilyenek előfordulnak, relevánsnak soroljanak be még akkor is, ha maga a keresőfogalom nem fordul elő a szövegben. A Latent Semantic Indexing-gel kapcsolatban egy ideje számos híresztelés terjeng, bár ezek részben hisztériák. Vegyük szemügyre a Latent Semantic Indexing fejlődését az ismertté válása óta Míg a keresőmotorok korábban csak a meglévő kulcsszavakat elemezték, a szemantikai technológia tovább megy egy lépéssel. Itt még egy megfelelő dokumentum környezetét is analizálják, azaz a keresőmotorok az adott szöveget összehasonlítják olyan dokumentumokkal, amelyek azonos vagy hasonló szavakat és szócsoportokat tartalmaznak. Ennek során a 25

26 technológia azokat a szövegeket sorolja be szemantikailag rokonnak, amelyek sok hasonló szót és szósort használnak. Ha csak kevés szó egyezik, akkor a szöveg szemantikailag távoli besorolást kap, következésképp az adott keresőfogalom szempontjából nem releváns. A gyakorlatban ez a következőt jelenti: ha egy keresőmotor Latent Semantic Indexing-et használ, akkor például a Saddam Hussein keresőfogalomra egyrészt olyan keresési eredményeket ad, amelyek összefüggésben állnak Saddam Hussein-nel és az Öböl-háborúval, az iraki háborúval vagy Kuvaittal. Másrészt azonban olyan tartalmakat is megjelenít, amelyeknél az adott keresőfogalom sehol sem fordul elő a szövegben. A keresőmotor a szöveges tartalmak alapján tudja, hogy mely eredmények lehetnek mégis relevánsak. Míg ennek alapján nagyon is van értelme rokon fogalmakat integrálni webes szövegekbe, egy weboldal üzemeltetőjének e technológia tekintetében mégis legfőképp a bejövő linkek illetve a megfelelő linkszövegek használatára kell ügyelnie. Ma már nem titok, hogy a bejövő linkek szövege nagymértékben befolyásolja a honlap helyezését. Ebből a szempontból tehát kerülni kellene a mindig azonos linkszövegek használatát. Különben gyorsan kelthetjük azt a benyomást, hogy az oldal túloptimalizált. Az ilyesmit a keresőmotorok nagyon nem szeretik. Ennek következménye lehet például úgynevezett over-optimization-penalties, ami a szembetűnően túltupírozott honlapok büntetése. A siker kulcsa itt a lehetőleg természetesnek ható linkszövegekben van. Nincs ugyan kész recept, vizsgálatok azonban azt mutatták, hogy sok top-helyezésű oldal esetében a kulcsszavaik körülbelül a beérkező linkek 30-40%-ában fordulnak elő. A linkszövegekben szinonimák és rokon fogalmak használatával tovább növelhető a beérkező linkek relevanciája, anélkül, hogy természetellenesnek hatnának. A keresőmotorok megértik ezeket az alternatív fogalmakat és az Ön oldala ennek megfelelő helyezést kap az adott keresőfogalmak szerint. Annak kiderítésére, mely fogalmakat tekinti a Google szinonimának, használhatjuk a szinonima-keresőparancsot (~ / Alt Gr + ). Ha például az autó fogalmára keres szinonimákat, egyszerűen a következő keresőfogalmat adja be a Google-ban: ~autó Így megkapja azokat az oldalakat, amelyek a keresőfogalommal rokon kulcsszavakat tartalmaznak, például autós-hírek, lízing, cars A rokon kifejezések használatával megerősítheti a főfogalmait, ami jobb helyezést eredményez gyakori ismételgetések és az ezekhez kapcsolódó büntetés veszélye nélkül. Kérem, ügyeljen arra: amíg igyekszik lehetőleg természetesen írni, és a keresőmotorok helyett mindig az olvasóira van inkább tekintettel, minden valószínűség szerint úgyis számtalan LSI kulcsszót használ. Így ennek a témának nem kell különösebb plusz figyelmet szentelnie. Összegzés a Latent Semantic Indexing tekintetében: használjon különféle kulcsszavakat, beleértve a szinonimákat és rokon fogalmakat, különösen a linkszövegekben. Ezáltal az oldala természetesebbnek hat. Ez pedig segíti abban, hogy helyezést kapjon a rokon fogalmak szerint is még akkor is, ha azok épp nem fordulnak elő az oldalán. Ráadásul ezáltal javíthatja a főfogalmai szerinti helyezését is. 26

27 7.2 Kulcsszó alapú asszociációs analízis (keyword based association analysis) A cél megtalálni olyan kulcsszavakat/kifejezéseket, melyek gyakran fordulnak elő együtt, majd megtalálni az asszociációs illetve korrelációs kapcsolatot közöttük. Az asszociációs analízis szakaszai: A szöveg elő feldolgozása (parsing, stemming(pl drug=drugs=drugged), removing stop words(pl. a, the of, always, with), etc.) Már bevált asszociációs szabályokat kereső eljárások használata. Kezeljük a dokumentumokat kosarakként. A cikkek pedig legyenek a kulcsszavak, amiket tartalmazhatnak a kosarak.?term level association mining:? nem kell embernek felügyelni, csökken az értelmetlen eredmények száma és gyorsabb is lesz 7.3 Szöveg klasszifikálása Motiváció: nagyon sok online dokumentumot szeretnénk automatikusan klasszifikálni/osztályozni. (weblapok, ) A folyamat pontokba szedve: Adatok elő feldolgozása Tanuló és teszt adatok előállítása A klasszifikációs modell elkészítése (pl. valamilyen tanult módon) A modell kiértékelése A modellt ráengedjük új szövegekre Nehézséget jelent, hogy a szöveg nem olyan jól strukturált mint egy relációs adatbázis 7.4 Dokumentumok klaszterezése Motiváció: A szövegek automatikus csoportosítása tartalmuk alapján, futásidő alatt, tanuló adathalmaz nélkül. A folyamat: Adat elő feldolgozás (remove stop words, stem, feature extraction, lexical analysis, etc.) Hierarchikus klaszterezés/modell based klaszterezés 27

28 7.5 Vektortér modell A dokumentumot egy term vektorral reprezentáljuk. A term lehet szó vagy kifejezés. Minden term egy dimenziót definiál, így n term kifeszít egy n dimenziós vektorteret. A vektorokat súlyozzuk aszerint, hogy az egyes termek mennyire fontosak. A dokumentumot az azt reprezentáló vektora alapján soroljuk be, vektorhasonlóság alapján. Hogyan súlyozzunk? TF súlyozás: minél gyakrabban fordul elő a t term annál közelebb van a témához. TF=f(t,d) megadja, hogy hányszor fordul elő a t term a d dokumentumban. Mivel a dokumentum hossza torzítja az eredményt érdemes normalizálni. IDF súlyozás: minél ritkábban szerepel a dokumentumok összeségében, annál diszkriminatív. TF-IDF súlyozás: a felső kettő kombinációja weight(t,d)=tf(t,d)*idf(t) Hogyan mérjük a hasonlóságot? 28

29 A lényeg hogy a fentiekkel van egy vektorterünk, amire a szokásos megoldásokat rá lehet engedni (pl k-közép, döntési fa,neuronhálók,svm) 29

Gépi tanulás a gyakorlatban. Bevezetés

Gépi tanulás a gyakorlatban. Bevezetés Gépi tanulás a gyakorlatban Bevezetés Motiváció Nagyon gyakran találkozunk gépi tanuló alkalmazásokkal Spam detekció Karakter felismerés Fotó címkézés Szociális háló elemzés Piaci szegmentáció analízis

Részletesebben

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék Adatelemzés intelligens módszerekkel Hullám Gábor Adatelemzés hagyományos megközelítésben I. Megválaszolandó

Részletesebben

Gyakorló feladatok adatbányászati technikák tantárgyhoz

Gyakorló feladatok adatbányászati technikák tantárgyhoz Gyakorló feladatok adatbányászati technikák tantárgyhoz Buza Krisztián Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Klaszterezés kiértékelése Feladat:

Részletesebben

Entity Resolution azonosságfeloldás

Entity Resolution azonosságfeloldás 1 Entity Resolution azonosságfeloldás Entity Resolution (ER) is the process of identifying groups of records that refer to the same real-world entity. rejtett, való világbeli entitásokhoz köthető megfigyelések

Részletesebben

Tudásalapú információ integráció

Tudásalapú információ integráció Tudásalapú információ integráció (A Szemantikus Web megközelítés és a másik irány) Tanszéki értekezlet, 2008. május 14. 1 Miért van szükségünk ilyesmire? WWW: (Alkalmazások) Keresés a weben (pl. összehasonlítás

Részletesebben

Sikerünk kulcsa: az információ De honnan lesz adatunk? Palaczk Péter

Sikerünk kulcsa: az információ De honnan lesz adatunk? Palaczk Péter Sikerünk kulcsa: az információ De honnan lesz adatunk? Palaczk Péter Bevezető az Oracle9i adattárházas újdonságaihoz Elemzési és vezetői információs igények 80:20 az adatgyűjtés javára! Adattárházak kínálta

Részletesebben

Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben.

Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben. Tartalom Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben. Előszó 1. Az adatbányászatról általában 19 1.1. Miért adatbányászat? 21 1.2. Technológia a rejtett információk

Részletesebben

Entity Resolution azonosságfeloldás

Entity Resolution azonosságfeloldás Entity Resolution azonosságfeloldás Témák: probléma leírása, példák, változatok megoldások: attribútum-hasonlóság alapúak kapcsolat alapúak (hálózati) egzakt szabály alapúak új eredmények: megoldások minőségének

Részletesebben

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31. Regresszió Csorba János Nagyméretű adathalmazok kezelése 2010. március 31. A feladat X magyarázó attribútumok halmaza Y magyarázandó attribútumok) Kérdés: f : X -> Y a kapcsolat pár tanítópontban ismert

Részletesebben

1. gyakorlat. Mesterséges Intelligencia 2.

1. gyakorlat. Mesterséges Intelligencia 2. 1. gyakorlat Mesterséges Intelligencia. Elérhetőségek web: www.inf.u-szeged.hu/~gulyasg mail: gulyasg@inf.u-szeged.hu Követelmények (nem teljes) gyakorlat látogatása kötelező ZH írása a gyakorlaton elhangzott

Részletesebben

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén Dombi József Szegedi Tudományegyetem Bevezetés - ID3 (Iterative Dichotomiser 3) Az ID algoritmusok egy elemhalmaz felhasználásával

Részletesebben

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből 2010/2011 tavaszi félév SZTE Eötvös Loránd Kollégium 1. Dombi József: Fuzzy elmélet és alkalmazásai 2011. március 3. 19:00 2. Móra György: Információkinyerés természetes nyelvű szövegekből 2011. március

Részletesebben

Vállalati információs rendszerek I, MIN5B6IN, 5 kredit, K. 4. A meghirdetés ideje (mintatanterv szerint vagy keresztfélében):

Vállalati információs rendszerek I, MIN5B6IN, 5 kredit, K. 4. A meghirdetés ideje (mintatanterv szerint vagy keresztfélében): Követelményrendszer 1. Tantárgynév, kód, kredit, választhatóság: Vállalati információs rendszerek I, MIN5B6IN, 5 kredit, K 2. Felelős tanszék: Informatika Szakcsoport 3. Szak, szakirány, tagozat: Műszaki

Részletesebben

Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS)

Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS) Networkshop, 2008 Márc. 17 19., Dunaújváros Holl Erdődi: Fejlett kereső... 1 Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS) Holl András Erdődi Péter MTA Konkoly Thege Miklós

Részletesebben

Adatbányászati technikák (VISZM185) 2015 tavasz

Adatbányászati technikák (VISZM185) 2015 tavasz Adatbányászati technikák (VISZM185) 2015 tavasz Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2015. február 11. Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 1 / 27

Részletesebben

Big Data az adattárházban

Big Data az adattárházban Big Data az adattárházban A párbaj folytatódik? Néhány fontos Big Data projekt Cég Téma Adat Újfajta Mennyiség Saját adat? Típus Google Influenza Google I big I Előjelzés előjelzés Farecast Xoom Chicagoi

Részletesebben

Entity Resolution azonosságfeloldás

Entity Resolution azonosságfeloldás 1 Entity Resolution azonosságfeloldás Entity Resolution (ER) is the process of identifying groups of records that refer to the same real-world entity. rejtett, való világbeli entitásokhoz köthető megfigyelések

Részletesebben

Adatelemzés és adatbányászat MSc

Adatelemzés és adatbányászat MSc Adatelemzés és adatbányászat MSc 12. téma Klaszterezési módszerek Klaszterezés célja Adott az objektumok, tulajdonságaik együttese. Az objektumok között hasonlóságot és különbözőséget fedezhetünk fel.

Részletesebben

Adatbányászat: Klaszterezés Alapfogalmak és algoritmusok

Adatbányászat: Klaszterezés Alapfogalmak és algoritmusok Adatbányászat: Klaszterezés Alapfogalmak és algoritmusok 8. fejezet Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította Ispány Márton Tan,Steinbach, Kumar Introduction to Data

Részletesebben

Adatszerkezetek 2. Dr. Iványi Péter

Adatszerkezetek 2. Dr. Iványi Péter Adatszerkezetek 2. Dr. Iványi Péter 1 Fák Fákat akkor használunk, ha az adatok között valamilyen alá- és fölérendeltség van. Pl. könyvtárszerkezet gyökér (root) Nincsennek hurkok!!! 2 Bináris fák Azokat

Részletesebben

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Klaszteranalízis Hasonló dolgok csoportosítását jelenti, gyakorlatilag az osztályozás szinonimájaként értelmezhetjük. A klaszteranalízis célja A klaszteranalízis alapvető célja, hogy a megfigyelési egységeket

Részletesebben

Multimédiás adatbázisok

Multimédiás adatbázisok Multimédiás adatbázisok Multimédiás adatbázis kezelő Olyan adatbázis kezelő, mely támogatja multimédiás adatok (dokumentum, kép, hang, videó) tárolását, módosítását és visszakeresését Minimális elvárás

Részletesebben

Data Vault adatmodellezés.

Data Vault adatmodellezés. Data Vault adatmodellezés Nemeth.Zoltan@iqpp.hu Új adattárház adatmodellezési módszer Dan Linstedt nevéhez fűződik Ismérvei Részletes, tételes adatok Történetiség kezelése Data Vault Üzleti területek köré

Részletesebben

Adatbázis, adatbázis-kezelő

Adatbázis, adatbázis-kezelő Adatbázisok I. rész Adatbázis, adatbázis-kezelő Adatbázis: Nagy adathalmaz Közvetlenül elérhető háttértárolón (pl. merevlemez) Jól szervezett Osztott Adatbázis-kezelő szoftver hozzáadás, lekérdezés, módosítás,

Részletesebben

Intelligens adatelemzés

Intelligens adatelemzés Antal Péter, Antos András, Horváth Gábor, Hullám Gábor, Kocsis Imre, Marx Péter, Millinghoffer András, Pataricza András, Salánki Ágnes Intelligens adatelemzés Szerkesztette: Antal Péter A jegyzetben az

Részletesebben

2. 3. Keresés az Interneten. Navigáció az Interneten: Megoldások. Internetes keresés buktatói. 1. Keresőmotorok. Webes keresési lehetőségek

2. 3. Keresés az Interneten. Navigáció az Interneten: Megoldások. Internetes keresés buktatói. 1. Keresőmotorok. Webes keresési lehetőségek Keresés az Interneten Navigáció az Interneten: Keresőrendszerek, keresési tippek Egyszerű keresőrendszerek Tematikus keresőrendszerek, katalógusok Portálok Adatbázisok, online folyóiratok Elektronikus

Részletesebben

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására VÉGZŐS KONFERENCIA 2009 2009. május 20, Budapest Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására Hidasi Balázs hidasi@tmit.bme.hu Konzulens: Gáspár-Papanek Csaba Budapesti

Részletesebben

Az adatok a vállalat kulcsfontosságú erőforrásai. Az információs rendszer adatai kezelésének két alapvető változata:

Az adatok a vállalat kulcsfontosságú erőforrásai. Az információs rendszer adatai kezelésének két alapvető változata: ADATSZERVEZÉS Az adatok a vállalat kulcsfontosságú erőforrásai. Az információs rendszer adatai kezelésének két alapvető változata: fájlrendszerek (a konvencionális módszer) és adatbázis rendszerek (a haladóbb

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 10 X. SZIMULÁCIÓ 1. VÉLETLEN számok A véletlen számok fontos szerepet játszanak a véletlen helyzetek generálásában (pénzérme, dobókocka,

Részletesebben

Ellenőrző kérdések. 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t

Ellenőrző kérdések. 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t Ellenőrző kérdések 2. Kis dolgozat kérdései 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t 37. Ha t szintű indexet használunk,

Részletesebben

Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára

Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára Vázsonyi Miklós VÁZSONYI Informatikai és Tanácsadó Kft. BME Információ- és Tudásmenedzsment Tanszék 1/23 Tartalom A MEK jelenlegi

Részletesebben

Mérési struktúrák

Mérési struktúrák Mérési struktúrák 2007.02.19. 1 Mérési struktúrák A mérés művelete: a mérendő jellemző és a szimbólum halmaz közötti leképezés megvalósítása jel- és rendszerelméleti aspektus mérési folyamat: a leképezést

Részletesebben

Statisztikai eljárások a mintafelismerésben és a gépi tanulásban

Statisztikai eljárások a mintafelismerésben és a gépi tanulásban Statisztikai eljárások a mintafelismerésben és a gépi tanulásban Varga Domonkos (I.évf. PhD hallgató) 2014 május A prezentáció felépítése 1) Alapfogalmak 2) A gépi tanulás, mintafelismerés alkalmazási

Részletesebben

Térinformatikai adatszerkezetek

Térinformatikai adatszerkezetek Térinformatikai adatszerkezetek 1. Pont Egy többdimenziós pont reprezentálható sokféle módon. A választott reprezentáció függ attól, hogy milyen alkalmazás során akarjuk használni, és milyen típusú műveleteket

Részletesebben

Leggyakrabban használt adatbányászási technikák. Vezetői információs rendszerek

Leggyakrabban használt adatbányászási technikák. Vezetői információs rendszerek Leggyakrabban használt adatbányászási technikák ADATBÁNYÁSZÁS II. 1. A társításelemzés társítási szabályok (asszociációs szabályok) feltárását jelenti. Azt vizsgájuk, hogy az adatbázis elemei között létezik-e

Részletesebben

Adatmodellezés. 1. Fogalmi modell

Adatmodellezés. 1. Fogalmi modell Adatmodellezés MODELL: a bonyolult (és időben változó) valóság leegyszerűsített mása, egy adott vizsgálat céljából. A modellben többnyire a vizsgálat szempontjából releváns jellemzőket (tulajdonságokat)

Részletesebben

Informatikai alapismeretek Földtudományi BSC számára

Informatikai alapismeretek Földtudományi BSC számára Informatikai alapismeretek Földtudományi BSC számára 2010-2011 Őszi félév Heizlerné Bakonyi Viktória HBV@ludens.elte.hu Titkosítás,hitelesítés Szimmetrikus DES 56 bites kulcs (kb. 1000 év) felcserél, helyettesít

Részletesebben

Idősorok elemzése. Salánki Ágnes

Idősorok elemzése. Salánki Ágnes Idősorok elemzése Salánki Ágnes salanki.agnes@gmail.com 2012.04.13. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék 1 Idősorok analízise Alapfogalmak Komponenselemzés

Részletesebben

KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / 2014.10.16. Mezei Ferenc üzletág-igazgató

KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / 2014.10.16. Mezei Ferenc üzletág-igazgató KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / 2014.10.16. Mezei Ferenc üzletág-igazgató Hasonló, mégis más Ez se rossz amíg ezt ki nem próbáltad!

Részletesebben

Adatbázis-kezelés. alapfogalmak

Adatbázis-kezelés. alapfogalmak Adatbázis-kezelés alapfogalmak Témakörök Alapfogalmak Adatmodellek Relációalgebra Normalizálás VÉGE Adatbázis-kezelő rendszer Database Management System - DBMS Integrált programcsomag, melynek funkciói:

Részletesebben

Témaválasztás, kutatási kérdések, kutatásmódszertan

Témaválasztás, kutatási kérdések, kutatásmódszertan Témaválasztás, kutatási kérdések, kutatásmódszertan Dr. Dernóczy-Polyák Adrienn PhD egyetemi adjunktus, MMT dernoczy@sze.hu A projekt címe: Széchenyi István Egyetem minőségi kutatói utánpótlás nevelésének

Részletesebben

Microsoft SQL Server telepítése

Microsoft SQL Server telepítése Microsoft SQL Server telepítése Az SQL Server a Microsoft adatbázis kiszolgáló megoldása Windows operációs rendszerekre. Az SQL Server 1.0 verziója 1989-ben jelent meg, amelyet tizenegy további verzió

Részletesebben

Ügyfél- és címadatok feldolgozása Talenddel

Ügyfél- és címadatok feldolgozása Talenddel Ügyfél- és címadatok feldolgozása Talenddel 2012.október 4. Dr. Miskolczi Mátyás, Kiss György A Stratisról röviden Jellemzők - Alapítva: 1998 - Tisztán magyar tulajdon - 50 tanácsadó - 140 ügyfél - 500+

Részletesebben

Access gyakorlati feladatok lépésről lépésre

Access gyakorlati feladatok lépésről lépésre Access gyakorlati feladatok lépésről lépésre 1. feladat: Hajómenetrend A balatoni hajómenetrend rendelkezésünkre áll a menetrend.txt állományban. Készítsen új adatbázist HAJO néven! A mellékelt adatállományt

Részletesebben

Gyors sikerek adatbányászati módszerekkel

Gyors sikerek adatbányászati módszerekkel Gyors sikerek adatbányászati módszerekkel Kezdő adatbányászati workshop Petrócziné Huczman Zsuzsanna 2015.10.13. Bemutatkozás BME, műszaki informatika szak, adatbányászati szakirány Citibank Data Explorer

Részletesebben

Többfelhasználós és internetes térkép kezelés, megjelenítés

Többfelhasználós és internetes térkép kezelés, megjelenítés Többfelhasználós és internetes térkép kezelés, megjelenítés Többfelhasználós környezetek Egyszerű fájlszerveres megoldás, LAN (Novel, Windows hálózat) Egy fájl egyidejű módosítása több helyről nem lehetséges

Részletesebben

8. Pontmegfeleltetések

8. Pontmegfeleltetések 8. Pontmegfeleltetések Kató Zoltán Képfeldolgozás és Számítógépes Grafika tanszék SZTE (http://www.inf.u-szeged.hu/~kato/teaching/) 2 Példa: panoráma kép készítés 1. Jellemzőpontok detektálása mindkét

Részletesebben

DW 9. előadás DW tervezése, DW-projekt

DW 9. előadás DW tervezése, DW-projekt DW 9. előadás DW tervezése, DW-projekt Követelmény felmérés DW séma tervezése Betöltési modul tervezése Fizikai DW tervezése OLAP felület tervezése Hardver kiépítése Implementáció Tesztelés, bevezetés

Részletesebben

Adatkeresés az interneten. Cicer Norbert 12/K.

Adatkeresés az interneten. Cicer Norbert 12/K. Adatkeresés az interneten Cicer Norbert 12/K. Internetes keresőoldalak Az internet gyakorlatilag végtelen adatmennyiséget tartalmaz A dokumentumokat és egyéb adatokat szolgáltató szerverek száma több millió,

Részletesebben

Asszociációs szabályok

Asszociációs szabályok Asszociációs szabályok Nikházy László Nagy adathalmazok kezelése 2010. március 10. Mi az értelme? A ö asszociációs szabály azt állítja, hogy azon vásárlói kosarak, amik tartalmaznak pelenkát, általában

Részletesebben

Fekete Csaba Csongor Üzleti intelligencia vezető Citibank ZRt.

Fekete Csaba Csongor Üzleti intelligencia vezető Citibank ZRt. Fekete Csaba Csongor Üzleti intelligencia vezető Citibank ZRt. Tartalom BI mérföld kövek Kezdeti architektúra és kontextus Lokális Adattárház Kialakítása CRM Evolúció Üzleti Intelligencia kiaknázó eszközök

Részletesebben

Adatbázis rendszerek. dr. Siki Zoltán

Adatbázis rendszerek. dr. Siki Zoltán Adatbázis rendszerek I. dr. Siki Zoltán Adatbázis fogalma adatok valamely célszerűen rendezett, szisztéma szerinti tárolása Az informatika elterjedése előtt is számos adatbázis létezett pl. Vállalati személyzeti

Részletesebben

Számítógépes döntéstámogatás. Bevezetés és tematika

Számítógépes döntéstámogatás. Bevezetés és tematika SZDT-01 p. 1/18 Számítógépes döntéstámogatás Bevezetés és tematika Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu Előadás SZDT-01 p. 2/18 SZDT-01

Részletesebben

Google App Engine az Oktatásban 1.0. ügyvezető MattaKis Consulting http://www.mattakis.com

Google App Engine az Oktatásban 1.0. ügyvezető MattaKis Consulting http://www.mattakis.com Google App Engine az Oktatásban Kis 1.0 Gergely ügyvezető MattaKis Consulting http://www.mattakis.com Bemutatkozás 1998-2002 között LME aktivista 2004-2007 Siemens PSE mobiltelefon szoftverfejlesztés,

Részletesebben

Hozzávalók keresése és csatolása

Hozzávalók keresése és csatolása Hozzávalók keresése és csatolása VUE támogatja digitális tartalmak hozzáadását saját gépről, WEB-ről, távoli rendszerekből, mint az FTP oldalak, digitális forrásokból és Google szerverekről. A tartalmak

Részletesebben

Vezetői információs rendszerek

Vezetői információs rendszerek Vezetői információs rendszerek Kiadott anyag: Vállalat és információk Elekes Edit, 2015. E-mail: elekes.edit@eng.unideb.hu Anyagok: eng.unideb.hu/userdir/vezetoi_inf_rd 1 A vállalat, mint információs rendszer

Részletesebben

Hálózati elemzések az üzleti életben. Kovács Gyula Sixtep Kft.

Hálózati elemzések az üzleti életben. Kovács Gyula Sixtep Kft. Hálózati elemzések az üzleti életben Kovács Gyula Sixtep Kft. Hálózat kutatás rövid ismertetése Königsbergi hidak problémája Háttér: A probléma története, hogy a poroszországi Königsberg (most Kalinyingrád,

Részletesebben

I. RÉSZ. Tartalom. Köszönetnyilvánítás...13 Bevezetés...15

I. RÉSZ. Tartalom. Köszönetnyilvánítás...13 Bevezetés...15 Tartalom 5 Tartalom Köszönetnyilvánítás...13 Bevezetés...15 I. RÉSZ AZ ALAPOK... 17 1. fejezet Egy kis történelem...19 A korai MIS rendszerektől az alapgondolatig...19 Operatív és analitikus rendszerek

Részletesebben

VIR alapfogalmai. Előadásvázlat. dr. Kovács László

VIR alapfogalmai. Előadásvázlat. dr. Kovács László VIR alapfogalmai Előadásvázlat dr. Kovács László Információ szerepe Információ-éhes világban élünk Mi is az információ? - újszerű ismeret - jelentés Hogyan mérhető az információ? - statisztikai - szintaktikai

Részletesebben

Számítógépes döntéstámogatás. Genetikus algoritmusok

Számítógépes döntéstámogatás. Genetikus algoritmusok BLSZM-10 p. 1/18 Számítógépes döntéstámogatás Genetikus algoritmusok Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu BLSZM-10 p. 2/18 Bevezetés 1950-60-as

Részletesebben

Van-e ingyen-ebéd? Avagy mire elég a nyílt forráskodú Pentaho? Fekszi Csaba Ügyvezető 2012. október 4.

Van-e ingyen-ebéd? Avagy mire elég a nyílt forráskodú Pentaho? Fekszi Csaba Ügyvezető 2012. október 4. Van-e ingyen-ebéd? Avagy mire elég a nyílt forráskodú Pentaho? Fekszi Csaba Ügyvezető 2012. október 4. Omnit Solutions 2007 óta a piacon BI & adattárház tanácsadás 20 fős csapat Oracle, IBM és Pentaho

Részletesebben

Történet John Little (1970) (Management Science cikk)

Történet John Little (1970) (Management Science cikk) Információ menedzsment Szendrői Etelka Rendszer- és Szoftvertechnológia Tanszék szendroi@witch.pmmf.hu Vezetői információs rendszerek Döntéstámogató rendszerek (Decision Support Systems) Döntések információn

Részletesebben

Önkiszolgáló BI Az üzleti proaktivítás eszköze. Budapest,

Önkiszolgáló BI Az üzleti proaktivítás eszköze. Budapest, Önkiszolgáló BI Az üzleti proaktivítás eszköze Budapest, 2016.10.27 Tartalom 1. Kihívások Való Világ 2. Hogyan segít az Önkiszolgáló BI? confidential 10/26/2016 2 Riportokkal szembeni igények alakulása

Részletesebben

2 Access 2016 zsebkönyv

2 Access 2016 zsebkönyv 2 Access 2016 zsebkönyv BBS-INFO Kiadó, 2016. 4 Access 2016 zsebkönyv Bártfai Barnabás, 2016. Minden jog fenntartva! A könyv vagy annak oldalainak másolása, sokszorosítása csak a szerző írásbeli hozzájárulásával

Részletesebben

Adatbányászat az Oracle9i-ben. Fekete Zoltán vezető termékmenedzser Zoltan.Fekete@oracle.com

Adatbányászat az Oracle9i-ben. Fekete Zoltán vezető termékmenedzser Zoltan.Fekete@oracle.com Agenda Az Oracle9i adattárház tulajdonságai Adatbányászat az Oracle9i-ben DM, Personalization az Oracle9i-ben, architektúra Integrált adatbányászat az Oracle CRM-ben Szünet Perszonalizációs felhasználási

Részletesebben

Elengedhetetlen a játékokban, mozi produkciós eszközökben Nélküle kvantum hatás lép fel. Az objektumok áthaladnak a többi objektumon

Elengedhetetlen a játékokban, mozi produkciós eszközökben Nélküle kvantum hatás lép fel. Az objektumok áthaladnak a többi objektumon Bevezetés Ütközés detektálás Elengedhetetlen a játékokban, mozi produkciós eszközökben Nélküle kvantum hatás lép fel Az objektumok áthaladnak a többi objektumon A valósághű megjelenítés része Nem tisztán

Részletesebben

Sztöchiometriai egyenletrendszerek minimális számú aktív változót tartalmazó megoldásainak meghatározása a P-gráf módszertan alkalmazásával

Sztöchiometriai egyenletrendszerek minimális számú aktív változót tartalmazó megoldásainak meghatározása a P-gráf módszertan alkalmazásával Sztöchiometriai egyenletrendszerek minimális számú aktív változót tartalmazó megoldásainak meghatározása a P-gráf módszertan alkalmazásával * Pannon Egyetem, M szaki Informatikai Kar, Számítástudomány

Részletesebben

Adatszerkezetek. Nevezetes algoritmusok (Keresések, rendezések)

Adatszerkezetek. Nevezetes algoritmusok (Keresések, rendezések) Adatszerkezetek Nevezetes algoritmusok (Keresések, rendezések) Keresések A probléma általános megfogalmazása: Adott egy N elemű sorozat, keressük meg azt az elemet (határozzuk meg a helyét a sorozatban),

Részletesebben

Random Forests - Véletlen erdők

Random Forests - Véletlen erdők Random Forests - Véletlen erdők Szabó Adrienn Adatbányászat és Webes Keresés Kutatócsoport 2010 Tartalom Fő forrás: Leo Breiman: Random Forests Machine Learning, 45, 5-32, 2001 Alapok Döntési fa Véletlen

Részletesebben

Babeş Bolyai Tudományegyetem, Kolozsvár Matematika és Informatika Kar Magyar Matematika és Informatika Intézet

Babeş Bolyai Tudományegyetem, Kolozsvár Matematika és Informatika Kar Magyar Matematika és Informatika Intézet / Babeş Bolyai Tudományegyetem, Kolozsvár Matematika és Informatika Kar Magyar Matematika és Informatika Intézet / Tartalom 3/ kernelek segítségével Felügyelt és félig-felügyelt tanulás felügyelt: D =

Részletesebben

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók Matematikai alapok és valószínőségszámítás Középértékek és szóródási mutatók Középértékek A leíró statisztikák talán leggyakrabban használt csoportját a középértékek jelentik. Legkönnyebben mint az adathalmaz

Részletesebben

Magic xpi 4.0 vadonatúj Architektúrája Gigaspaces alapokon

Magic xpi 4.0 vadonatúj Architektúrája Gigaspaces alapokon Magic xpi 4.0 vadonatúj Architektúrája Gigaspaces alapokon Mi az IMDG? Nem memóriában futó relációs adatbázis NoSQL hagyományos relációs adatbázis Más fajta adat tárolás Az összes adat RAM-ban van, osztott

Részletesebben

file:///d:/okt/ad/jegyzet/ad1/b+fa.html

file:///d:/okt/ad/jegyzet/ad1/b+fa.html 1 / 5 2016. 11. 30. 12:58 B+ fák CSci 340: Database & Web systems Home Syllabus Readings Assignments Tests Links Computer Science Hendrix College Az alábbiakban Dr. Carl Burch B+-trees című Internetes

Részletesebben

Projektvezetői döntések támogatása webbányászattal

Projektvezetői döntések támogatása webbányászattal NETWORKSHOP 2008 2008. március 17-19. Dunaújváros, Dunaújvárosi Főiskola Projektvezetői döntések támogatása webbányászattal Bóta László Ph.D. hallgató (BME) Eszterházy Károly Főiskola, Eger BI (Business

Részletesebben

Hogyan fogalmazzuk meg egyszerűen, egyértelműen a programozóknak, hogy milyen lekérdezésre, kimutatásra, jelentésre van szükségünk?

Hogyan fogalmazzuk meg egyszerűen, egyértelműen a programozóknak, hogy milyen lekérdezésre, kimutatásra, jelentésre van szükségünk? Hogyan fogalmazzuk meg egyszerűen, egyértelműen a programozóknak, hogy milyen lekérdezésre, kimutatásra, jelentésre van szükségünk? Nem szükséges informatikusnak lennünk, vagy mélységében átlátnunk az

Részletesebben

TOP SEO Trendek 2015-ben. We understand, we deliver.

TOP SEO Trendek 2015-ben. We understand, we deliver. TOP SEO Trendek 2015-ben We understand, we deliver. Önök szerint Elvis Presley halott? Elvis Presley is dead: 7 150 000 találat Elvis Presley is not dead: 1 550 000 találat Az Google szerint Elvis sajnos

Részletesebben

Adatbázis rendszerek. 4. előadás Redundancia, normalizálás

Adatbázis rendszerek. 4. előadás Redundancia, normalizálás Adatbázis rendszerek 4. előadás Redundancia, normalizálás Molnár Bence Szerkesztette: Koppányi Zoltán HF tapasztalatok HF tapasztalatok [ABR] az email címbe! Ne emailbe küldjük a házikat, töltsétek fel

Részletesebben

Enterprise extended Output Management. exom - Greendoc Systems Kft. 1

Enterprise extended Output Management. exom - Greendoc Systems Kft. 1 Enterprise extended Output Management exom - Greendoc Systems Kft. 1 exom - Greendoc Systems Kft. 2 Sokféle bementi adatformátum kezelése Adatok fogadása különböző csatornákon Előfeldolgozás: típus meghatározás,

Részletesebben

Vezetői információs rendszerek

Vezetői információs rendszerek Vezetői információs rendszerek 7. előadás: Stratégiai menedzsment és informatikai támogatás 2. Elekes Edit, 2015. E-mail: elekes.edit@eng.unideb.hu Anyagok: eng.unideb.hu/userdir/elekes Edit/Vezetoi_inf_rd

Részletesebben

A hierarchikus adatbázis struktúra jellemzői

A hierarchikus adatbázis struktúra jellemzői A hierarchikus adatbázis struktúra jellemzői Az első adatbázis-kezelő rendszerek a hierarchikus modellen alapultak. Ennek az volt a magyarázata, hogy az élet sok területén első közelítésben elég jól lehet

Részletesebben

Infor PM10 Üzleti intelligencia megoldás

Infor PM10 Üzleti intelligencia megoldás Infor PM10 Üzleti intelligencia megoldás Infor Üzleti intelligencia (Teljesítmény menedzsment) Web Scorecard & Műszerfal Excel Email riasztás Riportok Irányít Összehangol Ellenőriz Stratégia Stratégia

Részletesebben

Webes keres rendszerek. Webtechnológiák. Webes keres rendszerek. Webes keres rendszerek. Répási Tibor egyetemi tanársegéd

Webes keres rendszerek. Webtechnológiák. Webes keres rendszerek. Webes keres rendszerek. Répási Tibor egyetemi tanársegéd Webtechnológiák Webes keresrendszerek Répási Tibor egyetemi tanársegéd Miskolc Egyetem,Gépészmérnöki kar, Infomatikai és Villamosmérnöki Tanszékcsoport (IVM) Általános Informatikai Tanszék Iroda: Inf.Int.

Részletesebben

Bánsághi Anna anna.bansaghi@mamikon.net. Bánsághi Anna 1 of 70

Bánsághi Anna anna.bansaghi@mamikon.net. Bánsághi Anna 1 of 70 SZOFTVERTECHNOLÓGIA Bánsághi Anna anna.bansaghi@mamikon.net 7. ELŐADÁS - RENDSZERTERVEZÉS 3 Bánsághi Anna 1 of 70 TEMATIKA I. SZOFTVERTECHNOLÓGIA ALTERÜLETEI II. KÖVETELMÉNY MENEDZSMENT III. RENDSZERMODELLEK

Részletesebben

Adatmanipuláció, transzformáció, szelekció SPSS-ben

Adatmanipuláció, transzformáció, szelekció SPSS-ben Adatmanipuláció, transzformáció, szelekció SPSS-ben Statisztikai szoftver alkalmazás Géczi-Papp Renáta Számított változó A már meglévő adatokból (változókból) további adatokat származtathatunk. munkavállalók.sav

Részletesebben

Amortizációs költségelemzés

Amortizációs költségelemzés Amortizációs költségelemzés Amennyiben műveleteknek egy M 1,...,M m sorozatának a futási idejét akarjuk meghatározni, akkor egy lehetőség, hogy külön-külön minden egyes művelet futási idejét kifejezzük

Részletesebben

AZ ÜGYFÉL KOMMUNIKÁCIÓ ÚJ FORMÁI POZITÍV ÜGYFÉLÉLMÉNY SZÖVEGBÁNYÁSZATI MEGOLDÁSOK

AZ ÜGYFÉL KOMMUNIKÁCIÓ ÚJ FORMÁI POZITÍV ÜGYFÉLÉLMÉNY SZÖVEGBÁNYÁSZATI MEGOLDÁSOK AZ ÜGYFÉL KOMMUNIKÁCIÓ ÚJ FORMÁI POZITÍV ÜGYFÉLÉLMÉNY SZÖVEGBÁNYÁSZATI MEGOLDÁSOK HOFGESANG PÉTER ÜZLETI INTELLIGENCIA A JÖVŐ, AHOGY MI LÁTJUK Hagyományos és új kommunikációs formák Szöveges adatok Szöveganalitika

Részletesebben

CAD Rendszerek I. Sajátosság alapú tervezés - Szinkron modellezés

CAD Rendszerek I. Sajátosság alapú tervezés - Szinkron modellezés CAD Rendszerek I. Sajátosság alapú tervezés - Szinkron modellezés Farkas Zsolt Budapesti Műszaki és Gazdaságtudományi Egyetem, Gép- és Terméktervezés Tanszék 1/ 14 Tartalom -Sajátosság alapú tervezés:

Részletesebben

Programozási technikák Pál László. Sapientia EMTE, Csíkszereda, 2009/2010

Programozási technikák Pál László. Sapientia EMTE, Csíkszereda, 2009/2010 Programozási technikák Pál László Sapientia EMTE, Csíkszereda, 2009/2010 12. ELŐADÁS Adatbázis-kezelés Delphiben 2 Adatmegjelenítés lekérdezés segítségével A táblákhoz hasonlóan a lekérdezések is az adatbázis

Részletesebben

Minden az adatról. Csima Judit. 2015. február 11. BME, VIK, Csima Judit Minden az adatról 1 / 41

Minden az adatról. Csima Judit. 2015. február 11. BME, VIK, Csima Judit Minden az adatról 1 / 41 Minden az adatról Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2015. február 11. Csima Judit Minden az adatról 1 / 41 Adat: alapfogalmak Adathalmaz elvileg bármi, ami információt

Részletesebben

Rendezések. A rendezési probléma: Bemenet: Kimenet: n számot tartalmazó (a 1,a 2,,a n ) sorozat

Rendezések. A rendezési probléma: Bemenet: Kimenet: n számot tartalmazó (a 1,a 2,,a n ) sorozat 9. Előadás Rendezések A rendezési probléma: Bemenet: n számot tartalmazó (a 1,a 2,,a n ) sorozat Kimenet: a bemenő sorozat olyan (a 1, a 2,,a n ) permutációja, hogy a 1 a 2 a n 2 Rendezések Általánosabban:

Részletesebben

RELÁCIÓS ADATBÁZISSÉMÁK. Egyed-kapcsolat modellről átírás

RELÁCIÓS ADATBÁZISSÉMÁK. Egyed-kapcsolat modellről átírás RELÁCIÓS ADATBÁZISSÉMÁK Egyed-kapcsolat modellről átírás A RELÁCIÓS ADATMODELL Az adatokat egyszerűen reprezentálja: kétdimenziós adattáblákban Minden sor azonos számú oszlopból áll; egy sor egy rekord,

Részletesebben

A szürke háttérrel jelölt fejezet/alfejezet szövege a CD-mellékleten található. A CD-melléklet használata. 1. Elméleti áttekintés 1

A szürke háttérrel jelölt fejezet/alfejezet szövege a CD-mellékleten található. A CD-melléklet használata. 1. Elméleti áttekintés 1 A szürke háttérrel jelölt fejezet/alfejezet szövege a CD-mellékleten található meg. A CD-melléklet használata Bevezetés xi xiii 1. Elméleti áttekintés 1 1.1. Adatmodellezés 3 1.2. Táblák, oszlopok és sorok

Részletesebben

Információ megjelenítés Számítógépes ábrázolás. Dr. Iványi Péter

Információ megjelenítés Számítógépes ábrázolás. Dr. Iványi Péter Információ megjelenítés Számítógépes ábrázolás Dr. Iványi Péter Raszterizáció OpenGL Mely pixelek vannak a primitíven belül fragment generálása minden ilyen pixelre Attribútumok (pl., szín) hozzárendelése

Részletesebben

Felvételi tematika INFORMATIKA

Felvételi tematika INFORMATIKA Felvételi tematika INFORMATIKA 2016 FEJEZETEK 1. Természetes számok feldolgozása számjegyenként. 2. Számsorozatok feldolgozása elemenként. Egydimenziós tömbök. 3. Mátrixok feldolgozása elemenként/soronként/oszloponként.

Részletesebben

Mesterséges Intelligencia Elektronikus Almanach. Konzorciumi partnerek

Mesterséges Intelligencia Elektronikus Almanach. Konzorciumi partnerek Mesterséges Intelligencia Elektronikus Almanach Konzorciumi partnerek 1 Konzorcium Budpesti Mőszaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Kar Méréstechnika és Információs Rendszerek

Részletesebben

Algoritmuselmélet. 2-3 fák. Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem. 8.

Algoritmuselmélet. 2-3 fák. Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem. 8. Algoritmuselmélet 2-3 fák Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem 8. előadás Katona Gyula Y. (BME SZIT) Algoritmuselmélet 8. előadás

Részletesebben

Copyright 2012, Oracle and/or its affiliates. All rights reserved.

Copyright 2012, Oracle and/or its affiliates. All rights reserved. 1 Oracle Felhő Alkalmazások: Gyorsabb eredmények alacsonyabb kockázattal Biber Attila Igazgató Alkalmazások Divízió 2 M I L L I Á RD 4 1 PERC MINDEN 5 PERCBŐL 5 6 Ember használ mobilt 7 FELHŐ SZOLGÁLTATÁS

Részletesebben

Adatszerkezetek 7a. Dr. IványiPéter

Adatszerkezetek 7a. Dr. IványiPéter Adatszerkezetek 7a. Dr. IványiPéter 1 Fák Fákat akkor használunk, ha az adatok között valamilyen alá- és fölérendeltség van. Pl. könyvtárszerkezet gyökér () Nincsennek hurkok!!! 2 Bináris fák Azokat a

Részletesebben

2. Készítsen awk szkriptet, amely kiírja az aktuális könyvtár összes alkönyvtárának nevét, amely februári keltezésű (bármely év).

2. Készítsen awk szkriptet, amely kiírja az aktuális könyvtár összes alkönyvtárának nevét, amely februári keltezésű (bármely év). 1. fejezet AWK 1.1. Szűrési feladatok 1. Készítsen awk szkriptet, ami kiírja egy állomány leghosszabb szavát. 2. Készítsen awk szkriptet, amely kiírja az aktuális könyvtár összes alkönyvtárának nevét,

Részletesebben

Programozás alapjai II. (7. ea) C++

Programozás alapjai II. (7. ea) C++ Programozás alapjai II. (7. ea) C++ Kiegészítő anyag: speciális adatszerkezetek Szeberényi Imre BME IIT M Ű E G Y E T E M 1 7 8 2 C++ programozási nyelv BME-IIT Sz.I. 2016.04.05. - 1

Részletesebben