Web spam szűrési módszerek
|
|
- Bálint Kovács
- 8 évvel ezelőtt
- Látták:
Átírás
1 Web spam szűrési módszerek Doktori értekezés tézisek Csalogány Károly Témavezető: Benczúr A. András Ph.D. Eötvös Loránd Tudományegyetem Informatikai Kar Információtudományi Tanszék Informatika Doktori Iskola Demetrovics János D.Sc. Az informatika alapjai és módszerei doktori program Demetrovics János D.Sc. Budapest, 2009.
2 1. Bevezetés A Web keresőrendszerei számára egyre nagyobb kihívást jelent a Web spam, a találati rangsor manipulációja céljából létrehozott tartalom terjedése [7]. Amit Singhal, a Google vezető kutatója becslése szerint 2004-ben a kereső spam iparágnak 4.5 milliárd dollár bevétele lehetett volna, ha képesek lettek volna befolyásolni az összes kereskedelmi jellegű keresések eredményeit [12]. A keresési listák előkelő helyei egyre nagyobb anyagi haszont jelentenek, így nem csoda, hogy a spammerek jelentős anyagi és emberi erőforrást fordítanak arra, hogy a keresőalgoritmusokat átverve befolyásolhassák a találatok sorrendjét. A jól ismert PageRank algoritmust többek között az is motiválta, hogy az egyszerű, csak a hiperhivatkozások számán alapuló rangsorolás nagyon könnyen befolyásolható volt. A kereső spam tevékenység során nagy számú domain nevet kell regisztrálni és fenntartani, ami jelentős anyagi ráfordítást igényel. Az spam működésmódjával ellentétben a spammerek egymással is versengenek a legjobb helyezésekért a keresési találatok között. A kereső spam tevékenység kőkemény üzlet az anyagi haszonért. A spamet nehéz pontosan definiálni, sőt a becsületes és spam Weboldalak közti határt is nehéz meghúzni, így a spam szűrési módszereket hatékonyságát is nehéz mérni. Általában csak a találati listák minőségével való megelégedettséget tudjuk mérni, ami eléggé szubjektív. Bár egyre bonyolultabb spam módszerek jennek meg, az alapvető technikák két kategóriába sorolhatók. A tartalom spam esetén a spammerek a Weboldal tartalmát módosítják, link spam esetén pedig az oldalak közötti hivatkozásokból alakítanak ki olyan struktúrát, ami félrevezeti a keresőalgoritmusokat. 2. Új eredmények A Webes keresők üzemeltetőinek mindennapjaihoz hozzátartozik spam oldalak listáinak karbantartása, ami jelentős emberi erőforrásat igényel. Az új eredményeim célja ennek a munkának a megkönnyítése potenciális spam oldalak automatikus felismerésével, vagy ismert már spam oldalakhoz hasonló, valószínűleg spam oldalak felderítésével. Értekezésemben öt új módszert írok le. Ebből kettő a Weboldalak körüli hiperhivatkozások elemzésére épül, a harmadik egyaránt használja link és tartalmi jellegzességeket, az utolsó kettő pedig a Weboldalak tartalma alapján ad módszert a Web spam szűrésére. 1. téziscsoport: SpamRank A spammerek általában úgy próbálják növelni egy adott Weboldal PageRank értékét, hogy jelentős számú hiperhivatkozást hoznak létre, amelyek az adott oldalra mutatnak. Módszerünk automatikusan felismeri 1
3 Algoritmus 2.1 A SpamRank algoritmus vázlata. for minden i Weboldalra do Support i, üres vektor 1. fázis: Támogatók keresése. Olyan csúcsok generálása Support i, -ba, amelyek jelentősen hozzájárulnak az i csúcs Pagerank-jéhez. 2. fázis: Büntetések kiszámítása. for minden i Weboldalra do A Penalty j büntetések kiszámítása Support i,j -beli csúcsok PageRank-jének irregularitása alapján. 3. fázis: A SpamRank kiszámítása a büntetés vektoron értelmezett perszonalizált PageRank segítségével. SpamRank PPR(Penalty) azokat a Weboldalakat, amelyeknek jogosulatlanul magas PageRank értékkel rendelkeznek. A módszer arra a feltételezésre épül, hogy a spameket támogató, jelentős forgalmat terelő oldalak PageRank értékének eloszlása eltérő a becsületes oldalakétól. A SpamRank módszer fő elemeit a 2.1. Algoritmus foglalja össze. Az 1. fázisban (2.2. Algoritmus) minden Weboldalra kiszámolunk egy hozzávetőleges személyre szabott PageRank értéket, amelyhez a [J1]-ben leírt Monte Carlo közelítést használjuk. Az algorimus a Webgráf minden csúcsához körülbelül 1000 támogató csúcsot rendel a hozzájuk tartozó Support i,j értékekkel. Ez az érték annak a valószínűségnek felel meg, hogy a j csúcsból induló véletlen PageRank séta az i csúcsban ér véget. Másképpen azt fejezzük ki, hogy a támogató j csúcs milyen mértékben járul hozzá a i csúcs PageRank értékéhez. Algoritmus fázis: Támogatók keresése Monte Carlo szimulációval. for minden j Weboldalra do for l = 1,...,N = 1000 do t véletlen érték egy ǫ paraméterű geometriai eloszlásból i egy j-ből induló t hosszúságú véletlen séta végpontja Support i,j Support i,j i + 1/N A SpamRank algoritmus 2. fázisában azonosítjuk azokat az oldalakat, amelyeket támogató csúcsok PageRank értéke eltér a megszokottól. A módszer az ismert Webgráf modellekre [1, 9] épül, amelyek szerint a Webgráfon a fokszámok hatványeloszlást követnek. A PageRank eloszlása nagyon hasonlóan viselkedik, és kísérletek [11, 5] azt mutatták, hogy nem csak az egesz Webgráfra érvenyes ez az eloszlás, hanem egy Weboldal kismeretű környezetében is. Módszerünk arra a tapasztalatra épül, hogy a spam oldalak környezete jelentősen különbözik a becsületes oldalakétól, mivel sok, egymáshoz hasonló mesterségesen generált oldalt tartalmaz. Az eloszlás szabálytalanságának méréséhez megvizsgáljuk a hatványeloszláshoz illesztés hibáját a következőképpen. A támogató oldalakat vödrökbe osztjuk a Pagerank értékük alapján, úgy hogy az egyes vödrökhöz tartozó PageRank intervallum hossza exponenciálisan növekszik. Ha a PageRank értékek hatványeloszlást 2
4 Algoritmus fázis: Büntetések kiszámítása. Minden i-re Penalty i 0 for minden i Weboldalra, amelynek legalább n 0, pozitív Support i,j -vel rendelkező támogatója van do ρ az i támogatóinak szabályossága if ρ < ρ 0 then for minden j Weboldalra, { ahol Support i,j > 0 do (ρ 0 ρ) {1. változat} Penalty j Penalty j + {ρ 0 = 0.85} for minden j Weboldalra do if Penalty j > 1 then Penalty j 1 (ρ 0 ρ) Support i,j {2. változat} követnek, akkor az egyes vödrökbe kerülő oldalak számának a logaritmusa lineárisan növekszik. Az algoritmusunkban vödör sorszáma és az elemszám logaritmusa közötti Pearson korrelációt (ρ 1) használtuk a szabályosság mértékeként, ahol a tökéletes egyezést ρ = 1 jelenti. Ha ρ kisebb, mint egy adott küszöbérték (ρ 0 ), akkor az adott oldal büntetésének mértékét a (ρ 0 ρ) különbség határozza meg. Egy adott i oldal büntetésének kiszámításához azokat a j támogató oldalakat használtuk, amelyekre Support i,j > 0. Azokat az oldalakat nem büntetjük, amelyeket támogató oldalak száma kisebb, mint n 0 = A SpamRank algoritmus utolsó, 3. fázisában kapjuk az egyes oldalak végső SpamRank értékét. Ezt az egyes oldalak büntetéseiből álló vektoron kiszámolt perszonalizált PageRank vektorként kapjuk. A SpamRank algoritmus az legelsőként publikált spamszűrési eredmények egyike. A konferencia változatot [C1] eddig 54-szer hivatkozták. Az eredmények Benczúr Andrással, Sarlós Tamással és Uher Mátéval közösek. Az eredményekhez az algoritmus részleteinek kidolgozásával és a kiértékeléssel járultam hozzá tézis. A SpamRank módszer [J2, C1] A méréseink alapján a SpamRank módszer képes különbséget tenni spam és nem spam oldalak között. A méréseket a.de doménhez tartozó 31 millió oldalból álló adathalmazon teszteltük, melyhez egy 1000 oldalból álló felcímkézett minta állt a rendelkezésünkre. 2. téziscsoport: Hivatkozás-alapú hasonlóság Egy spam oldal általában nem izoláltan jelenik meg. A spammerek nagy számú, többé-kevésbé hasonló Weboldalakból álló farmokat generálnak, amelyeknek a célja, hogy félrevezessék a keresőrendszerek 3
5 rangsoroló algoritmusait. A mesterségesen létrehozott jelleg és spam oldalak közti erős kapcsolat lehetőséget teremt arra, hogy felismerjük őket. Az ajánló rendszerek és P2P hálózatok területeiről eredő ötlet a bizalom és bizalmatlanság továbbterjesztése (trust/distrust propagation), amely során már ismert spam és becsületes oldalakból kiindulva a hiperhivatkozások mentén más oldalakat is becsületes vagy spam oldalként azonosíthatunk. A legtöbb ilyen módszer PageRank-szerű továbbterjesztést használ. Mi ezekkel szemben a következő, hivatkozás-alapú hasonlóságot kiaknázó módszereket vizsgáltunk meg. A Kocitáció (coc(u, v)) azon oldalak száma, amelyek mind u-ra, mind v-re is hivatkoznak. A Companion algoritmus [4] a HITS algoritmust [3] egy u Weboldal környezetében használja, és legmagasabb tekintély (authority) értékkel rendelkező oldalakat tekinti u-hoz hasonlónak. A Jeh és Widom [8] által javasolt a SimRank algolritmus elve az, hogy két oldal akkor hasonló, ha hasonló oldalak hivatkoznak rájuk. A SimRank a PageRankhez hasonlóan definiálható: 1 ha u Sim (0) 1 = u 2 (u 1, u 2 ) = (1) 0 különben; (1 c) PSim (i 1) (v 1,v 2 ) Sim (i) d (u 1, u 2 ) = (u 1 ) d (u 2 ha u ) 1 u 2, (2) 1 ha u 1 = u 2. A Webgráfot Szinguláris érték felbontás segítségével egy alacsony dimenziójú térbe vetítettük, ahol az euklideszi távolságot használtuk a hasonolóság mértékeként. Minden ismeretlen oldalhoz a következő spam-hasonlósági értékeket határoztuk meg: Spam Ratio (SR): A spam aránya a felcímkézett hasonló oldalak között ( s/(s + h) ). Spam over Non-spam (SON): A spam és a becsületes oldalak aránya az összes hasonló oldal között (s/h). Spam Value Ratio (SVR): A spam oldalak hasonlósági értékeinek összege osztva az összes felcímkézett oldalak hasonlósági értékeinek összegével (s /(s + h )). Spam Value over Non-spam Value (SVONV): A spam oldalak hasonlósági értékeinek összege osztva a becsületes oldalak hasonlósági értékeinek összegével (s /h ). Az eredmények [C3] Benczúr Andrással és Sarlós Tamással közösek. Az eredményekhez az algoritmusok megtervezésével és hatékony implementálásával, valamint a kiértékeléssel járultam hozzá. 4
6 2.1. tézis. Hivatkozás alapú hasonlóság szerinti továbbterjesztés [C3] Fő eredményként azt állítjuk, hogy magas felidézés mellett a link alapú hasonlóság szerinti továbbterjsztés hatékonyabb, mint a PageRank alapú. A hasonlósági mértékek közül a Cocitation a leghatékonyabb. A módszert két adathalmazon is teszteltük: egy, a.de doménhez tartozó 31 millió oldalból álló adathalmazon, valamint a.ch domén hasonló méretű adathalmazán. 3. téziscsoport: Gráf alapú klasszifikátor-kombináció (Graph Stacking) Kísérleteink alapján az előző téziscsoportbeli hasonlóságmértékek alkalmazhatók félig felügyelt (semisupervised) tanulási módszereknél is. Ezek a tanulási módszerek is arra a tapasztalatra építenek, hogy egy Weboldal hasonló a szomszédaihoz. Méréseink alapján a hivatkozás-hasonlósággal súlyozott gráf alapú klasszifikátor-kombináció stacked graphical classification növeli a spam klasszifikácó pontosságát. A legjobb eredményt a kocitációval sikerült elérni, valamint azt is megállpítottuk, hogy a kettőnél több lépésés szomszédségot nem érdemes vizsgálni. A spam klasszifikáció mellett egy egészen más típusú adathalmazon is kiértékeltük az előbbi módszert: egy telefonhívások által adott hálózaton, amelyet a telefon előfizetők bizonyos adatai egészítettek ki. A tanulási feladat célja megjósolni, hogy melyik ügyfél fogja az előfizetését lemondani és egy másik szolgáltatóhoz átpártolni (churn). Ha első látásra nem is, de ez a probléma hasonlít a Web spam kereséshez: a Webgráf helyett telefonhívás-gráfot, a Weboldalak tartalma helyett előfizetői, esetleg demográfiai adatokat használunk. A spamnél megfigyelt jelenség itt is megtalálható: azok az előfizetők nagyobb eséllyel váltanak szolgáltatót, akiknek ismerősei már váltottak. Az algoritmus során a klasszifikációs algoritmust több lépésben megismételjük úgy, hogy az előző klasszifikáció eredménye és a hasonlógi mértékek alapján minden csúcsra kiszámolunk egy spam-hasonlósági mértéket, amelyet a következő iterációban új jellemzőként használunk. Minden ismeretlen u csúcsra kiválasztjuk azt a k darab csúcsot, amelyek a legnagyobb hasonlósággal rendelkeznek, és ezekre az előző pontnál leírt spam mértékeket (Spam Ratio, Spam over Non-spam, Spam Value Ratio, Spam Value over Non-spam Value) számítjuk ki. Az előző téziscsoport módszereihez képest módosítás, hogy most a kezdetben ismeretlen csúcsokat is figyelmbe vesszük az előző iteráció által hozzárendelt értéknek megfelelően. A kiválasztott csúcsok minden v eleme vagy p(v) jósolt valószínűséggel spam, vagy pontosan tudjuk, hogy spam vagy becsületes. Az utóbbi esetben p(v)-t 0-nak ill. 1-nek definiáljuk. A spam mértékek definíciójában szereplő s és h értékeket a spam illetve becsületes csúcsok p(v) illetve 1 p(v) értékeinek öszegeként definiálhatjuk. A leghasonlóbb oldalakat az s és h értékek w(uv)-vel súlyozott összegeként kapjuk. Az eredmények [C4] Benczúr Andrással, Siklósi Dáviddal és Lukács Lászlóval közösek. Az hozzájárulásom a gráfos kompináción alapuló jellemzők definiálása, implementálása, a hasonlósági mértékek 5
7 megtervezése és implementálása tézis. Gráf alapú klasszifikátor-kombináció (Graph Stacking) Web spam szűrésben [C4] Méréseink alapján a hivatkozás-hasonlósággal súlyozott gráf alapú klasszifikátor-kombináció (Graph Stacking) növeli a spam klasszifikáció pontosságát. A módszert a WEBSPAM-UK-2006 [2] adathalmazon teszteltük tézis. Gráf alapú klasszifikátor-kombináció (Graph Stacking) lemorzsolódás (churn) előrejelzésére [C4] Méréseink alapján a hivatkozás-hasonlósággal súlyozott gráf alapú klasszifikátor-kombináció (Graph Stacking) növeli a churn klasszifikáció pontosságát. A módszert egy magyar telefonszolgáltató adatain teszteltük. 4. téziscsoport: Nyelvmodell különbözőség Mishne [10] blogok hozzászólásait elemezve megmutatta, hogy a szavak eloszlása (unigram nyelvmodell) jól használható a spam jellegű hozzászólások kiszűrésére. Megmutattuk, hogy hasonló módszer nagyobb méretekben a Web spam szűrésre is alkalmazható. A [10] cikk módszeréhez hasonlóan egy D Weboldal nyelvmodelljét a következőképp definiáljuk: tf(w, D) p(w D) = λ v D tf(v, D) + (1 λ) tf(w, C) (3) v C tf(v, C), ahol C az összes Weboldalból álló korpuszt, w pedig a D egy szavát jelöli. Módszerünk első lépése az, hogy megmérjük minden egyes hiperhivatkozás esetén az azt tartalmazó illetve a hiperhivatkozás által mutatott két Weboldal közti nyelvi különbséget. A távolságot a [10] cikkhez hasonlóan a Kullback-Leibler divergencia alapján határozzuk meg: KL(A D) = w p (w A)log p (w A) p (w D). (4) Sajnos a KL érték kiszámolása minden hiperhivatkozással összekötött Weboldalpárra túl sok időt venne igénybe, ezért két hasonló jellegű, de egyszerűbben számolható mennyiséget vizsgálunk meg. A hivatkozást tartalmazó Weboldal teljes tartalma helyett csak a megfelelő anchor szövegét használjuk, és ezt hasonlítjuk össze a tartalmazó illetve az általa mutatott Weboldal tartalmával. A módszer hatékonyságát javítja, ha az anchor szövegét még kiegészítjük környező szavakkal. 6
8 [10] szerint a Kullback-Leibler divergencia értékek normál eloszlások keverékét alkotják. Ha minden hivatkozás egyformán viselkedne, akkor a KL értékek nagyjából normál eloszlást mutatnának, mert a KL definíciójában szereplő valószínűségi változók különböző szavakhoz tartoznak, és a szavak elég függetlenül viselkednek ahhoz, hogy az eredmény normál eloszlású legyen. Azonban ha vannak olyan spam jellegű hiperhivatkozások is, amelyeknek az anchor szövege jelentősen eltér az általa mutatott, vagy az őt tartalmazó Weboldal tartalmáttól, akkor ezeknek a KL értékei egy becsületes hiperhivatkozások átlagértékénél magasabb érték körül fognak csoportosulni. Az algoritmusunkban egy küszöbérték feletti KL értékkel rendelkező hiperlinket gyanús tekintjük, és az egyes oldalak spam mértékét a gyanús hiperlinkeken számolt PageRank értékeként definiáljuk. Az eredmények [P1] Benczúr Andrással és Bíró Istvánnal közösek. Az én hozzájárulásom az algoritmus alkalmazhatóságának kiterjesztése nagyméretű adatokra és a kiértékelés tézis. Nyelvmodell különbözőség alkalmazása spam szűrésre [P1] Megmutattuk, hogy a nyelvmodell különbözőség használható Web spam szűrésre, valamint egyéb, rossz minőségű hiperhivatkozások kiszűrésére. A méréseket a.de doménhez tartozó 31 millió oldalból álló adathalmazon teszteltük, melyhez egy 1000 oldalból álló felcímkézett minta állt rendelkezésünkre. 5. téziscsoport: Kereskedelmi szándék A spam elsődleges célja anyagi haszonszerzés [6]. A korábbi tartalom alapú spam szűrési modszerek főleg a spam oldalak ismétlődő mintázatait használták ki, ezzel szemben a mi módszerünk megpróbálja tartalom szemantikáját is figyelembe venni, elsősorban a kereskedelmi jelleg felismerésére koncentrálva. A következő értékeket, tulajdonságokat vizsgáltuk meg: A Weboldalak Online Commercial Intention (OCI) értéke (Microsoft adcenter Labs Demonstration.) A Yahoo! Mindset kereskedelmi/nem kereskedelmi klasszifikációja. Google AdWords által ajánlott hirdetési keresőszavak és azok értéke. Google AdSense hirdetések eloszlása egy Website-on. A spam sikeresség, azaz a találatok listájában elfoglalt hely bizonyos keresések esetén (a saját fejlesztésű keresőmotorunkon mérve). Ezeket a jellemzőket kombináltuk egy akkoriban nyilvánosan elérhetővé tett tartalom és hivatkozás alapú leíró adathalmazhoz, és az így kapott tanító adaton C4.5 döntési fa alapú klasszifikációt alkalmaztunk. 7
9 Az eredmények [C5] Benczúr Andrással, Bíró Istvánnal és Sarlós Tamással közösek. Az eredményekhez a kiértékeléssel, a jellemzők kombinálásával, a spam sikeresség, és a Google AdWords jellemzők definíciójával és implementációjával járultam hozzá tézis. A kereskedelmi szándék felismerésének alkalmazása spam szűrésrei [C5] A kereskedelmi szándékot kifejező tulajdonságok javítják a spam klasszifikáció minőségét. A módszert a WEBSPAM-UK2006 adathalmazon teszteltük, ahol 3%-kal meg tudtuk javítani a csak a többi nyilvánosan elérhető adatokat használó klasszifikátor teljesítményét. Módszerünk F mértékre nézve első, AUC mértékre pedig holtversenyben második helyezést ért el. 3. Egyéb eredmények A spam szűrési módszereken kívüli egyéb, főleg a Webes kereséssel kapcsolatos eredményeim: Magyar nyelvű keresőmotor fejlesztése [J6, P2, H1, H2, C9]. Képi információk kombinálása szövegalapú kereséssel [J5, C8]. Spektrálklaszterezés nagy méretű gráfokon és alkalmazásai ajánlórendszerekben és telekommunikációs hálózatokban [J4, C6, C7, H3]. Hivatkozások [1] A.-L. Barabási, R. Albert, and H. Jeong. Scale-free characteristics of random networks: the topology of the word-wide web. Physica A, 281:69 77, [2] C. Castillo, D. Donato, L. Becchetti, P. Boldi, S. Leonardi, M. Santini, and S. Vigna. A reference collection for web spam. SIGIR Forum, 40(2):11 24, December [3] S. Chakrabarti, B. E. Dom, S. R. Kumar, P. Raghavan, S. Rajagopalan, A. Tomkins, D. Gibson, and J. Kleinberg. Mining the Web s link structure. Computer, 32(8):60 67, [4] J. Dean and M. R. Henzinger. Finding related pages in the World Wide Web. In Proceedings of the 8th World Wide Web Conference (WWW), pages , [5] S. Dill, R. Kumar, K. S. McCurley, S. Rajagopalan, D. Sivakumar, and A. Tomkins. Self-similarity in the web. ACM Transactions on Internet Technology, 2(3): ,
10 [6] Z. Gyöngyi and H. Garcia-Molina. Spam: It s not just for inboxes anymore. IEEE Computer Magazine, 38(10):28 34, October [7] M. R. Henzinger, R. Motwani, and C. Silverstein. Challenges in web search engines. SIGIR Forum, 36(2):11 22, [8] G. Jeh and J. Widom. SimRank: A measure of structural-context similarity. In Proceedings of the 8th ACM International Conference on Knowledge Discovery and Data Mining (SIGKDD), pages , [9] R. Kumar, P. Raghavan, S. Rajagopalan, D. Sivakumar, A. Tomkins, and E. Upfal. Stochastic models for the web graph. In Proceedings of the 41st IEEE Symposium on Foundations of Computer Science (FOCS), pages 1 10, [10] G. Mishne, D. Carmel, and R. Lempel. Blocking blog spam with language model disagreement. In Proceedings of the 1st International Workshop on Adversarial Information Retrieval on the Web (AIRWeb), Chiba, Japan, [11] G. Pandurangan, P. Raghavan, and E. Upfal. Using PageRank to Characterize Web Structure. In Proceedings of the 8th Annual International Computing and Combinatorics Conference (CO- COON), pages , Singapore, [12] A. Singhal. Challenges in running a commercial search engine. In IBM Search and Collaboration Seminar IBM Haifa Labs,
11 Publikációk Külföldi idegen nyelvű folyóiratcikkek [J1] Dániel Fogaras, Balázs Rácz, Károly Csalogány, and Tamás Sarlós. Towards Scaling Fully Personalized PageRank: Algorithms, Lower Bounds, and Experiments. Internet Mathematics 2(3): , [J2] András A. Benczúr, Károly Csalogány, Tamás Sarlós, and Máte Uher. SpamRank Fully Automatic Link Spam Detection. To appear in Information Retrieval. [J3] M. Kurucz, A. Benczúr, K. Csalogány, and L. Lukács. Spectral Clustering in Social Networks. Lecture Notes In Artificial Intelligence, pages 1 20, [J4] M. Kurucz, D. Siklósi, L. Lukács, A. A. Benczúr, K. Csalogány, and A. Lukács. Telephone call network data mining: A survey with experiments. In Bolyai Society Mathematical Studies, Vol. 18., B. Bollobás, R. Kozma, D. Miklós, eds., Handbook of Large-Scale Random Networks, published by Springer Verlag in conjunction with the Bolyai Mathematical Society of Budapest, [J5] A. Benczúr, I. Bíró, M. Brendel, K. Csalogány, B. Daróczy, and D. Siklósi. Multimodal Retrieval by Text Segment Biclustering. In ADVANCES IN MULTILINGUAL AND MULTIMODAL IN- FORMATION RETRIEVAL. 8th Workshop of the Cross-Language Evaluation Forum, CLEF 2007, Revised Selected Papers. Lecture Notes in Computer Science Vol (2008). [J6] P. Schönhofen, A. A. Benczúr, I. Bíró, and K. Csalogány. Cross-language retrieval with wikipedia. In ADVANCES IN MULTILINGUAL AND MULTIMODAL INFORMATION RETRIEVAL. 8th Workshop of the Cross-Language Evaluation Forum, CLEF 2007, Revised Selected Papers. Lecture Notes in Computer Science Vol (2008). Nemzetközi konferencia-kiadványban megjelent cikkek [C1] András A. Benczúr, Károly Csalogány, Tamás Sarlós, and Máte Uher. SpamRank Fully Automatic Link Spam Detection. In Proceedings of the 1st International Workshop on Adversarial Information Retrieval on the Web (AIRWeb), held in conjunction with WWW2005, [C2] Tamás Sarlós, András A. Benczúr, Károly Csalogány, Dániel Fogaras, and Balázs Rácz. To Randomize or Not To Randomize: Space Optimal Summaries for Hyperlink Analysis In Proceedings of the 15th International World Wide Web Conference (WWW), pages , Full version available at 10
12 [C3] A. A. Benczúr, K. Csalogány, and T. Sarlós. Link-based similarity search to fight Web spam. In Proceedings of the 2nd International Workshop on Adversarial Information Retrieval on the Web (AIRWeb), held in conjunction with SIGIR2006, [C4] K. Csalogány, A. Benczúr, D. Siklósi, and L. Lukács. Semi-Supervised Learning: A Comparative Study for Web Spam and Telephone User Churn. In Graph Labeling Workshop in conjunction with ECML/PKDD 2007, [C5] A. A. Benczúr, I. Bíró, K. Csalogány, and T. Sarlós. Web spam detection via commercial intent analysis. In Proceedings of the 3th International Workshop on Adversarial Information Retrieval on the Web (AIRWeb), held in conjunction with WWW2007, [C6] M. Kurucz, A. A. Benczúr, and K. Csalogány. Methods for large scale svd with missing values. In KDD Cup and Workshop in conjunction with KDD 2007, [C7] M. Kurucz, A. A. Benczúr, K. Csalogány, and L. Lukács. Spectral clustering in telephone call graphs. In WebKDD/SNAKDD Workshop 2007 in conjunction with KDD 2007, [C8] A. Benczúr, I. Bíró, M. Brendel, C. Károly, B. Daróczy, and D. Siklósi. Cross-modal retrieval by text and image feature biclustering. In Working Notes for the CLEF 2007 Workshop, Budapest, Hungary, [C9] P. Schönhofen, A. A. Benczúr, I. Bíró, and K. Csalogány. Performing cross-language retrieval with Wikipedia. In Working Notes of the 2007 CLEF Workshop, Budapest, Hungary, Sept Nemzetközi konferencia-kiadványban megjelent poszterek [P1] A. A. Benczúr, I. Bíró, and K. Csalogány. Detecting nepotistic links by language model disagreement. In Proceedings of the 15th International World Wide Web Conference (WWW), [P2] András A. Benczúr, Károly Csalogány, Dániel Fogaras, Eszter Friedman, Tamás Sarlós, Máte Uher, and Eszter Windhager. Searching a Small National Domain a Preliminary Report. In Poster Proceedings of the 12th International World Wide Web Conference (WWW), [P3] András A. Benczúr, Károly Csalogány, and Tamás Sarlós. On the Feasibility of Low-rank Approximation for Personalized PageRank. In Poster Proceedings of the 14th International World Wide Web Conference (WWW), pages , Magyar nyelvű publikációk 11
13 [H1] András A. Benczúr, Károly Csalogány, Dániel Fogaras, Eszter Friedman, Balázs Rácz, Tamás Sarlós, Máte Uher, and Eszter Windhager. Magyar nyelvű tartalom a világhálón (Hungarian Content on the WWW). Információs Társadalom és Trendkutató Központ Kutatási Jelentés 26:48-55, [H2] András A. Benczúr, István Bíró, Károly Csalogány, Balázs Rácz, Tamás Sarlós, and Máte Uher. PageRank és azon túl: Hiperhivatkozások szerepe a keresésben (PageRank and Beyond: The Role of Hyperlinks in Search). Magyar Tudomány, [H3] Miklós Kurucz, László Lukács, Dávid Siklósi, András A. Benczúr, Károly Csalogány, András Lukács Kapcsolatok és távolságok: a hazai vezetékes hívás-szokások elemzése. (Contacts and Distances: Analysis of Hungarian Landline Telephone Calls). Magyar Tudomány, 2009/6. 12
A Szinguláris felbontás adatbányászati alkalmazásai
A Szinguláris felbontás adatbányászati alkalmazásai Kurucz Miklós Témavezető: Benczúr A. András Ph.D. Eötvös Loránd Tudomány Egyetem Informatikai Kar Informatikai Tanszék Informatikai Doktori Iskola Benczúr
Hogy keres a Google?
Hogy keres a Google? Kevei Péter SZTE Bolyai Intézet Kutatók Éjszakája 208. szeptember 28. WWW Könyvtár 25 milliárd (25 0 9 ) dokumentummal, és nincs könyvtáros (a Somogyi Könyvtárban 900 000, a Bolyai
Dokumentum osztályozás rejtett Dirichlet-allokációval
Dokumentum osztályozás rejtett Dirichlet-allokációval Doktori értekezés tézisek Bíró István Témavezető: Lukács András Ph.D. Eötvös Loránd Tudományegyetem Informatikai Kar Információtudományi Tanszék Informatika
Publikációs lista. Gódor Győző. 2008. július 14. Cikk szerkesztett könyvben... 2. Külföldön megjelent idegen nyelvű folyóiratcikk...
Publikációs lista Gódor Győző 2008. július 14. Cikk szerkesztett könyvben... 2 Külföldön megjelent idegen nyelvű folyóiratcikk... 2 Nemzetközi konferencia-kiadványban megjelent idegen nyelvű előadások...
Kétdimenziós mesterséges festési eljárások. Hatások és alkalmazások
Pannon Egyetem Informatikai Tudományok Doktori Iskola Tézisfüzet Kétdimenziós mesterséges festési eljárások. Hatások és alkalmazások Kovács Levente Képfeldolgozás és Neuroszámítógépek Tanszék Témavezet
Előrenéző és paraméter tanuló algoritmusok on-line klaszterezési problémákra
Szegedi Tudományegyetem Számítógépes Algoritmusok és Mesterséges Intelligencia Tanszék Dr. Németh Tamás Előrenéző és paraméter tanuló algoritmusok on-line klaszterezési problémákra SZTE TTIK, Móra Kollégium,
Webanalízis, avagy melyik a legértékésebb csúcs egy gráfban?
Webanalízis, avagy melyik a legértékésebb csúcs egy gráfban? Mátyás Péter 2011. május 16. 1. Bevezetés A World Wide Web megszületése óta eltelt 20 év alatt az Internet az emberek mindennapjainak részévé
A Barabási-Albert-féle gráfmodell
A Barabási-Albert-féle gráfmodell és egyéb véletlen gráfok Papp Pál András Gráfok, hálózatok modelljei Rengeteg gráfokkal modellezhető terület: Pl: Internet, kapcsolati hálók, elektromos hálózatok, stb.
Információ-visszakeresı módszerek egységes keretrendszere és alkalmazásai. Kiezer Tamás
Információ-visszakeresı módszerek egységes keretrendszere és alkalmazásai Doktori (PhD) értekezés tézise Kiezer Tamás Témavezetı: Dr. Dominich Sándor (1954-2008) Pannon Egyetem Mőszaki Informatikai Kar
Statisztikai módszerek a skálafüggetlen hálózatok
Statisztikai módszerek a skálafüggetlen hálózatok vizsgálatára Gyenge Ádám1 1 Budapesti Műszaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Kar Számítástudományi és Információelméleti
Telefonszám(ok) +36-93-502-916 Mobil +36-30-396-8675 Fax(ok) +36-93-502-900. Egyetem u. 10., 8200 Veszprém. Tehetséggondozás (matematika)
Europass Önéletrajz Személyi adatok Vezetéknév(ek) / Utónév(ek) Bujtás Csilla Telefonszám(ok) +36-93-502-916 Mobil +36-30-396-8675 Fax(ok) +36-93-502-900 E-mail(ek) Szakmai tapasztalat bujtas@dcs.vein.hu
Teljesen elosztott adatbányászat alprojekt
Teljesen elosztott adatbányászat alprojekt Hegedűs István, Ormándi Róbert, Jelasity Márk Big Data jelenség Big Data jelenség Exponenciális növekedés a(z): okos eszközök használatában, és a szenzor- és
Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17
Doménspecifikus korpusz építése és validálása Dodé Réka ELTE BTK Nyelvtudomány Doktori Iskola Alkalmazott nyelvészet program 2017. február 3. Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott
The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék Adatelemzés intelligens módszerekkel Hullám Gábor Adatelemzés hagyományos megközelítésben I. Megválaszolandó
ICT ÉS BP RENDSZEREK HATÉKONY TELJESÍTMÉNY SZIMULÁCIÓJA DR. MUKA LÁSZLÓ
ICT ÉS BP RENDSZEREK HATÉKONY TELJESÍTMÉNY SZIMULÁCIÓJA DR. MUKA LÁSZLÓ 1 TARTALOM 1.1 A MODELLEZÉS ÉS SZIMULÁCIÓ META-SZINTŰ HATÉKONYSÁGÁNAK JAVÍTÁSA A. Az SMM definiálása, a Jackson Keys módszer kiterjesztése
BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István
BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján Hegedűs István Ajánló rendszerek Napjainkban egyre népszerűbb az ajánló rendszerek alkalmazása A cégeket is hasznos információval
Doktori disszertáció. szerkezete
Doktori disszertáció tézisfüzet Komplex hálózatok szerkezete Szabó Gábor Témavezető Dr. Kertész János Elméleti Fizika Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem 2005 Bevezetés A tudományos
Közösség detektálás gráfokban
Közösség detektálás gráfokban Önszervező rendszerek Hegedűs István Célkitűzés: valamilyen objektumok halmaza felett minták, csoportok detektálása csakis az egyedek közötti kapcsolatok struktúrájának a
KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems
KOPI MTA SZTAKI Department of Distributed Systems KOPI A fordítási plágiumok keresője Pataki Máté Kovács László MTA SZTAKI MTA SZTAKI Elosztott Rendszerek Osztály 1995. óta létezik 12 teljes állású munkatárs,
YANG ZIJIAN GYŐZŐ 杨子剑
YANG ZIJIAN GYŐZŐ 杨子剑 Személyes adatok Mobil +36-20-535-7968 Cím Email 1091 Budapest Üllői út 109/C. Magyarország yang.zijian.gyozo@uni-eszterhazy.hu fragata8@gmail.com Neme férfi Születési hely Changchun,
Pletykaalapú gépi tanulás teljesen elosztott környezetben
Pletykaalapú gépi tanulás teljesen elosztott környezetben Hegedűs István Jelasity Márk témavezető Szegedi Tudományegyetem MTA-SZTE Mesterséges Intelligencia Kutatócsopot Motiváció Az adat adatközpontokban
KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY 2011. Department of Distributed Systems
KOPI MTA SZTAKI Department of Distributed Systems Fordítási plágiumok keresése MSZNY 2011 Pataki Máté Probléma 1. Sok a diák 2. Hasznos anyagok az interneten 3. Digitális szakdolgozatok 4. Jó nyelvtudás
Társadalmi és gazdasági hálózatok modellezése
Társadalmi és gazdasági hálózatok modellezése 2. el adás A hálózatkutatás néhány fontos fogalma El adó: London András 2015. szeptember 15. Átmér l ij a legrövidebb út a hálózatban i és j pont között =
Véletlen sorozatok ellenőrzésének módszerei. dolgozat
Eötvös Loránd Tudományegyetem Informatikai Kar Komputeralgebra Tanszék Véletlen sorozatok ellenőrzésének módszerei dolgozat Témavezető: Dr. Iványi Antal Miklós egyetemi tanár Készítette: Potempski Dániel
Internetes keresés. Dr. Nyéki Lajos 2019
Internetes keresés Dr. Nyéki Lajos 2019 A keresési stratégia kialakítása A keresés témájának meghatározása Háttér információ keresése A kulcsszavak azonosítása A keresés végrehajtása Ha elégedett az eredményekkel,
Süle Zoltán publikációs listája
Süle Zoltán publikációs listája Statisztikai összegzés Referált nemzetközi folyóiratcikkeim száma: 3 (+1) Nemzetközi konferenciakiadványban megjelent publikációim száma: 14 Hazai konferenciakiadványban
Véletlen gráfok. Backhausz Ágnes Eötvös Loránd Tudományegyetem és MTA Rényi Alfréd Matematikai Kutatóintézet december 2.
Véletlen gráfok Backhausz Ágnes Eötvös Loránd Tudományegyetem és MTA Rényi Alfréd Matematikai Kutatóintézet agnes@cs.elte.hu 2015. december 2. Nagy hálózatok Példák valós hálózatokra társadalmi hálózatok
A KUTATÁS EREDMÉNYEI ZÁRÓJELENTÉS 2004-2006.
ÖNELLENŐRZÉS ÉS FUTÁSIDEJŰ VERIFIKÁCIÓ SZÁMÍTÓGÉPES PROGRAMOKBAN OTKA T-046527 A KUTATÁS EREDMÉNYEI ZÁRÓJELENTÉS 2004-2006. Témavezető: dr. Majzik István Budapesti Műszaki és Gazdaságtudományi Egyetem
Pannon Egyetem Vegyészmérnöki és Anyagtudományok Doktori Iskola
Pannon Egyetem Vegyészmérnöki és Anyagtudományok Doktori Iskola Doktori (Ph.D.) értekezés tézisei Számítási intelligencia alapú regressziós technikák és Készítette Kenesei Tamás Péter Témavezető: Dr. habil.
Webanalitika a mindennapokban
Webanalitika a mindennapokban NEEK konferencia 2015.02.19. www.gemius.hu Rólunk A Gemius világszerte Piaci igények széleskörű ismerete Nemzetközi háttér, folyamatos fejlesztés Innovatív üzleti megoldások
Véletlen gráfok, hálózatok
Véletlen gráfok, hálózatok Véletlen gráfok, hálózatok Csirik András 2018.04.25 Erdős-Rényi modell Watts-Strogatz modell Barabási-Albert modell Hálózatok a mindennapokban Hálózatok a világ minden területén
Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar. Doktori Disszertáció Tézisei. Recski Gábor. Számítógépes módszerek a szemantikában
Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar Doktori Disszertáció Tézisei Recski Gábor Számítógépes módszerek a szemantikában Nyelvtudományi Doktori Iskola Tolcsvai Nagy Gábor MHAS Elméleti Nyelvészet
Csima Judit BME, SZIT február 17.
1 Véletlen gráfok és valós hálózatok Csima Judit BME, SZIT 2010. február 17. Tartalom 2 1. Motiváció: miért pont véletlen gráfok? 2. A klasszikus modell: Erdős-Rényi véletlen-gráf modell definíció jellemzői
Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés
Gépi tanulás a gyakorlatban Kiértékelés és Klaszterezés Hogyan alkalmazzuk sikeresen a gépi tanuló módszereket? Hogyan válasszuk az algoritmusokat? Hogyan hangoljuk a paramétereiket? Precízebben: Tegyük
Csalásfelderítés hálózatokon keresztül. Innovatív BI konferencia, Budapest, 2011. 11. 22.
Csalásfelderítés hálózatokon keresztül Innovatív BI konferencia, Budapest, 2011. 11. 22. Hans Zoltán AEGON Magyarország Szolgáltatás Fejlesztés és Online Irányítás Vezető Benczúr András MTA SZTAKI Informatika
Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására
VÉGZŐS KONFERENCIA 2009 2009. május 20, Budapest Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására Hidasi Balázs hidasi@tmit.bme.hu Konzulens: Gáspár-Papanek Csaba Budapesti
Betekintés a komplex hálózatok világába
Betekintés a komplex hálózatok világába Dr. Varga Imre Debreceni Egyetem Informatikai Kar EFOP-3.6.1-16-2016-00022 Egyszerű hálózatok Grafit kristály Árpád házi uralkodók családfája LAN hálózat Komplex
Csima Judit BME, SZIT február 18.
1 Véletlen gráfok és valós hálózatok Csima Judit BME, SZIT 2011. február 18. Tartalom 2 1. Motiváció: miért pont véletlen gráfok? Tartalom 2 1. Motiváció: miért pont véletlen gráfok? 2. A klasszikus modell:
Szomszédság alapú ajánló rendszerek
Nagyméretű adathalmazok kezelése Szomszédság alapú ajánló rendszerek Készítette: Szabó Máté A rendelkezésre álló adatmennyiség növelésével egyre nehezebb kiválogatni a hasznos információkat Megoldás: ajánló
Kollektív tanulás milliós hálózatokban. Jelasity Márk
Kollektív tanulás milliós hálózatokban Jelasity Márk 2 3 Motiváció Okostelefon platform robbanásszerű terjedése és Szenzorok és gazdag kontextus jelenléte, ami Kollaboratív adatbányászati alkalmazások
Grafikonok automatikus elemzése
Grafikonok automatikus elemzése MIT BSc önálló laboratórium konzulens: Orosz György 2016.05.18. A feladat elsődleges célkitűzései o eszközök adatlapján található grafikonok feldolgozása, digitalizálása
Honlap szerkesztés Google Tudós alkalmazásával
Dr. Mester Gyula Honlap szerkesztés Google Tudós alkalmazásával Összefoglaló: A közlemény tematikája honlap szerkesztés Google Tudós alkalmazásával. A bevezetés után a tudományos teljesítmény mérésének
Döntési fák. (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART ))
Döntési fák (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART )) Rekurzív osztályozó módszer, Klasszifikációs és regressziós fák folytonos, kategóriás, illetve túlélés adatok
Random Forests - Véletlen erdők
Random Forests - Véletlen erdők Szabó Adrienn Adatbányászat és Webes Keresés Kutatócsoport 2010 Tartalom Fő forrás: Leo Breiman: Random Forests Machine Learning, 45, 5-32, 2001 Alapok Döntési fa Véletlen
A SEO szerepe egy híroldal életében BUBLIK MÁTÉ
A SEO szerepe egy híroldal életében BUBLIK MÁTÉ Keresőoptimalizálás Teljes forgalom Keresési forgalom Organikus forgalom Non-brand organikus forgalom SEO Total Visits Organic search Non-brand organic*
Távolság a tudományos együttműködési hálózatokban Vida Zsófia
Távolság a tudományos együttműködési hálózatokban Vida Zsófia A tanulmány az IMPACT EV FP7 (nº613202) projektből került támogatásra Tartalom Tudományos együttműködési hálózatok A szereplők közötti közelség/
A mobilhirdetések szerepe a marketing mixben
A mobilhirdetések szerepe a marketing mixben 1. Használati szokások 2. A mobil értéke 3. Mobilra specializált megoldások 4. Mobil élmény Nomophobia főnév Mobiltelefon mentességtől, hiánytól való félelem
8. Pontmegfeleltetések
8. Pontmegfeleltetések Kató Zoltán Képfeldolgozás és Számítógépes Grafika tanszék SZTE (http://www.inf.u-szeged.hu/~kato/teaching/) 2 Példa: panoráma kép készítés 1. Jellemzőpontok detektálása mindkét
XSLT XML. DEIM Forum 2013 B2-1 XML XML XML XML XSLT XSLT XSLT XML XSLT XSLT
DEIM Forum 2013 B2-1 XML XSLT 305 8550 1-2 E-mail: s0911654@u.tsukuba.ac.jp, nszuki@slis.tsukuba.ac.jp XML XML XML XPath XSLT XML XSLT XSLT XML 1. XMLXSLT XML(Extensible Markup Language) Web XML ( XML
Adaptív dinamikus szegmentálás idősorok indexeléséhez
Adaptív dinamikus szegmentálás idősorok indexeléséhez IPM-08irAREAE kurzus cikkfeldolgozás Balassi Márton 1 Englert Péter 1 Tömösy Péter 1 1 Eötvös Loránd Tudományegyetem Informatikai Kar 2013. november
P-gráf alapú workflow modellezés fuzzy kiterjesztéssel
P-gráf alapú workflow modellezés fuzzy kiterjesztéssel Doktori (PhD) értekezés Tick József témavezető: Dr. Kovács Zoltán Pannon Egyetem Műszaki Informatikai Kar Informatikai Tudományok Doktori Iskola 2007.
IBM SPSS Modeler 18.2 Újdonságok
IBM SPSS Modeler 18.2 Újdonságok 1 2 Új, modern megjelenés Vizualizáció fejlesztése Újabb algoritmusok (Python, Spark alapú) View Data, t-sne, e-plot GMM, HDBSCAN, KDE, Isotonic-Regression 3 Új, modern
EEA, Eionet and Country visits. Bernt Röndell - SES
EEA, Eionet and Country visits Bernt Röndell - SES Európai Környezetvédelmi Ügynökség Küldetésünk Annak elősegítése, hogy az EU és a tagállamok a szükséges információk alapján hozhassák meg a környezet
Társadalmi és gazdasági hálózatok modellezése
Társadalmi és gazdasági hálózatok modellezése 5. el adás Közösségszerkezet El adó: London András 2017. október 16. Közösségek hálózatban Homofília, asszortatívitás Newman modularitás Közösségek hálózatban
Klaszterezés, 2. rész
Klaszterezés, 2. rész Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 208. április 6. Csima Judit Klaszterezés, 2. rész / 29 Hierarchikus klaszterezés egymásba ágyazott klasztereket
Internet és világháló
Internet és világháló Forczek Erzsébet Orvosi Informatikai Intézet 2018.10.04. Proportion of individuals using the Internet, by age, 2017* https://www.itu.int/en/itu-d/statistics/pages/facts/default.aspx
Módszerek valós hálózatokon játszódó folyamatok leírására és elemzésére
Szegedi Tudományegyetem Természettudományi és Informatikai Kar Számítógépes Optimalizálás Tanszék Informatika Doktori Iskola Módszerek valós hálózatokon játszódó folyamatok leírására és elemzésére Doktori
Szalai Péter. April 17, Szalai Péter April 17, / 36
Szociális hálók Szalai Péter April 17, 2015 Szalai Péter April 17, 2015 1 / 36 Miről lesz szó? 1 Megfigyelések Kis világ Power-law Klaszterezhetőség 2 Modellek Célok Erdős-Rényi Watts-Strogatz Barabási
AKTUÁTOR MODELLEK KIVÁLASZTÁSA ÉS OBJEKTÍV ÖSSZEHASONLÍTÁSA
AKTUÁTOR MODELLEK KIVÁLASZTÁSA ÉS OBJEKTÍV ÖSSZEHASONLÍTÁSA Kovács Ernő 1, Füvesi Viktor 2 1 Egyetemi docens, PhD; 2 tudományos segédmunkatárs 1 Eletrotechnikai és Elektronikai Tanszék, Miskolci Egyetem
Hughes, M.- Dancs, H.( 2007) (eds): Basics of Performance Analysis, Cardiff- Szombathely, Budapest
Szegnerné dr. Dancs Henriette PUBLIKÁCIÓ Könyv, idegen nyelv Szerz, cím, megjelenés helye, 2006 Dancs, H- Hughes, M.- Donoghue, P. (2006) (eds): World Congress of Performance Analysis of Sport 7th, Proceeding,
EGYÜTTMŰKÖDŐ ÉS VERSENGŐ ERŐFORRÁSOK SZERVEZÉSÉT TÁMOGATÓ ÁGENS RENDSZER KIDOLGOZÁSA
infokommunikációs technológiák EGYÜTTMŰKÖDŐ ÉS VERSENGŐ ERŐFORRÁSOK SZERVEZÉSÉT TÁMOGATÓ ÁGENS RENDSZER KIDOLGOZÁSA Témavezető: Tarczali Tünde Témavezetői beszámoló 2015. január 7. TÉMAKÖR Felhő technológián
HÁROM EGYETEM KÉT KONTINENS EGY TANTEREM:
HÁROM EGYETEM KÉT KONTINENS EGY TANTEREM: INTERKULTURÁLIS, INTERDISZCIPLINÁRIS NEMZETKÖZI EGYÜTTMŰKÖDÉS EGY MAGYAR ÉS KÉT AMERIKAI EGYETEM HALLGATÓI ÉS OKTATÓI KÖZÖTT INTÉZMÉNYI JÓ GYAKORLAT BEMUTATÁSA
Véletlenszám generátorok és tesztelésük. Tossenberger Tamás
Véletlenszám generátorok és tesztelésük Tossenberger Tamás Érdekességek Pénzérme feldobó gép: $0,25-os érme 1/6000 valószínűséggel esik az élére 51% eséllyel érkezik a felfelé mutató oldalára Pörgetésnél
A megerosítéses tanulás és a szimulált hutés kombinált használata: algoritmusok és alkalmazások
MISKOLCI EGYETEM DOKTORI (PH.D.) TÉZISFÜZETEI HATVANY JÓZSEF INFORMATIKAI TUDOMÁNYOK DOKTORI ISKOLA A megerosítéses tanulás és a szimulált hutés kombinált használata: algoritmusok és alkalmazások Készítette:
Multimédiás és webes adatbányászat KISS LÁSZLÓ
Multimédiás és webes adatbányászat KISS LÁSZLÓ Tartalom Webes keresések kezdete PageRank Alapok Számítása a valóságban Topic-Sensitive PageRank Trust Rank Egyéb algoritmusok HITS Google Panda Google Hummingbird
VI. Magyar Földrajzi Konferencia 524-529
Van Leeuwen Boudewijn Tobak Zalán Szatmári József 1 BELVÍZ OSZTÁLYOZÁS HAGYOMÁNYOS MÓDSZERREL ÉS MESTERSÉGES NEURÁLIS HÁLÓVAL BEVEZETÉS Magyarország, különösen pedig az Alföld váltakozva szenved aszályos
Gráfok mindenhol. x $ SZENDI-VARGA JÁNOS IOT SOCIAL NETWORKS FRAUD DETECTION MASTER DATA MANAGEMENT RECOMMENDATION ENGINES. Internet of Things
8 b $! [ IOT RECOMMENDATION ENGINES 5 K Internet of Things a " > Gráfok mindenhol Facebook, Twitter, Google+ x $ S SOCIAL NETWORKS 9 SZENDI-VARGA JÁNOS K K # MASTER DATA MANAGEMENT Z FRAUD DETECTION Graph
JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN
JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN Supporting Top-k item exchange recommendations in large online communities Barabás Gábor Nagy Dávid Nemes Tamás Probléma Cserekereskedelem
Körkép a lakossági felhasználók fogyasztásának készülékszintű becsléséről (NILM)
Körkép a lakossági felhasználók fogyasztásának készülékszintű becsléséről (NILM) MEE Vándorgyűlés, Siófok, 2015. szeptember 17. Dr. Raisz Dávid, docens, csoportvezető Dr. Divényi Dániel, adjunktus Villamos
Kódverifikáció gépi tanulással
Kódverifikáció gépi tanulással Szoftver verifikáció és validáció kiselőadás Hidasi Balázs 2013. 12. 12. Áttekintés Gépi tanuló módszerek áttekintése Kódverifikáció Motiváció Néhány megközelítés Fault Invariant
INTERNETES KERESÉS. Szórád László Óbudai Egyetem TMPK
INTERNETES KERESÉS Szórád László Óbudai Egyetem TMPK AZ INTERNET INTERNET = WEB? - NEM! A web csak egy (bár az egyik legismertebb) részhalmazát jelenti az interneten használt alkalmazásoknak és protokolloknak.
TOP SEO Trendek 2015-ben. We understand, we deliver.
TOP SEO Trendek 2015-ben We understand, we deliver. Önök szerint Elvis Presley halott? Elvis Presley is dead: 7 150 000 találat Elvis Presley is not dead: 1 550 000 találat Az Google szerint Elvis sajnos
Inbound marketing. Damjanovich Nebojsa, Senpai Consulting, HubSpot viszonteladó
Inbound marketing Damjanovich Nebojsa, Senpai Consulting, HubSpot viszonteladó Rólam Inbound marketing tanácsadó, HubSpot viszonteladó Tanácsadó a Fortune 500 cégeknek Elismert tréner és konferencia előadó
Irányítási struktúrák összehasonlító vizsgálata. Tóth László Richárd. Pannon Egyetem Vegyészmérnöki és Anyagtudományok Doktori Iskola
Doktori (PhD) értekezés tézisei Irányítási struktúrák összehasonlító vizsgálata Tóth László Richárd Pannon Egyetem Vegyészmérnöki és Anyagtudományok Doktori Iskola Témavezetők: Dr. Szeifert Ferenc Dr.
Mesterséges Intelligencia MI
Mesterséges Intelligencia MI Valószínűségi hálók - következtetés Dobrowiecki Tadeusz Eredics Péter, és mások BME I.E. 437, 463-28-99 dobrowiecki@mit.bme.hu, http://www.mit.bme.hu/general/staff/tade Következtetés
Mádi-Nagy Gergely * A feladat pontos leírása. Tekintsünk darab tetszõleges eseményt, jelöljük ezeket a következõképpen: ,...,
Mádi-Nagy Gergely * AZ ESEMÉNYEK UNIÓJÁNAK VALÓSZÍNÛSÉGE BECSLÉS A TÖBBVÁLTOZÓS DISZKRÉT MOMENTUM PROBLÉMA SEGÍTSÉGÉVEL Az események uniója valószínûsége becslésére szolgáló elsõ fontos eredmények a Boole-
Nem teljesen kitöltött páros összehasonlítás mátrixok sajátérték optimalizálása Newton-módszerrel p. 1/29. Ábele-Nagy Kristóf BCE, ELTE
Nem teljesen kitöltött páros összehasonlítás mátrixok sajátérték optimalizálása Newton-módszerrel Ábele-Nagy Kristóf BCE, ELTE Bozóki Sándor BCE, MTA SZTAKI 2010. november 4. Nem teljesen kitöltött páros
műszaki tudomány doktora 1992 Beosztás: stratégiai tanácsadó, tudományos tanácsadó Munkahelyek: Nokia -Hungary kft Veszprémi Egyetem
Név: Tarnay Katalin Születési adatok: Nyiregyháza, 1933. május 8 Legmagasabb tudományos fokozat, és elnyerésének éve: műszaki tudomány doktora 1992 Beosztás: stratégiai tanácsadó, tudományos tanácsadó
Kontrollcsoport-generálási lehetőségek retrospektív egészségügyi vizsgálatokhoz
Kontrollcsoport-generálási lehetőségek retrospektív egészségügyi vizsgálatokhoz Szekér Szabolcs 1, Dr. Fogarassyné dr. Vathy Ágnes 2 1 Pannon Egyetem Rendszer- és Számítástudományi Tanszék, szekersz@gmail.com
BIG DATA ELEMZÉSEK LEHETŐSÉGEI
BIG DATA ELEMZÉSEK LEHETŐSÉGEI A KÖRNYEZETVÉDELMI MODELLEZÉSBEN Dr. Torma A. 2015.11.13. 2015/11/13 Dr. TORMA A. >> Széchenyi István Egyetem 2 Tartalom 1. A Big Data fogalma 2. Pár érdekes adat a Big Data
Ács Péter. Béres Csaba Zoltán Filó Csilla.: E-neighbourhood, azaz a hipertér lokális perspektívái in: Kultúra és Közösség 2003/1
Publikációk Cikkek: Ács Péter 2009 A web mögött in Médiakutató 2009/ (Megjelenés alatt.) Peter Ács. 2009. Theoretical approach of territorial intelligence and communication. In International Conference
Searching in an Unsorted Database
Searching in an Unsorted Database "Man - a being in search of meaning." Plato History of data base searching v1 2018.04.20. 2 History of data base searching v2 2018.04.20. 3 History of data base searching
Entity Resolution azonosságfeloldás
1 Entity Resolution azonosságfeloldás Entity Resolution (ER) is the process of identifying groups of records that refer to the same real-world entity. rejtett, való világbeli entitásokhoz köthető megfigyelések
6. Előadás. Vereb György, DE OEC BSI, október 12.
6. Előadás Visszatekintés: a normális eloszlás Becslés, mintavételezés Reprezentatív minta A statisztika, mint változó Paraméter és Statisztika Torzítatlan becslés A mintaközép eloszlása - centrális határeloszlás
Hadházi Dániel.
Hadházi Dániel hadhazi@mit.bme.hu Orvosi képdiagnosztika: Szerepe napjaink orvoslásában Képszegmentálás orvosi kontextusban Elvárások az adekvát szegmentálásokkal szemben Verifikáció és validáció lehetséges
Mit mond a XXI. század emberének a statisztika?
Mit mond a XXI. század emberének a statisztika? Rudas Tamás Magyar Tudományos Akadémia Társadalomtudományi Kutatóközpont Eötvös Loránd Tudományegyetem Statisztika Tanszék Nehéz a jövőbe látni Változik
Klasztervizsgálat, keresés hálózatokban
Hálózatok dinamikája Klasztervizsgálat, keresés hálózatokban 3.3. projekt Lukács András alukacs@sztaki.hu Eötvös Loránd Tudományegyetem econet.hu Informatikai Nyrt. Számítógéptudományi Tanszék nagy és
JOURNAL CITATION REPORTS Tóth Szász Enikő Customer Education Specialist
JOURNAL CITATION REPORTS 2014 Tóth Szász Enikő Customer Education Specialist eniko.szasz@thomsonreuters.com InCites: Journal Citation Reports JCR több mint 11 000 folyóirat cikkeit 25 millió idézettségi
Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem
agy számok törvényei Statisztikai mintavétel Várható érték becslése Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem A mérés mint statisztikai mintavétel A méréssel az eloszlásfüggvénnyel
2004 Nyugat Magyarországi Egyetem, Faipari Mérnöki Kar Okleveles Könnyűipari Mérnök
Szakmai önéletrajz Email: szabo.orsolya@rkk.uni-obuda.hu Felsőfokú tanulmányok 2008 - Nyugat Magyarországi Egyetem, Faipari Mérnöki Kar Cziráki József Faanyagtudomány és Technológiák Doktori Iskola (doktoranduszhallgató)
Közösségek keresése nagy gráfokban
Közösségek keresése nagy gráfokban Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem 2011. április 14. Katona Gyula Y. (BME SZIT) Közösségek
Adatbányászati szemelvények MapReduce környezetben
Adatbányászati szemelvények MapReduce környezetben Salánki Ágnes salanki@mit.bme.hu 2014.11.10. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Felügyelt
Babeş-Bolyai Tudományegyetem Fizika Kar, Kolozsvár. Hegyi Géza. Filozofia és Történelem Kar, Kolozsvár. M.A. Santos, R. Coelho és J.J.
Vagyoneloszlás a társadalmakban - egy fizikus megközelítése Néda Zoltán Babeş-Bolyai Tudományegyetem Fizika Kar, Kolozsvár Hegyi Géza Babeş-Bolyai Tudományegyetem Filozofia és Történelem Kar, Kolozsvár
SZTE Nyílt Forrású Szoftverfejlesztő és Minősítő Kompetencia Központ
UNIVERSITY OF SZEGED SZTE Nyílt Forrású Szoftverfejlesztő és Minősítő Kompetencia Központ Gyimóthy Tibor és Ferenc Rudolf Szegedi Tudományegyetem Szoftverfejlesztés Tanszék Szoftverfejlesztés Tanszék Több
GPU-Accelerated Collocation Pattern Discovery
GPU-Accelerated Collocation Pattern Discovery Térbeli együttes előfordulási minták GPU-val gyorsított felismerése Gyenes Csilla Sallai Levente Szabó Andrea Eötvös Loránd Tudományegyetem Informatikai Kar
Elosztott Hash Táblák. Jelasity Márk
Elosztott Hash Táblák Jelasity Márk Motiváció Nagyméretű hálózatos elosztott rendszerek az Interneten egyre fontosabbak Fájlcserélő rendszerek (BitTorrent, stb), Grid, Felhő, Gigantikus adatközpontok,
2. Visszalépéses keresés
2. Visszalépéses keresés Visszalépéses keresés A visszalépéses keresés egy olyan KR, amely globális munkaterülete: egy út a startcsúcsból az aktuális csúcsba (az útról leágazó még ki nem próbált élekkel
Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János
Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 12. Regresszió- és korrelációanaĺızis Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision
Statisztikai eljárások a mintafelismerésben és a gépi tanulásban
Statisztikai eljárások a mintafelismerésben és a gépi tanulásban Varga Domonkos (I.évf. PhD hallgató) 2014 május A prezentáció felépítése 1) Alapfogalmak 2) A gépi tanulás, mintafelismerés alkalmazási