ÖSSZETETT RENDSZER VÁLLALKOZÁSOK CÍMEINEK WEBRŐL TÖRTÉNŐ AUTOMATIKUS ÖSSZEGYŰJTÉSÉRE

Méret: px
Mutatás kezdődik a ... oldaltól:

Download "ÖSSZETETT RENDSZER VÁLLALKOZÁSOK CÍMEINEK WEBRŐL TÖRTÉNŐ AUTOMATIKUS ÖSSZEGYŰJTÉSÉRE"

Átírás

1 SZEGEDI TUDOMÁNYEGYETEM TERMÉSZETTUDOMÁNYI ÉS INFORMATIKAI KAR MTA-SZTE MESTERSÉGES INTELLIGENCIA KUTATÓCSOPORT ÖSSZETETT RENDSZER VÁLLALKOZÁSOK CÍMEINEK WEBRŐL TÖRTÉNŐ AUTOMATIKUS ÖSSZEGYŰJTÉSÉRE Készítette: Nagy István V. közgazdasági programozó matematikus Konzulensek: Farkas Richárd, tudományos segédmunkatárs Dr. Csirik János, egyetemi tanár Szeged, november

2 Tartalomjegyzék 1. Bevezetés Intelligens üzleti hírszerzés a Webről Üzleti információ Webbányászat Kapcsolódó munkák A vállalkozások címeit kinyerő rendszer Honlapok osztályozása Tanulás pozitív és jelöletlen példákból Honlap osztályozási adatbázis A honlap osztályozás jellemzőtere Döntési fa-alapú osztályozás Címek automatikus felismerése A manuálisan annotált címkorpusz Szabályalapú megközelítés címek és cégnevek jelölésére Gépi tanulási megközelítés címek és cégnevek jelölésére A cégnevek és -címek összerendelése Az összerendelés kiértékelése Cím és cégnév hozzárendelési heurisztikák Eredmények Honlapok osztályozásának eredményei Címek automatikus felismerése Cím és cégnév hozzárendelési heurisztikák eredményei A teljes rendszer eredményei Diszkusszió Összefoglalás Bibliográfia...32

3 1. Bevezetés A webbányászat [1] célja az Internethez kapcsolható dokumentumokból (honlapok, e- mailek, blogok, fórumok stb.) hasznos információ automatikus összegyűjtése. Ilyen feladat lehet például állásajánlatok automatikus összegyűjtése vállalati honlapokról, vagy újsághírekben egy vállalkozásról fellelhető információk kinyerése. Az így nyert információ strukturált szerkezetű (mezőértékekből áll), azaz például betölthető egy adatbázisba. Egy vállalkozás számára rengeteg információ található a Weben a potenciális partnerekről, esetleg versenytársakról, mint például a konkurencia árai, akciói vagy egy cég referenciái. Célom egy olyan online kereséseken alapuló rendszer megvalósítása, amely automatikusan képes cégekről, a Web publikus részén (WWW) elérhető információk összegyűjtésére. Ennek megvalósíthatóságát illusztrálandó, dolgozatomban egy olyan rendszert mutatok be, amely az egyes tevékenységi körökhöz tartozó magyarországi vállalkozások neveit és címeit automatikusan gyűjti össze. A kezdeti kísérletek után egyértelművé vált, hogy egy olyan összetett rendszer szolgáltatja a megoldást, amely számos szövegbányászati részprobléma beazonosítását és megoldását igényli (ez a dolgozat legfontosabb eredményének tekinthető). Az egyes részproblémák megoldása során egyaránt alkalmaztam gépi tanuló algoritmusokat, szabályalapú módszereket és egyéb heurisztikákat. A két legfontosabb részfeladat a következő: Weblapok osztályozása: Az egyes vállalatok honlapjainak azonosítása érdekében az alkalmazott on-line keresők eredményeit automatikusan céges és nem céges csoportokba kell sorolni. Ezt a dokumentum klasszifikációs feladatot tanító adatbázis manuális létrehozása nélkül oldom meg úgy, hogy a pozitív és jelöletlen példákból való tanulás megközelítését alkalmazom. Itt a standard módszer egy módosított változatát is ismertetni fogom. Címek és cégnevek azonosítása: A letöltött weboldalakon az egyes cégek neveinek és címeinek automatikus jelölésére van szükség (tulajdonnév felismerési feladat). Erre a részproblémára mind szabályalapú, mind gépi tanulási megoldást is adok, és a két módszer a dolgozatban összehasonlításra kerül. Az egész rendszer és a főbb komponensek egyéni empirikus kiértékelésére egy keretrendszert implementáltam, amelynek felhasználásával a dolgozatban számszerű eredményeket közlök

4 2. Intelligens üzleti hírszerzés a Webről 2.1. Üzleti információ A XXI. század vállalatainak elengedhetetlenül szükségük van a folyamatos és naprakész információkra mind a versenytársaikról, partnereikről, mind potenciális ügyfeleikről. Ezen információk egy részhalmaza elérhető valamilyen strukturált adatbázisban vagy archívumban, másik része azonban nyers, szöveges, azaz strukturálatlan adatokban rejtőzik. Ezen adatok révén a döntéshozók olyan értékes információra tehetnek szert, amely segíti potenciális üzleti kapcsolataiknak értékelését és kereskedelmi partnereik kategorizálását, valamint új üzletfeleik feltérképezését, vagy egyszerűen könnyebben hozhatnak a vállalat szempontjából megfelelő döntéseket [1]. Így például, amikor egy menedzser egy lehetséges partner megbízhatóságáról, fizetőképességéről kíván meggyőződni, egy cég-referencia vagy kapcsolatháló segítségével felderítheti, milyen más cégekkel van kapcsolatban az adott vállalkozás, esetleg milyen érdekeltségi körbe tartozik, és ezek helyzete mennyire stabil. Továbbá a megfelelő kapacitásokkal rendelkező üzletfél kiválasztását is megkönnyítheti. Távlati célom egy olyan automatikus, hatékony döntést támogató rendszer építése, amely minél több hasznosnak vélt információt képes összegyűjteni egy adott vállalkozásról vagy vállalkozásokról (például kapcsolathálót) a WWW publikusan elérhető részeiről. Így lényegesen kevesebb szakértői humán munkaerő (piaci elemző, marketinges, sales-es) alkalmazására lenne szükség, amely egyben jóval kevesebb költségráfordítást is jelent. Ráadásul részben kizárható a legfőbb hibaforrás, az ember, aki sokszor nem is képes a nagy mennyiségű adat között rejtőző fontos információk kinyerésére. A célrendszer egy fuvarozási use case-ében, például a felhasználó Szeged inputjára outputként megjelenik a Weben elérhető fuvarozó társaságok adatainak listája (esetenként egy Excel táblázat), ahol az adatok közt szerepel például a társaság járműállományának mérete (természetesen csak akkor, ha ez az adat a weben elérhető), így a döntéshozó, amennyiben szüksége van rá, megszűrheti a fuvarozókat a legalább 100 kamionnal rendelkezők -re Webbányászat Az utóbbi évtizedekben az adatok tárolása egyre olcsóbbá vált, (a tárolókapacitások rohamosan fejlődtek, míg az árak csökkentek) ezáltal az elektronikus eszközök és adatbázisok a mindennapi életünkben elérhetővé váltak. Az egyre olcsóbb adattárolási lehetőségek az adatok tömeges felhalmozását eredményezte, ám a ritkán látogatott adatokból úgynevezett - 2 -

5 adat temetők alakultak ki, ezáltal a döntéshozók a döntéseiket nem hozhatták meg információ-gazdag adatok alapján. John Naisbitt híressé vált mondása szerint: We are drowning in information, but starving for knowledge (Megfulladunk az információtól, miközben tudásra éhezünk) [2]. Az utóbbi években az informatika egyik leggyorsabban fejlődő részterülete az adatbányászat [2] lett. Ez az új tudományág szolgál a nagy mennyiségű adatokban rejlő információk automatikus feltárására mesterséges intelligencia algoritmusok alkalmazásával (pl. neurális hálók, szabálygenerálók, asszociációs modellek). A fejlődés motorja a pénzügyi haszon, hiszen a kibányászhatatlannak vélt, vagy csak nagyon erőforrás-igényesen elérhető információk, összefüggések nagyon sokat érhetnek. A köznyelv és a különböző informatikai cégek sok mindent neveznek adatbányászásnak, de a szigorúbb szakmai terminológia szerint nem tekinthető adatbányászatnak az adatokból lekérdezésekkel, aggregálásokkal, illetve alapstatisztikai vizsgálatokkal történő információ kinyerése. Az adatbányászat egy már meglévő, valamilyen egyéb célból összegyűlt adathalmazban keres megbúvó, rejtett és számunkra hasznos, releváns összefüggéseket, ismereteket, információkat. Az adatbányászat egyik igen fontos részterülete a szövegbányászat [3], amely a strukturálatlan, (vagy részben strukturált) elektronikus szöveges állományokban megbúvó, nem triviális információk kinyerését jelenti. Jól mutatja a probléma létjogosultságát Merill Lynch elemzése 1, mely szerint az üzleti információk 85%-a strukturálatlan, illetve részben strukturált adat formájában áll rendelkezésre, mint pl. ek, emlékeztetők, üzleti és kutatási beszámolók, prezentációk, hírek, reklámanyagok, weboldalak, ügyfélszolgálati tevékenység jegyzetei, stb. Az adatbányászathoz hasonlóan a szövegbányászat is a látens összefüggések és rejtett ismeretanyagok automatikus kinyerésére hivatott, de inputja folyó szövegek, azaz strukturálatlan, vagy részben strukturált dokumentumok. A szövegbányászati problémák megoldásai eltérő eszközöket igényelnek, itt modellezni kell az emberek által írt szövegek szintaktikai, szemantikai szerkezetét, sőt a pontos megértéshez azok stílusát is. Napjainkra a tudásmenedzsment egyik legfontosabb információtechnológiai eszközévé vált a szövegbányászat, melynek segítségével üzleti versenyelőny szerezhető. Az új alkalmazási lehetőségek közül a webbányászat az egyik legígéretesebb, mivel a világ legnagyobb és leggyorsabban bővülő adattárát, az Internetet használja. A szöveg- vagy web-bányászati rendszereknek számos alkalmazása képzelhető el, úgymint a 2008 őszén zajló amerikai elnökválasztás finiséhez érkező kampány 2, ahol a jelölteknek égető szükségük volt a bizonytalan szavazókra, ezért összetett automatikus webbányászati módszerek segítségével 1 Adatbányászok: (2008) 2 Adatbányászat az elnökválasztási kampányban: (2008) - 3 -

6 próbálták megtudni a fórumokon vagy blogokon fellelhető vélemények alapján a potenciális szavazók preferenciáit, álláspontjait. A WWW a jellegéből, struktúrájából fakadóan kihívásokkal teli platformot jelent az online szövegbányászati rendszerek számára 3. Ezen kihívások a következők: Elosztott adatstruktúra: Az Interneten jelen lévő információtároló szerverek egy előre meg nem határozott, önszerveződő struktúrájú kapcsolatban állnak egymással, vagyis az adatok fizikailag más-más helyen lelhetőek fel, amelyeket egységesen kell kezelni függetlenül forrásuktól, formázásuktól, a nyelvektől, nyelvezetüktől, valamint stílusuktól. Változó tartalmak: Az Internethez kapcsolódó dokumentumok bármikor eltűnhetnek vagy változhatnak. Becslések szerint az Interneten elérhető tartalom 40%-a legalább havi rendszerességgel módosul. Óriási méretek: Az Internet struktúrájából fakadóan lehetőséget biztosít minden fizikailag egy helyen tárolt adatbázisnál nagyobb adattömeg elérésére. Ekkora méretnél már komoly kérdéseket vet fel a szövegek feldolgozásának sebessége. Ráadásul a jelenlegi méret továbbra is exponenciális ütemben bővül. Redundáns és strukturálatlan szövegek: Az elérhető szövegek jelentős része többször is jelen van a hálózaton. Ezen redundáns dokumentumok aránya meghaladhatja akár a teljes adatmennyiség 30%-át, ezért figyelni kell, hogy az ugyanolyan tartalmú dokumentumok csak egyszer szerepeljenek az adott korpuszban. Ugyanakkor a szövegbányászat számára a redundancia lehetőségeket is hordozhat, ugyanis ha ugyanazon információ több helyen jelenik meg, az annál megbízhatóbbnak tekinthető. Ellenőrizhetetlen adatminőség: Az újonnan megjelenő szövegek cenzúrázatlanul kerülnek ki a Webre, a szerkesztői feladatokat pedig senki sem látja el. Ezért előfordulhat, hogy elavult, vagy valótlan tartalmak válnak elérhetővé, ezáltal téves információk kerülhetnek előtérbe. Ebből kifolyólag fokozottan figyelni kell a kinyert adat megbízhatóságára, minőségére. A probléma jelentőségét jól mutatja az a közelmúltban történt eset, amikor egy nagy amerikai hírportálon egy amerikai légitársaság rossz pénzügyi helyzetéről szóló, 7 évvel ezelőtti hír csak később módosult. Miután a Google változáskövető rendszerébe belekerült a hír, és végigfutott a világon, a társaság részvényeinek árfolyama meredek esésbe kezdett. 3 Szövegbányászat Nyelvtechnológia a PC világában: (2007) - 4 -

7 2.3. Kapcsolódó munkák A webtartalom-bányászat célja az Interneten elérhető szöveges dokumentumokból valamilyen szempont szerint hasznosnak vélt információk kinyerése. A kezdeti klasszikus webtartalom-bányászati próbálkozások után [4][5] a kutatók figyelme a webbányászat két másik részterületére a Web Usage Mining (webhasználat elemzés) [6][7] és a Wrapper Induction (struktúra felderítés) [8] felé fordult. A Wrapper Induction célja (HTML DOM) strukturált adatok automatikus módon történő kinyerése (cél a struktúra automatikus felismerése), többek között webshopok termékinformációs oldalaihoz hasonló dokumentumokból. Ugyanakkor a Web Usage Mining feladata a felhasználók böngészési szokásairól összegyűjtött, vagy generált adatok alapján automatikusan felkutatni és elemezni a viselkedési mintákat. Az utóbbi esztendők szövegbányászati eredményeinek köszönhetően a közeljövőben úgy vélem a webtartalom-bányászat ismét a figyelem középpontjába kerülhet. A webtartalom-bányaszati alkalmazásokra példa a FlipDog.com által kifejlesztett, egészen új elven működő álláskereső portál, amely automatikusan gyűjtötte össze a munkalehetőségeket több mint vállalat weboldaláról. Mindemellett havonta kiadtak egy elemzést az adatbázisukban megtalálható minták és trendek változásairól, amelyet sok szervezet használ, hiszen ehhez hasonló átfogó és naprakész értékelés máshol nem elérhető. Az információk automatikus kinyerése elég hitelesnek bizonyult, ám adott esetben a minél nagyobb pontosság elérése érdekében az alacsony megbízhatóságú weboldalakról kinyert információkat manuálisan is ellenőrizték [9]. Ismereteim szerint ez a dolgozat az első publikált munka, amely magyar nyelvű honlapokra irányuló webbányászati megoldást mutat be. A dokumentumosztályozási probléma [10] megoldása során (egyes cégekhez köthető weboldalak azonosítása) a pozitív és jelöletlen példákból való tanulás módszerét alkalmaztam. Ezen probléma megoldására publikált rendszerek [11][12] a kétlépéses megközelítést alkalmazzák, amelynek részletes bemutatása a fejezetben történik. A publikált rendszerek elsősorban a negatív példák kiválasztásában különböznek, egészen az egyszerű többségi szavazástól a kernel módszerekig [13] több lehetőség is megtalálható. A szövegbányászati rendszerek számára elengedhetetlenül fontos az egyes tulajdonnevek azonosítása, hiszen ezek általában jelentős információhordozó szerepet tölthetnek be a szövegekben. Az 1990-es évek közepe óta kutatott terület egy kétszintű problémának bizonyult: egyrészről meg kell találni és fel kell ismerni a szöveg(ek)ben az előre definiált kategóriákba tartozó tokensorozatokat, másrészről a megfelelő szemantikai osztályokba kell azokat sorolni. Az utóbbi időben egyre nagyobb figyelmet kaptak a - 5 -

8 tulajdonnév felismerő rendszerek. A Message Understanding Conference MUC-7 keretén belül a tulajdonnevek azonosítása, valamint a személynevek, földrajzi nevek, szervezetek egyéb kategóriákba sorolása, továbbá egyéb, időt, mennyiséget stb. leíró kifejezések felismerése volt a feladat [14] ban a Conferenceon Computational Natural Language Learning (CoNNL) által meghirdetett nyílt versenysorozaton angol és német nyelvű szövegekben egyazon modell építésével tulajdonnevek felismerése volt a célkitűzés [15]. Napjainkban a probléma legsikeresebbnek vélt, és egyben leggyakrabban használt megközelítésének a szekvenciatanulás bizonyult, amelynek legismertebb képviselője a Conditional Random Fields (CRF) [16]. Léteznek magyar nyelvre is alkalmazott szabályalapú [17] és gépi tanulási tulajdonnévfelismerő rendszerek [18][19]. A statisztikai rendszereket elsősorban a Szegedi Tudományegyetemen készített gazdasági tulajdonnév korpusz [20] inspirálta

9 3. A vállalkozások címeit kinyerő rendszer Dolgozatomban - a távlati célok elérése érdekében tett első lépésként magyarországi vállalkozások megnevezésének és címeinek online kereséseken alapuló automatikus kinyerésének problémájára fókuszáltam. A rendszer egy adott tevékenységi kör lekérdezésére a WWW-ben elérhető vállalkozások neveit és címeit adja eredményül. Tehát egy autókereskedés Szeged keresőkifejezésre a C-Mobil Kft Szeged, Napos út 6. rekordot adja vissza egy lehetséges találatként (a másik több tucat találat között). Azért választottam a címek azonosítását első lépésként, mert az automatikus rendszer outputja könnyedén kiértékelhető a Cylex Tehnologia Informatiei SRL 4 által rendelkezésemre bocsátott címlista alapján, és mindemellett mindennapi gyakorlati alkalmazása is komoly előnyöket biztosíthat a döntéshozók számára. A probléma megoldása során egyaránt alkalmaztam szabályalapú rendszereket, gépi tanuló algoritmusokat és egyéb heurisztikákat. A rendszer több, elkülöníthető részprobléma megoldásaként áll elő (az architektúrát az 1. ábra szemlélteti): A rendszer inputja egy keresőkifejezés, ami jellemzően egy tevékenységi kör, ami alapján on-line keresők (Google és Yahoo) segítségével letöltjük a találati oldalakat. Ezek közül a nem magyar nyelvű és kevés szót tartalmazó oldalak kiszűrésre kerülnek. A szűrésen átment dokumentumokból kiválasztásra kerülnek a céges honlapok, ugyanis az online keresőket alkalmazva nem mindig találtam releváns oldalakat, ezért szükséges volt ezek szűrése, osztályozása. Az egyes vállalatok internetes oldalainak az azonosítása érdekében a kereséshez használt online keresők eredményeit automatikusan céges és nem céges csoportokba soroltam. A probléma megoldásához a pozitív és jelöletlen példákból való tanulás megközelítését alkalmaztam, ahol a standard módszer egy módosított változatát használtam. A céges -nek ítélt weblapokon ezután az egyes cégek neveinek és címeinek automatikus jelölésére került sor (tulajdonnév felismerési feladat). Erre a részproblémára mind szabályalapú megközelítéssel, mind gépi tanulási módszerrel adtam megoldást, ezáltal lehetőség nyílt a két módszer összehasonlítására is. Az egyes honlapokon található címek és cégnevek azonosításán túl, az ellenőrizhetőség miatt szükség volt azok egységes formátumra hozására is, illetve ha egy oldalon több cím is szerepelt, egyszerű heurisztikák segítségével hozzárendeltem az adott cég nevéhez a hozzátartozó címet is, ami egy a keresett tevékenységi körhöz kapcsolódó - cégnév címlistát eredményez

10 3.1. Honlapok osztályozása 1. ábra: A rendszer felépítése Az első kísérletek kiértékelése során a hibák elemzésekor azonosítottam azt a problémát, hogy az online keresők találatai nagyon sok spam oldalt tartalmaznak. Ezek a nem releváns találatok rontják a hatékonyságot. A célom az volt, hogy a vállalatok weblapjait megkülönböztessem minden egyéb típusú weblaptól a későbbi (címfelismerésen túli) munka megkönnyítése érdekében. Ehhez a pozitív és jelöletlen példákból tanulás módszerét választottam Tanulás pozitív és jelöletlen példákból A standard szövegklasszifikációs eljárások [11][12] egy megadott tanulóhalmaz alapján megtanult modell szerint sorolják be az új, ismeretlen dokumentumokat az előre definiált osztályokba. A tanítóhalmaz általában minden osztályra tartalmaz példákat. Ezen felügyelt tanulási módszerek legnagyobb hátránya, hogy a pontos tanuláshoz szükség van egy nagy - 8 -

11 méretű, felcímkézett tanító adatbázisra. Ezt általában manuálisan jelölik, amely igen időigényes folyamat. A negatív példák keresése különösen fontos és nehéz feladat, mivel ezek egyenletesen írják le -a pozitív eseteken kívüli- univerzum halmazt. A honlap osztályozási feladatban a pozitív példák (céges oldalak) és a jelöletlenek könnyen gyűjthetőek. Az én esetemben a kézi jelölés elkerülhető. Megközelítésemben egy rendelkezésre álló pozitív tanítóhalmaz és egy jelöletlen halmaz segítségével valósítom meg a szövegklasszifikációt. A fő nehézség ebben az esetben az, hogy a jelöletlen halmaz tartalmazhat pozitív példákat is, ezért a klasszifikációt megelőzi egy előfeldolgozási szakasz, amelyben megbízható negatív példákat nyerünk ki automatikusan ebből a halmazból. A problémát éppen ezért kétlépéses stratégiával szokták megközelíteni [11]: 1. lépés: A jelöletlen halmazból azonosítani kell a legvalószínűbb negatív példákat automatikus eljárással. 2. lépés: A pozitív tanítóhalmaz és a jelöletlen halmaz negatív elemeiből összetevődő tanítóhalmaz segítségével klasszikus szövegklasszifikációs algoritmus alkalmazása. A probléma gyakorlati megvalósítása során az eddig alkalmazott eljáráson túl, annak módosított változatait is implementáltam. 1. lépés: Positive Examples Based Learning (PEBL, pozitív példákon alapuló tanulás): az eddig publikált módszerekben [10][11] egy pozitív szólista készült, amelybe minden olyan szó bekerült, amely átlagosan többször fordult elő a pozitív dokumentumokban, mint a jelöletlen korpuszban. Ennek a listának a segítségével minden olyan dokumentumot eltávolítok a jelöletlen halmazból, amelyben legalább egyszer előfordult a pozitív szólista egy eleme. Ez az új leszűkített jelöletlen halmaz jelentette a később alkalmazott klasszikus szövegklasszifikációs algoritmus negatív halmazát. Átlagos tfidf alapú megközelítés (ATFIDF): ez a saját módszer egy pozitív szólistát készít, melynek alapjául a pozitív és a jelöletlen halmaz átlagos tf-idf súlyozása szolgált (lásd fejezet). Ezután a negatív halmaz kijelölése a hagyományos módszerhez hasonlóan történt. Vegyes megközelítés: a hagyományos és a VTM alapú megközelítések szólistájának összefésülése (uniója) révén egy bővebb pozitív lista segítségével az eddigiekhez hasonló módon került kijelölésre a negatív korpusz. 2. lépés: Mindhárom esetben klasszikus szövegklasszifikáció alkalmazása, néhány új, a korábbiakban nem alkalmazott jellemzővel bővített térben

12 Honlap osztályozási adatbázis A honlap osztályozási feladat megoldásához és kiértékeléséhez szükséges adatbázisok alapjául, egy a Cylex által rendelkezésemre bocsátott lista szolgált, amely tízezer, többségében magyarországi vállalkozás legfontosabb információt tartalmazza, úgy mint a vállalkozás megnevezése, pontos címe, telefonszáma, tevékenységi köre, és amennyiben az elérhető, akkor annak címe és weboldala. A későbbi könnyebb feldolgozhatóság érdekében szükséges volt a listában szereplő vállalkozások normalizálása, egységes formára hozása. A tanító és kiértékelő adatbázisok a céglista bejegyzései alapján indított, a Google és a Yahoo API-val történő keresések találatainak letöltésével álltak elő. A nyílt forráskódú online kereső API-k előzetes regisztráció után, napi keresési limitek (a Google API esetében ez napi 1000, míg a Yahoo esetében napi 5000 lekérdezés) közt használhatóak. Mivel napjainkban alapkövetelménnyé vált, hogy betűinket és számainkat a saját nyelvünkön, ékezetekkel ellátva jelenítsék meg a weboldalak, ezért azok készítői különös figyelmet szentelnek a helyes karakterkódolásnak. Az egyes letöltött weblapok helyes karakterkódolásának megállapítása a későbbi hatékony adatfeldolgozás érdekében elengedhetetlenül fontos, ugyanakkor meglepően bonyolult feladatnak bizonyult. Megoldást végül a Mozilla Firefox nyílt forráskódú szoftverének a karakterkódolás megállapításáért felelős software könyvtára jelentette. Az online keresők API-jai jól paraméterezhetőek, ezért a keresések kizárólag magyar nyelven történtek. Sajnos ennek ellenére szükség volt a letöltött weblapok nyelvi szűrésére, ugyanis még így is jelentős mennyiségű angol nyelvű lap került az adatbázisokba. A szűrés alapja az egyes dokumentumokban szereplő angol szavak aránya volt. Amennyiben a dokumentumban szereplő szavak több mint 40%-a szerepelt egy angol szólistában 5 [21], akkor az a dokumentum kikerült a korpuszból. Továbbá kiszűrésre került minden 20-nál kevesebb szót tartalmazó dokumentum, mivel azok sok esetben egy belépő, vagy valamilyen hibáról értesítő oldalt tartalmaztak. A Cylex lista 4000 véletlenszerűen választott vállalkozásának URL címe biztosította a honlap osztályozási feladat pozitív példáit. Letöltés 3891 alkalommal volt sikeres, a többi esetben a lista nem tartalmazott webcímet. Az angol nyelvi és méret szűrések után 1646 dokumentum maradt a halmazban. A jelöletlen halmazba a dokumentumok a következőképp kerültek: a Cylex lista tevékenységi kör mezőjében szereplő kifejezések közül azon szavakra kerestem rá az online keresők segítségével, amelyek legalább harmincszor fordultak elő. Ez 279 különböző online 5 az English Gigaword korpuszban több mint tízezerszer előforduló szavak

13 keresést és 5253 letöltött fájlt eredményezett. A szűrések után 3384 dokumentumból tevődött össze a jelöletlen halmaz. A különböző módszerek végső kiértékeléséhez szükség volt egy etalon kiértékelési korpuszra. Ezért egy annotátor manuálisan kiválasztott mindkét listából 200 egyértelműen pozitív, illetve negatív weblapot A honlap osztályozás jellemzőtere A vektortérmodell (VTM) [22] a szövegbányászati modellek első, és egyben egyik legszélesebb körben használt dokumentum reprezentációs eszköze. A modellben a korpusz (dokumentumok halmaza) minden dokumentuma egy pontnak felel meg a sokdimenziós vektortérben, melyben egy dokumentumot egy vektor ír le. A vektor minden eleme az egyes termek (szavak esetleg szósorozatok) előfordulását jelenti. Ez a sokdimenziós struktúra nyújt lehetőséget az egyes dokumentumok egymáshoz viszonyított hasonlóságának meghatározására, dokumentum klaszterek definiálására, valamint egyéb jelentéstartalom kinyerésére. A dokumentumhalmazt leíró lexikon alapesetben minden egyedi szót tartalmaz (legalább egy alkalommal, legalább egy dokumentumban előfordultak a vizsgált korpuszban), a vektortérmodell dimenziószáma pedig a lexikon méretével azonos. Az egyedi szavak száma egy nyelv esetében átlagosan szó, de ez természetesen nyelvenként jelentősen eltérhet, és függ a felölelt témák diverzitásától is. A vektortér dimenziószámának csökkentésére különböző szövegbányászati előfeldolgozási műveleteket lehet alkalmazni, úgymint stopszó lista-alapú szűrés vagy szótövezés. A vektorteret egy TD NxM term-dokumentum előfordulási mátrixszal (Term-Document mátrix vagy TD mátrix) tudjuk leírni, ahol N-nel jelöljük a dokumentumok vektorainak dimenziószámát, míg M-mel a dokumentumok számát. Egy tetszőleges td ij elem pedig az i- edik term előfordulásainak számát jelenti a j-edik dokumentumban. Egy TD NxM term-dokumentum mátrixot többféleképpen valósíthatunk meg. Bináris TD mátrixról akkor beszélhetünk, ha a mátrix elemei csak 0 és 1 értéket vehetnek fel. Ebben az esetben, ha egy tetszőleges elem értéke 1, akkor az i-edik term szerepel a j-edik dokumentumban, máskülönben 0 (amennyiben nincs benne a dokumentumban). A szógyakorisági TD mátrix esetén az egyes elemek az egyedi szavak j-edik dokumentumban való előfordulásának a gyakoriságát adják meg, mely nyilvánvalóan több információt hordoz a bináris megközelítéssel szemben. A vektortér még pontosabb reprezentálására a súlyozott TD mátrixot használják, amely az előbbi gyakorisági értékeket súlyozza, ezáltal kisebb súllyal kerülnek a mátrixba a kevésbé releváns szavak. Erre az egyik legáltalánosabban használt módszer a tf-idf (term frequency

14 inverse document frequency) normalizáció. Ekkor azon termek kapnak nagyobb súlyt, amelyek előfordulása jobban jellemzi a dokumentum tartalmát. Alapjául egyrészről a TF súlyozás szolgál, amit alábbi módon számítanak: tf i,j = n i,j n k,j i-edik term j-edik dokumentumra vonatkozó tf értékét kiszámító képlet Ezen súlyozási séma fogyatékossága, hogy a lexikon összes szavát azonos módon számítja, holott az egyes témaspecifikus szavak, mint pl. az adatbányászat szó nyilvánvalóan jobban leírja egy dokumentum tartalmát, mint esetleg egy névelő. Másrészről az inverz dokumentum frekvencia (Idf) az alábbi képlettel képes leírni, hogy adott szó a korpuszbeli ritkasága alapján mekkora megkülönböztető képességgel rendelkezik: D idf i = log {d j :t i d j }, i-edik term idf értékét kiszámító képlet Ahol a hányados számlálójában az összes dokumentum száma szerepel, a nevezőben pedig azon dokumentumok száma, amelyek tartalmazzák az adott termet. Ezek felhasználásával a következőképpen kapjuk meg a tf-idf-t: tfidf i,j =tf i,j idf i tf-idf értékének kiszámításának képlete Ezáltal azok a szavak szerepelnek nagyobb súllyal egy dokumentumra vonatkoztatva, amelyek hangsúlyosak arra nézve, továbbá más témájú dokumentumokban nem fordulnak elő jellemzően. Az implementáció folyamán a GNU licenc alatt álló, nyílt forráskódú, JAVA nyelven implementált Text Clustering Toolkit (TCT) 6 library segítségével kerültek kiszámításra ezen értékek. A VTM megközelítésnek a legnagyobb hátránya, hogy a szavak egymáshoz való (szintaktikai és szemantikai) viszonya elveszik, mivel egy TD mátrix csak az egyedi szavak előfordulását képes reprezentálni az egyes dokumentumokban. Továbbá az ábrázolt tér dimenziószáma igen magas is lehet, a TD mátrix pedig igen ritka, mivel a teljes lexikon egyedi szavainak igen kis hányada fordul elő egy dokumentumban. Ugyanakkor elmondható, hogy egy egyszerű és gyors megoldás nyújt a dokumentumok hasonlóságának meghatározására, valamint a standard gépi tanulási technikák alkalmazására. 6 TCT (Text Clustering Toolkit) University College Dublin (

15 A tf-idf súlyozást két helyen is alkalmaztam a rendszerben. Egyrészt az egyes termek átlagos tf-idf értékei (tfidf normalizált TD mátrix oszlopátlaga) alapján került kiválogatásra az ATFID megközelítés esetén a pozitív szólista. Azaz minden olyan, a korpuszban legalább hússzor előforduló szó bekerült a szólistába, melynek a pozitív dokumentumhalmazban számított átlagos tf-idf súlya nagyobb volt, mint a jelöletlen halmazból számított súlya. Így természetesen olyan szavak is beválogatásra kerültek, amely csak a pozitív dokumentumokban fordult elő. A pozitív és jelöletlen példákból való tanulás második lépésének szövegklasszifikációjánál is a korpusz tf-idf által súlyozott TD mátrixának használata bizonyult a előnyösebbnek a normalizálás nélküli (bináris) TD mátrixhoz képest. Az osztályozási probléma megoldásához több új jellemzőt is felvettem a dokumentumokat leíró vektorokhoz: Az egyes weblapok TITLE tag-jeiben szereplő szavak a titleword címkével kerültek a lexikonba, amely ugyan a dimenziószám növekedésével járt, de ezáltal ezek a szavak a DOM fában való elhelyezkedésük plussz információját is tartalmazták. Így például a kft szó titleworld_kft ként szerepel a lexikonban. Továbbá bekerült néhány, a weblapokra jellemző adat is, úgy mint a lapon található szavak, címek, és kifelé mutató élek (linkek) száma. Ezek ugyan növelték a vektortér dimenziószámát, de információtartalmuk miatt a végső eredményre kedvező hatással voltak. A kezelhetőség érdekében különböző szűréseket is alkalmaznom kellett. A stopword alapú szűrés segítségével azon szavak, amelyek nem bírnak különösebb jelentéstartalommal, nem kerültek bele a VTM lexikonjába, ezáltal annak dimenziószáma is kisebb lett. Az egyes nyelvek stopword listája az Interneten fellelhető, így például a [23] nevezett helyen 23 különböző nyelv listájához lehet hozzáférni. A tf-idf szűrés során a listában szereplő szavak többségének ugyan eliminálásra kell kerülnie, de mivel ezen szavak semmilyen jelentés megkülönböztető szereppel nem bírnak, így előzetes eltávolításuk csökkenti alkalmazásuk költségeit. A stopwordökön túl a dokumentumokban előforduló számok kiszűrése is hasznosnak bizonyult Döntési fa-alapú osztályozás A VTM alapú osztályozáshoz a nagy dimenziós terekben is hatékony döntési fákat használtam [24]. Ezen megközelítés az ember számára könnyen értelmezhető outputot generál, ráadásul éppen diszkrét jellemzők feldolgozására fejlesztették ki. A döntési fa felépítésére több hatékony algoritmus létezik, például a C4.5 [25] illetve annak elődje, az ID3 (Iterative Dichotomiser 3), amelyekkel diszkrét osztályok felügyelt tanulását lehet

16 végezni. Ennek a folyamatnak az outputja egy tengelypárhuzamos vágásokat alkalmazó döntési fa lesz. Vagyis az ismert entitások által alkotott teret a tengellyel párhuzamos hipersíkok mentén részterekre osztja fel. A C4.5 algoritmust használhatjuk folytonos jellemző értékek esetén is, mivel a d-dimenziós tér pontjaiként kezeli a tulajdonságvektorokat. A C4.5 az oszd meg és uralkodj tudásreprezentációra épül, vagyis a tanulási folyamat közben egy részteret alterekre bontunk fel, ha az nem bizonyult kellőképpen homogénnek. A gyakorlatban az új-zélandi Waikato Egyetem által készített nyílt forrású, JAVA nyelven implementált adatbányászati alkalmazásokat támogató programcsomagot vettem igénybe. A Weka-ban [26] a C4.5 algoritmus egy továbbfejlesztett változatát, a J48 osztályt használtam, amely talán a legelterjedtebb döntési fa tanuló módszer e programcsomagban Címek automatikus felismerése Ebben a részfeladatban a különböző honlapokon található címek és vállalkozásnevek azonosítása volt a cél. A címek megadásának ugyan van előre meghatározott pontos formája, ám ha ezt nem tartják be, az ugyan az emberi szem számára továbbra is felismerhető marad, míg az automatikus felismerés nem triviális. A probléma megoldásakor többféle megközelítést alkalmaztam, így lehetőség nyílt a szabályalapú és a gépi tanulási módszer összehasonlítására. A gépi tanulási megközelítés során a Szegedi Tudományegyetemen kifejlesztett tulajdonnév felismerő rendszert alkalmaztam A manuálisan annotált címkorpusz Mivel a cél az egyes részfeladatok egymástól függetlenül történő kiértékelése volt, ezért fel kellett tenni egy etalon céges honlaposztályozót. Az egy adott céghez köthető weboldalak a vállalkozások adatait tartalmazó Cylex adatbázis segítségével kerültek letöltésre. Mivel csak az egyes társaságok saját weboldalai, azon belül is azok, amelyek tartalmazzák a vállalat címét vagy nevét, számítottak relevánsnak, ezért az online keresők site speciális kulcsszava segítségével csak a cégek saját oldalain történt a keresés. A nem releváns találatok elkerülése érdekében egy keresőkifejezés tartalmazta továbbá a cég címében szereplő közterület megnevezés első tokenjét is. Amennyiben az nem volt elérhető az adatbázisban, akkor e helyett a vállalkozás nevének első tokenje szerepelt helyette. Ez alapján egy adott keresőkifejezés a következőképpen alakult: site: vallalatwebcime.hu közterület amennyiben a közterület nem volt elérhető: site: vallalatwebcime.hu vállalkozás neve Természetesen a keresés csak abban az esetben járt sikerrel, ha az adatbázis tartalmazta

17 az adott webcímet. Sajnos több esetben is előfordult, hogy a cím nem helyesen került az adatbázisba, vagy az oldal címe időközben megváltozott. Az egy adott céghez tartozó weboldalak egy könyvtárba kerültek, amennyiben pedig a Google és Yahoo találatai közt volt egyezés, akkor a kérdéses oldal csak egyszer került letöltésre. HTML annotációs eszköz: A HTML oldalak manuális jelöléséhez elengedhetetlenül szükség volt egy az igényeket kielégítő, ugyanakkor kényelmes és hatékony eszközre. A 2008 tavaszán az MTA-SZTE Mesterséges Intelligencia Tanszék Kutatócsoportja által készített, HTML oldalak annotálását segítő, szabadon letölthető Mozilla Firefox extension felhasználásával történt az annotálás [27]. Ennek segítségével az annotátorok az oldalakat eredeti megjelenésükben látták, nem kellett a HTML-ek forrását szerkeszteniük. Az eszköz további előnye, hogy nem módosítja a DOM fát, mivel csak speciális komment tageket illeszt be a forrásba, így az oldalak eredeti megjelenése nem változik. Eredeti oldal <TR> <TD valign="top" width="100%"> <STRONG> No1.Gödöllő, Veres P. u. 18 Tel: </STRONG></TD> </TR> Annotált oldal <TR> <TD valign="top" width="100%"><strong>no1. <!--Cim- begin--><!--varos-begin-->gödöllő,<!-- Varos-end--> <!--Utca-begin-->Veres P. u.<!--utca-end--><!--hazszam-begin--> 18<!--Hazszam-end--><!--Cim-end--> Tel: </STRONG></TD> </TR> Címkék: A korpuszban jelölendő típusok a következők voltak: VALLALAT: különböző szervezetek és cégek megnevezései HAZSZAM: lakásszámok IRANYITOSZAM: települések postai irányítószámai UTCA: közterületek megnevezései és azok típusai VAROS: települések megnevezései Az annotációs folyamat: A vállalkozások adatait tartalmazó adatbázisból 100 db céget választottam ki véletlenszerűen, majd az ezekhez tartozó 454 Google találatot letöltöttem. Ezek alkotják a cím-annotációs korpuszt. Az annotációt két nyelvész hallgató végezte el, akik egymástól függetlenül dolgoztak egy előzetesen megírt útmutató alapján, amely tartalmazta a feladat

18 pontos leírását, valamint néhány példát és ellenpéldát egyaránt. Feladatuk az oldalakon szereplő cégnevek és címek jelölése volt. Az útmutató a legfontosabb előírása ez volt: A cél az, hogy az oldalakon minden magyar cég és egyéb szervezet nevét és címét megjelölünk, fontos, hogy csak magyar cégeket jelölünk magyar címekkel. Nem jelölünk magyar címeket, cégeket, amennyiben bármely más nyelven vannak leírva. Az annotátoroknak a folyamat során tilos volt a vitás eseteket egymással megbeszélniük. A folyamat végén egy harmadik nyelvész hallgató egyértelműsítette azokat az eseteket, amikor a két annotátor eltérően jelölt. Az így elkészült korpusz 536 VAROS, 526 UTCA, 515 HAZSZAM, 436 IRANYITOSZAM és 936 VALLALAT címkét tartalmaz Szabályalapú megközelítés címek és cégnevek jelölésére A szabályalapú megközelítésen a kézzel gyűjtött listaillesztési és reguláris kifejezési szabályok egymás utáni végrehajtását jelenti. Nehézséget jelentett többek közt, hogy a HTML forrásban való keresés értelemszerűen jóval nehezebb, mint az egyszerű szöveges dokumentumok esetén. Mindemellett kezelni kellett az esetleges elírásokat, a rövidítések feloldását vagy az ékezetek esetenkénti elhagyását. A helyesírási problémák feloldására a Levenstein-távolságfüggvényt alkalmaztam, ami képes egy mérőszámot adni arra, hogy milyen költségű beszúrás, törlés és csere operációk sorozatával vihetünk át egy stringet a másikba. A rendszer alapját többek közt különböző listák jelentették, mint például a Magyar Posta honlapjáról letölthető adatbázis [28], melyben a hat legnagyobb magyarországi város közterületei és irányítószámai szerepeltek. Továbbá a lehetséges városnevek, közterület- vagy vállalkozás típusok is egy-egy felsorolást alkottak. A hatékonyabb működés érdekében a listák egyes tokenjei többféleképpen is bekerültek a rendszerbe, így ékezetek nélkül és a közterületek megnevezései esetén rövidített formában is. Ezért pl. a Dózsa György közterület név Dózsa György, Dozsa Gyorgy, Dózsa Gy, valamint Dozsa Gy -ként is szerepel a rendszerben. Címek esetén a megközelítésnek az alapgondolata a következő volt: amennyiben az algoritmus a HTML oldalakon szereplő szövegben egy közterület típust leíró tokent talált, annak környékén igen nagy valószínűséggel egy cím szerepel. Ezért vettem ennek a tokennek egy adott k távolságon belüli szomszédait, és a továbbiakban ezen a tokensorozaton dolgoztam. Ebben a környezetben a fenti listák alapján próbálja azonosítani az egyes elemeket az algoritmus. Szabad tagok esetén a közterület típus előtt és után egyaránt, míg félig szabad tagokat csak az adott feltételek szerint keres. A módszer nem csak teljes címeket jelölt, hiszen előfordulhatnak csonka címzések is,

19 jellemzően az irányítószám hiányával. Továbbá ha az egyik tagot esetlegesen nem sikerült azonosítani, a többi attól még jelölésre került, ezáltal csökkentve a hiba mértékét. A cégnevek azonosítása a címekhez hasonló módon történt. Ebben az esetben viszont a HTML oldalakon a cégnevek végződéseit, mint például kft, vagy bt kereste az algoritmus, és cégnévnek jelölte azt a nagy kezdőbetűkkel rendelkező token sorozatot, amely a cégvégződést megelőzte. Az egyes elemek értelmezési, azonosítási lehetőségei a következők [29]: település megnevezése: szabad tag magyarországi települések neveinek halmaza (rövidítéseket tartalmazhat) irányítószám: szabad tag: (H )[1 9] [0 9] [0 9] [0 9] postafiók: szabad tag: postafiók/pf(.) [0 9]? [0 9]? [0 9]? [0 9] közterület típusa: félig szabad tag (nem szerepelhet a közterület előtt): magyarországi közterületek típusai (rövidítéseket tartalmazhat) közterület megnevezése: félig szabad tag (nem szerepelhet településnév előtt): magyarországi közterületek neveinek halmaza lakásszám: félig szabad tag (nem szerepelhet a közterület megnevezése előtt) római szám/egész szám(.) emelet egész szám (.) kerületszám: római szám/egész szám(.) ker(.)/kerület Gépi tanulási megközelítés címek és cégnevek jelölésére Ezen megközelítés során a Szegedi Tudományegyetem Informatikai Tanszékcsoportján Szarvas György és Farkas Richárd által 2006-ban publikált nyelvfüggetlen tulajdonnév felismerő rendszerhez Named Entity Recognition kialakított jellemzőteret használtam fel [18]. Ezen jellemzők a következők: Felszíni jellemzők: kis/nagy kezdőbetű, szóhossz, stb. Frekvenciainformációk: token előfordulási gyakorisága (webről gyűjtött frekvenciaszótárban) Környezeti jellemzők: mondatbeli pozíció, zárójelek, idézőjelek használata, stb. Egyértelmű tulajdonnevek listája: azon szavak listája, amelyeknek az osztálya a tanítóhalmaz alapján egyértelműen meghatározott Tulajdonnév szótárak: Internetről letöltött listák, mint pl. vállalat típusok

20 Az így kialakított jellemzőtérre a tulajdonnév felismerési feladatokban a napjainkban legjobbnak tartott Conditional Random Fields (CRF) tanuló algoritmust alkalmaztam [16], amely a szekvenciatanulás (sequence labeling, stuctured prediction) módszerén alapszik. Ez a megközelítés alapvetően abban különbözik a klasszikus osztályozási feladattól, hogy nem egyetlen szeparált egyed címkéjének előrejelzésére épülő statisztikai modell, hanem osztálycímkék egy egész sorozatára. Ebben az esetben természetesen nem lehet élni az egyedek közti függetlenség feltevésével. A szekvencia alapú tanuló algoritmusok első változata a Rejtett Markov Modell volt [30], melynek később számos változata jelent meg. A CRF a rejtett Markov Modellel ellentétben nem követeli meg (a logisztikus regressziós modell felhasználásának köszönhetően) a jellemzők közötti függetlenségi feltevést A cégnevek és -címek összerendelése A harmadik, és egyben utolsó nagyobb részfeladat célja a letöltött weboldalakon felismert cégnevek és azok címeinek összerendelése. Mivel egy cím, vagy akár egy cég megnevezése is többféleképpen fordulhat elő, ezért elengedhetetlen az egyes címek és vállalatnevek egységes formára hozása (normalizálása), majd ezután annak eldöntése, hogy a szóban forgó céghez mely cím és név tartozik Az összerendelés kiértékelése Az egyes honlapokon, amelyek egy adott vállalkozásra vonatkozóan tartalmazzák annak címét vagy megnevezését, más társaságok adatai is szerepelhetnek. Ebben az esetben valamilyen módon szükséges az adott vállalkozáshoz tartozó adatok azonosítása, mivel egy oldalon sok esetben több cím és vállalkozás név fordul elő. A feladatot különböző heurisztikák segítségével oldottam meg. Ezek hatékonyságának mérése a Cylex adatbázis segítségével történt. Annak érdekében, hogy az automatikus címfelismerés hozzáadott hibáját értékelni tudjuk, az egyes heurisztikák az annotátorok által címjelölt és egyértelműsített adatbázison is lemérésre kerültek (ez a címjelölésben etalon adatbázis). Mivel mind a kiértékelő Cylex adatbázist, mind az egyes weblapok tartalmát emberek készítették, valamint a jelölések tökéletlenségéből fakadóan, óhatatlanul előfordultak olyan hibák, amelyek jelentősen megnehezítették a kiértékelést

Gépi tanulás a gyakorlatban. Bevezetés

Gépi tanulás a gyakorlatban. Bevezetés Gépi tanulás a gyakorlatban Bevezetés Motiváció Nagyon gyakran találkozunk gépi tanuló alkalmazásokkal Spam detekció Karakter felismerés Fotó címkézés Szociális háló elemzés Piaci szegmentáció analízis

Részletesebben

ACTA CAROLUS ROBERTUS

ACTA CAROLUS ROBERTUS ACTA CAROLUS ROBERTUS Károly Róbert Főiskola tudományos közleményei Alapítva: 2011 3 (1) ACTA CAROLUS ROBERTUS 3 (1) Informatika szekció SZÖVEGOSZTÁLYOZÁSI MÓDSZEREK A WEKA ADATBÁNYÁSZATI SZOFTVER SEGÍTSÉGÉVEL

Részletesebben

Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára

Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára Vázsonyi Miklós VÁZSONYI Informatikai és Tanácsadó Kft. BME Információ- és Tudásmenedzsment Tanszék 1/23 Tartalom A MEK jelenlegi

Részletesebben

A VEKTORTÉR MODEL HASZNÁLATA A SZÖVEGBÁNYÁSZATBAN THE USAGE OF THE VECTOR-SPACE MODEL IN TEXT MINING

A VEKTORTÉR MODEL HASZNÁLATA A SZÖVEGBÁNYÁSZATBAN THE USAGE OF THE VECTOR-SPACE MODEL IN TEXT MINING Gradus Vol 3, No 2 (2016) 73-79 ISSN 2064-8014 A VEKTORTÉR MODEL HASZNÁLATA A SZÖVEGBÁNYÁSZATBAN THE USAGE OF THE VECTOR-SPACE MODEL IN TEXT MINING Subecz Zoltán 1* 1 Informatika Tanszék, Gépipari és Automatizálási

Részletesebben

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés Gépi tanulás a gyakorlatban Kiértékelés és Klaszterezés Hogyan alkalmazzuk sikeresen a gépi tanuló módszereket? Hogyan válasszuk az algoritmusokat? Hogyan hangoljuk a paramétereiket? Precízebben: Tegyük

Részletesebben

Projektvezetői döntések támogatása webbányászattal

Projektvezetői döntések támogatása webbányászattal NETWORKSHOP 2008 2008. március 17-19. Dunaújváros, Dunaújvárosi Főiskola Projektvezetői döntések támogatása webbányászattal Bóta László Ph.D. hallgató (BME) Eszterházy Károly Főiskola, Eger BI (Business

Részletesebben

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése 1 Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Természetes nyelv feldolgozás 2 Tudásalapú információ-kereső rendszerek

Részletesebben

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből 2010/2011 tavaszi félév SZTE Eötvös Loránd Kollégium 1. Dombi József: Fuzzy elmélet és alkalmazásai 2011. március 3. 19:00 2. Móra György: Információkinyerés természetes nyelvű szövegekből 2011. március

Részletesebben

AZ ÜGYFÉL KOMMUNIKÁCIÓ ÚJ FORMÁI POZITÍV ÜGYFÉLÉLMÉNY SZÖVEGBÁNYÁSZATI MEGOLDÁSOK

AZ ÜGYFÉL KOMMUNIKÁCIÓ ÚJ FORMÁI POZITÍV ÜGYFÉLÉLMÉNY SZÖVEGBÁNYÁSZATI MEGOLDÁSOK AZ ÜGYFÉL KOMMUNIKÁCIÓ ÚJ FORMÁI POZITÍV ÜGYFÉLÉLMÉNY SZÖVEGBÁNYÁSZATI MEGOLDÁSOK HOFGESANG PÉTER ÜZLETI INTELLIGENCIA A JÖVŐ, AHOGY MI LÁTJUK Hagyományos és új kommunikációs formák Szöveges adatok Szöveganalitika

Részletesebben

Adatkeresés az interneten. Cicer Norbert 12/K.

Adatkeresés az interneten. Cicer Norbert 12/K. Adatkeresés az interneten Cicer Norbert 12/K. Internetes keresőoldalak Az internet gyakorlatilag végtelen adatmennyiséget tartalmaz A dokumentumokat és egyéb adatokat szolgáltató szerverek száma több millió,

Részletesebben

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017. Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017. Vizuális feldolgozórendszerek feladatai Mesterséges intelligencia és idegtudomány Mesterséges intelligencia és idegtudomány Párhuzamos problémák

Részletesebben

Struktúra nélküli adatszerkezetek

Struktúra nélküli adatszerkezetek Struktúra nélküli adatszerkezetek Homogén adatszerkezetek (minden adatelem azonos típusú) osztályozása Struktúra nélküli (Nincs kapcsolat az adatelemek között.) Halmaz Multihalmaz Asszociatív 20:24 1 A

Részletesebben

ADATBÁNYÁSZATI SZOFTVER HASZNÁLATA SZÖVEGOSZTÁLYOZÁSHOZ DATA MINING SOFTWARE FOR TEXT CLASSIFICATION

ADATBÁNYÁSZATI SZOFTVER HASZNÁLATA SZÖVEGOSZTÁLYOZÁSHOZ DATA MINING SOFTWARE FOR TEXT CLASSIFICATION Gradus Vol 4, No 2 (2017) 444-452 ISSN 2064-8014 ADATBÁNYÁSZATI SZOFTVER HASZNÁLATA SZÖVEGOSZTÁLYOZÁSHOZ DATA MINING SOFTWARE FOR TEXT CLASSIFICATION Subecz Zoltán 1*, Nagyné Dr. Csák Éva 2 1 Informatika

Részletesebben

1 Mit értünk cookie, böngésző helyi tárolás ("cookie és hasonló technológia") alatt?

1 Mit értünk cookie, böngésző helyi tárolás (cookie és hasonló technológia) alatt? Cookie-szabályzat Hatályos: 2018. május 25. Utoljára frissítve: 2018. március 23. A GfK Hungária askgfk.hu Online Access Panel teljesítése céljából a jelen Cookie-szabályzat alapján cookie-kat és hasonló

Részletesebben

Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben.

Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben. Tartalom Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben. Előszó 1. Az adatbányászatról általában 19 1.1. Miért adatbányászat? 21 1.2. Technológia a rejtett információk

Részletesebben

Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS)

Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS) Networkshop, 2008 Márc. 17 19., Dunaújváros Holl Erdődi: Fejlett kereső... 1 Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS) Holl András Erdődi Péter MTA Konkoly Thege Miklós

Részletesebben

Kontrollcsoport-generálási lehetőségek retrospektív egészségügyi vizsgálatokhoz

Kontrollcsoport-generálási lehetőségek retrospektív egészségügyi vizsgálatokhoz Kontrollcsoport-generálási lehetőségek retrospektív egészségügyi vizsgálatokhoz Szekér Szabolcs 1, Dr. Fogarassyné dr. Vathy Ágnes 2 1 Pannon Egyetem Rendszer- és Számítástudományi Tanszék, szekersz@gmail.com

Részletesebben

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft. Tudásmodellezés Kereskedelmi Alkalmazásokban Dezsényi Csaba Ovitas Magyarország kft. Tudásmenedzsment Adat -> Információ -> Tudás Intézményi tudásvagyon hatékony kezelése az üzleti célok megvalósításának

Részletesebben

BARANGOLÁS AZ E-KÖNYVEK BIRODALMÁBAN Milyen legyen az elektonikus könyv?

BARANGOLÁS AZ E-KÖNYVEK BIRODALMÁBAN Milyen legyen az elektonikus könyv? BARANGOLÁS AZ E-KÖNYVEK BIRODALMÁBAN Milyen legyen az elektonikus könyv? Készítették: Névery Tibor és Széll Ildikó PPKE I. évf. kiadói szerkesztő hallgatók, közösen 1 BEVEZETŐ Az elektronikus könyv valamilyen

Részletesebben

BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István

BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján Hegedűs István Ajánló rendszerek Napjainkban egyre népszerűbb az ajánló rendszerek alkalmazása A cégeket is hasznos információval

Részletesebben

2. 3. Keresés az Interneten. Navigáció az Interneten: Megoldások. Internetes keresés buktatói. 1. Keresőmotorok. Webes keresési lehetőségek

2. 3. Keresés az Interneten. Navigáció az Interneten: Megoldások. Internetes keresés buktatói. 1. Keresőmotorok. Webes keresési lehetőségek Keresés az Interneten Navigáció az Interneten: Keresőrendszerek, keresési tippek Egyszerű keresőrendszerek Tematikus keresőrendszerek, katalógusok Portálok Adatbázisok, online folyóiratok Elektronikus

Részletesebben

KUTATÁSTÁMOGATÁS SOROZAT. Felhasználói segédlet Academic Search Complete adatbázisban idézők kereséséhez

KUTATÁSTÁMOGATÁS SOROZAT. Felhasználói segédlet Academic Search Complete adatbázisban idézők kereséséhez KUTATÁSTÁMOGATÁS SOROZAT Felhasználói segédlet Academic Search Complete adatbázisban idézők kereséséhez Szent István Egyetem Kosáry Domokos Könyvtár és Levéltár Készítette: Hreskó-Tóth Dalma Academic Search

Részletesebben

A Hunglish Korpusz és szótár

A Hunglish Korpusz és szótár A Hunglish Korpusz és szótár Halácsy Péter 1, Kornai András 1, Németh László 1, Sass Bálint 2 Varga Dániel 1, Váradi Tamás 1 BME Média Oktató és Kutató Központ 1111 Budapest, Stoczek u. 2 {hp,nemeth,daniel}@mokk.bme.hu

Részletesebben

Az internet az egész világot behálózó számítógép-hálózat.

Az internet az egész világot behálózó számítógép-hálózat. Az internet az egész világot behálózó számítógép-hálózat. A mai internet elődjét a 60-as években az Egyesült Államok hadseregének megbízásából fejlesztették ki, és ARPANet-nek keresztelték. Kifejlesztésének

Részletesebben

2. Készítsen awk szkriptet, amely kiírja az aktuális könyvtár összes alkönyvtárának nevét, amely februári keltezésű (bármely év).

2. Készítsen awk szkriptet, amely kiírja az aktuális könyvtár összes alkönyvtárának nevét, amely februári keltezésű (bármely év). 1. fejezet AWK 1.1. Szűrési feladatok 1. Készítsen awk szkriptet, ami kiírja egy állomány leghosszabb szavát. 2. Készítsen awk szkriptet, amely kiírja az aktuális könyvtár összes alkönyvtárának nevét,

Részletesebben

Adatbányászati technikák (VISZM185) 2015 tavasz

Adatbányászati technikák (VISZM185) 2015 tavasz Adatbányászati technikák (VISZM185) 2015 tavasz Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2015. február 11. Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 1 / 27

Részletesebben

Tudás Reflektor. Copyright 2011; Kodácsy Tamás; E-mail: kodacsy.tamas@kodasoft.hu

Tudás Reflektor. Copyright 2011; Kodácsy Tamás; E-mail: kodacsy.tamas@kodasoft.hu Tudás Reflektor A Társadalmi Megújulás Operatív Program 4.1.3. számú, A felsőoktatási szolgáltatások rendszerszintű fejlesztése Központi/felsőoktatási Validációs Rendszer projekt keretében készült olyan

Részletesebben

Statisztikai alapú tulajdonnév-felismerő magyar nyelvre

Statisztikai alapú tulajdonnév-felismerő magyar nyelvre Statisztikai alapú tulajdonnév-felismerő magyar nyelvre Farkas Richárd 1, Szarvas György 1 1 MTA-SZTE, Mesterséges Intelligencia Tanszéki Kutatócsoport, 6720 Szeged, Aradi vértanúk tere 1., Hungary, {rfarkas,

Részletesebben

Zimbra levelező rendszer

Zimbra levelező rendszer Zimbra levelező rendszer Budapest, 2011. január 11. Tartalomjegyzék Tartalomjegyzék... 2 Dokumentum információ... 3 Változások... 3 Bevezetés... 4 Funkciók... 5 Email... 5 Társalgás, nézetek, és keresés...

Részletesebben

Számítógépes döntéstámogatás. Bevezetés és tematika

Számítógépes döntéstámogatás. Bevezetés és tematika SZDT-01 p. 1/18 Számítógépes döntéstámogatás Bevezetés és tematika Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu Előadás SZDT-01 p. 2/18 SZDT-01

Részletesebben

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén Dombi József Szegedi Tudományegyetem Bevezetés - ID3 (Iterative Dichotomiser 3) Az ID algoritmusok egy elemhalmaz felhasználásával

Részletesebben

kodolosuli.hu: Interaktív, programozást tanító portál BALLA TAMÁS, DR. KIRÁLY SÁNDOR NETWORKSHOP 2017, SZEGED

kodolosuli.hu: Interaktív, programozást tanító portál BALLA TAMÁS, DR. KIRÁLY SÁNDOR NETWORKSHOP 2017, SZEGED kodolosuli.hu: Interaktív, programozást tanító portál BALLA TAMÁS, DR. KIRÁLY SÁNDOR NETWORKSHOP 2017, SZEGED A közoktatásban folyó informatika oktatásával kapcsolatos elvárások Állami szereplő: Az informatikaoktatás

Részletesebben

Gépi tanulás és Mintafelismerés

Gépi tanulás és Mintafelismerés Gépi tanulás és Mintafelismerés jegyzet Csató Lehel Matematika-Informatika Tanszék BabesBolyai Tudományegyetem, Kolozsvár 2007 Aug. 20 2 1. fejezet Bevezet A mesterséges intelligencia azon módszereit,

Részletesebben

H N S A d a t K a p c s o l a t

H N S A d a t K a p c s o l a t HNS AdatKapcsolat HNS AdatKapcsolat 2009 március 31 HNS SPC Statisztikai folyamatszabályozó és minőségellenőrző program Copyright 1995-2009 HNS Műszaki Fejlesztő Kft. 9027 Győr, Gesztenyefa u. 4. Tel.:

Részletesebben

KOPI. KOPI Online Plágiumkereső és Információs Portál DSD. Pataki Máté MTA SZTAKI. Elosztott Rendszerek Osztály

KOPI. KOPI Online Plágiumkereső és Információs Portál DSD. Pataki Máté MTA SZTAKI. Elosztott Rendszerek Osztály KOPI Rendszerek Osztály KOPI Online Plágiumkereső és Információs Portál Pataki Máté MA SZAKI émakörök Bemutatkozás A KOPI projekt célja A rendszer működése A KOPI portál bemutatása ovábbfejlesztési lehetőségek

Részletesebben

Boros Andrea és Ignéczi Lilla Neumann-ház, Budapest. Networkshop 2004 konferencia Győr, április 4 7.

Boros Andrea és Ignéczi Lilla Neumann-ház, Budapest. Networkshop 2004 konferencia Győr, április 4 7. Boros Andrea és Ignéczi Lilla Neumann-ház, Budapest Networkshop 2004 konferencia Győr, április 4 7. www.webkat.hu A WebKat.hu 2004 februárjában: 213 459 rekord 44 087 saját anyag Cél: a magyar kulturális

Részletesebben

Felhasználói dokumentáció a teljesítményadó állományok letöltéséhez v1.0

Felhasználói dokumentáció a teljesítményadó állományok letöltéséhez v1.0 Felhasználói dokumentáció a teljesítményadó állományok letöltéséhez v1.0 www.kekkh.gov.hu Státusz: Verzió Cím Dátum SzerzőFolyamatban Változások Verzió Dátum Vállalat Verzió: 1.0 Szerző: Lénárd Norbert

Részletesebben

PIACKUTATÁS (MARKETINGKUTATÁS)

PIACKUTATÁS (MARKETINGKUTATÁS) PIACKUTATÁS (MARKETINGKUTATÁS). FŐBB PONTOK A kutatási terv fogalmának meghatározása, a különböző kutatási módszerek osztályozása, a feltáró és a következtető kutatási módszerek közötti különbségtétel

Részletesebben

Internetes Statisztikai Felmérés ISF 2007

Internetes Statisztikai Felmérés ISF 2007 Internetes Statisztikai Felmérés ISF 2007 1/28/2008 AZ INTERNETES ALKALMAZÁSOKNÁL, FEJLESZTÉSEKNÉL, JOGGAL MERÜLNEK FEL A KÉRDÉSEK A KÜLÖNBÖZŐ INTERNETES SZOKÁSOK, FELHASZNÁLÓI SZOFTVEREK (BÖNGÉSZŐK),

Részletesebben

Internet alkamazások Készítette: Methos L. Müller Készült: 2010

Internet alkamazások Készítette: Methos L. Müller Készült: 2010 Internet alkamazások Készítette: Methos L. Müller Készült: 2010 Tartalomjegyzék - Tartalomkezelő rendszerek Miért jó a CMS alapú website? CMS rendszerek - Mi szükséges ezen CMS-ekhez? - Információ építészet

Részletesebben

Hogyan használják ki az ügyvédek az internet nyújtotta lehetőségeket?

Hogyan használják ki az ügyvédek az internet nyújtotta lehetőségeket? Hogyan használják ki az ügyvédek az internet nyújtotta lehetőségeket? KÉSZÍTETTE: ÜGYVÉDBRÓKER KFT. INFO@UGYVEDBROKER.HU WWW.UGYVEDBROKER.HU Tartalom Az eredmények rövid összefoglalása... 3 A felmérés

Részletesebben

AuditPrime Audit intelligence

AuditPrime Audit intelligence AuditPrime Audit intelligence Szakértői szoftver a könyvelés ellenőrzéséhez www.justisec.hu Minden rendben. Tartalom Előzmények... 3 A szoftver bemutatása... 3 A könyvelési adatok átvétele... 3 A technológia...

Részletesebben

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék Adatelemzés intelligens módszerekkel Hullám Gábor Adatelemzés hagyományos megközelítésben I. Megválaszolandó

Részletesebben

INTERNETES KERESÉS. Szórád László Óbudai Egyetem TMPK

INTERNETES KERESÉS. Szórád László Óbudai Egyetem TMPK INTERNETES KERESÉS Szórád László Óbudai Egyetem TMPK AZ INTERNET INTERNET = WEB? - NEM! A web csak egy (bár az egyik legismertebb) részhalmazát jelenti az interneten használt alkalmazásoknak és protokolloknak.

Részletesebben

Innovatív trendek a BI területén

Innovatív trendek a BI területén Innovatív trendek a BI területén 1 Technológiai trendek 3 BI-TREK kutatás Felmérés az üzleti intelligencia hazai alkalmazási trendjeiről Milyen BI szoftvereket használnak a hazai vállalatok? Milyen üzleti

Részletesebben

ITIL alapú IT környezet kialakítás és IT szolgáltatás menedzsment megvalósítás az FHB-ban

ITIL alapú IT környezet kialakítás és IT szolgáltatás menedzsment megvalósítás az FHB-ban IBM Global Technology Services ITIL alapú IT környezet kialakítás és IT szolgáltatás menedzsment megvalósítás az FHB-ban ITSMF Magyarország 3. szemináriuma Tild Attila, ISM IBM Magyarországi Kft. 2006

Részletesebben

1. gyakorlat. Mesterséges Intelligencia 2.

1. gyakorlat. Mesterséges Intelligencia 2. 1. gyakorlat Mesterséges Intelligencia. Elérhetőségek web: www.inf.u-szeged.hu/~gulyasg mail: gulyasg@inf.u-szeged.hu Követelmények (nem teljes) gyakorlat látogatása kötelező ZH írása a gyakorlaton elhangzott

Részletesebben

Google App Engine az Oktatásban 1.0. ügyvezető MattaKis Consulting http://www.mattakis.com

Google App Engine az Oktatásban 1.0. ügyvezető MattaKis Consulting http://www.mattakis.com Google App Engine az Oktatásban Kis 1.0 Gergely ügyvezető MattaKis Consulting http://www.mattakis.com Bemutatkozás 1998-2002 között LME aktivista 2004-2007 Siemens PSE mobiltelefon szoftverfejlesztés,

Részletesebben

Önálló labor feladatkiírásaim tavasz

Önálló labor feladatkiírásaim tavasz Önálló labor feladatkiírásaim 2016. tavasz (ezekhez kapcsolódó saját témával is megkereshetnek) Mészáros Tamás http://www.mit.bme.hu/~meszaros/ Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika

Részletesebben

Tudásalapú információ integráció

Tudásalapú információ integráció Tudásalapú információ integráció (A Szemantikus Web megközelítés és a másik irány) Tanszéki értekezlet, 2008. május 14. 1 Miért van szükségünk ilyesmire? WWW: (Alkalmazások) Keresés a weben (pl. összehasonlítás

Részletesebben

Infobionika ROBOTIKA. X. Előadás. Robot manipulátorok II. Direkt és inverz kinematika. Készült a HEFOP P /1.0 projekt keretében

Infobionika ROBOTIKA. X. Előadás. Robot manipulátorok II. Direkt és inverz kinematika. Készült a HEFOP P /1.0 projekt keretében Infobionika ROBOTIKA X. Előadás Robot manipulátorok II. Direkt és inverz kinematika Készült a HEFOP-3.3.1-P.-2004-06-0018/1.0 projekt keretében Tartalom Direkt kinematikai probléma Denavit-Hartenberg konvenció

Részletesebben

S atisztika 2. előadás

S atisztika 2. előadás Statisztika 2. előadás 4. lépés Terepmunka vagy adatgyűjtés Kutatási módszerek osztályozása Kutatási módszer Feltáró kutatás Következtető kutatás Leíró kutatás Ok-okozati kutatás Keresztmetszeti kutatás

Részletesebben

Webes keres rendszerek. Webtechnológiák. Webes keres rendszerek. Webes keres rendszerek. Répási Tibor egyetemi tanársegéd

Webes keres rendszerek. Webtechnológiák. Webes keres rendszerek. Webes keres rendszerek. Répási Tibor egyetemi tanársegéd Webtechnológiák Webes keresrendszerek Répási Tibor egyetemi tanársegéd Miskolc Egyetem,Gépészmérnöki kar, Infomatikai és Villamosmérnöki Tanszékcsoport (IVM) Általános Informatikai Tanszék Iroda: Inf.Int.

Részletesebben

Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17

Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17 Doménspecifikus korpusz építése és validálása Dodé Réka ELTE BTK Nyelvtudomány Doktori Iskola Alkalmazott nyelvészet program 2017. február 3. Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott

Részletesebben

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31. Regresszió Csorba János Nagyméretű adathalmazok kezelése 2010. március 31. A feladat X magyarázó attribútumok halmaza Y magyarázandó attribútumok) Kérdés: f : X -> Y a kapcsolat pár tanítópontban ismert

Részletesebben

15. LINEÁRIS EGYENLETRENDSZEREK

15. LINEÁRIS EGYENLETRENDSZEREK 15 LINEÁRIS EGYENLETRENDSZEREK 151 Lineáris egyenletrendszer, Gauss elimináció 1 Definíció Lineáris egyenletrendszernek nevezzük az (1) a 11 x 1 + a 12 x 2 + + a 1n x n = b 1 a 21 x 1 + a 22 x 2 + + a

Részletesebben

ECDL Információ és kommunikáció

ECDL Információ és kommunikáció 1. rész: Információ 7.1 Az internet 7.1.1 Fogalmak és szakkifejezések 7.1.2 Biztonsági megfontolások 7.1.3 Első lépések a webböngésző használatában 7.1.4 A beállítások elévégzése 7.1.1.1 Az internet és

Részletesebben

Bemutató anyag. Flash dinamikus weboldal adminisztrációs felület. Flash-Com Számítástechnikai Kft. 2012. Minden jog fenntartva!

Bemutató anyag. Flash dinamikus weboldal adminisztrációs felület. Flash-Com Számítástechnikai Kft. 2012. Minden jog fenntartva! Bemutató anyag Flash dinamikus weboldal adminisztrációs felület Flash-Com Számítástechnikai Kft. 2012. Minden jog fenntartva! Testreszabott weboldalhoz egyéni adminisztrációs felület Mivel minden igény

Részletesebben

Intelligens adatelemzés

Intelligens adatelemzés Antal Péter, Antos András, Horváth Gábor, Hullám Gábor, Kocsis Imre, Marx Péter, Millinghoffer András, Pataricza András, Salánki Ágnes Intelligens adatelemzés Szerkesztette: Antal Péter A jegyzetben az

Részletesebben

1. előadás. Lineáris algebra numerikus módszerei. Hibaszámítás Számábrázolás Kerekítés, levágás Klasszikus hibaanalízis Abszolút hiba Relatív hiba

1. előadás. Lineáris algebra numerikus módszerei. Hibaszámítás Számábrázolás Kerekítés, levágás Klasszikus hibaanalízis Abszolút hiba Relatív hiba Hibaforrások Hiba A feladatok megoldása során különféle hibaforrásokkal találkozunk: Modellhiba, amikor a valóságnak egy közelítését használjuk a feladat matematikai alakjának felírásához. (Pl. egy fizikai

Részletesebben

Az információs műveltség fejlesztése A könyvtárak szemléletváltása és feladatai a 21. században

Az információs műveltség fejlesztése A könyvtárak szemléletváltása és feladatai a 21. században Az információs műveltség fejlesztése A könyvtárak szemléletváltása és feladatai a 21. században Dr. Varga Katalin Miért fontos ez a téma? Az interneten nem azt találjuk meg, amire kíváncsiak vagyunk, hanem

Részletesebben

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Keresés képi jellemzők alapján Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Lusta gépi tanulási algoritmusok Osztályozás: k=1: piros k=5: kék k-legközelebbi szomszéd (k=1,3,5,7)

Részletesebben

Országos Rendezési Tervkataszter

Országos Rendezési Tervkataszter TeIR Országos Rendezési Tervkataszter Felhasználói útmutató Budapest, 2015. április Tartalomjegyzék 1. BEVEZETŐ... 3 2. LEKÉRDEZÉSEK... 3 2.1 TERV ELLÁTOTTSÁG LEKÉRDEZÉS... 4 2.1.1. Kördiagram... 5 2.1.2.

Részletesebben

4. Javítás és jegyzetek

4. Javítás és jegyzetek és jegyzetek Schulcz Róbert schulcz@hit.bme.hu A tananyagot kizárólag a BME hallgatói használhatják fel tanulási céllal. Minden egyéb felhasználáshoz a szerző engedélye szükséges! 1 Automatikus javítás

Részletesebben

Tipikus időbeli internetezői profilok nagyméretű webes naplóállományok alapján

Tipikus időbeli internetezői profilok nagyméretű webes naplóállományok alapján Tipikus időbeli internetezői profilok nagyméretű webes naplóállományok alapján Schrádi Tamás schraditamas@aut.bme.hu Automatizálási és Alkalmazott Informatikai Tanszék BME A feladat A webszerverek naplóállományainak

Részletesebben

Stratégiai és üzleti döntéstámogatás közösségi médiaelemzéssel

Stratégiai és üzleti döntéstámogatás közösségi médiaelemzéssel Stratégiai és üzleti döntéstámogatás közösségi médiaelemzéssel @MIBE konferencia, 2017.10.03. Szekeres Péter CEO peter.szekeres@neticle.com +36 70 701 6488 2 2013. óta vagyunk a magyar piacon. 2015. május

Részletesebben

Algoritmusok Tervezése. 6. Előadás Algoritmusok 101 Dr. Bécsi Tamás

Algoritmusok Tervezése. 6. Előadás Algoritmusok 101 Dr. Bécsi Tamás Algoritmusok Tervezése 6. Előadás Algoritmusok 101 Dr. Bécsi Tamás Mi az algoritmus? Lépések sorozata egy feladat elvégzéséhez (legáltalánosabban) Informálisan algoritmusnak nevezünk bármilyen jól definiált

Részletesebben

Informatika tanterv nyelvi előkészítő osztály heti 2 óra

Informatika tanterv nyelvi előkészítő osztály heti 2 óra Informatika tanterv nyelvi előkészítő osztály heti Számítógép feladata és felépítése Az informatikai eszközök használata Operációs rendszer Bemeneti egységek Kijelző egységek Háttértárak Feldolgozás végző

Részletesebben

1. JELENTKEZŐ ADATBÁZIS MODUL

1. JELENTKEZŐ ADATBÁZIS MODUL A toborzást-kiválasztást támogató humáninformatikai megoldásunk, a nexonjob, rugalmasan a vállalati egyedi igények alapján testre szabható. A rendszer webes felületén keresztül jelentkezhetnek a pályázók

Részletesebben

Az alábbiakban a portál felépítéséről, illetve az egyes lekérdező funkciókról kaphat részletes információkat.

Az alábbiakban a portál felépítéséről, illetve az egyes lekérdező funkciókról kaphat részletes információkat. Súgó Az alábbiakban a portál felépítéséről, illetve az egyes lekérdező funkciókról kaphat részletes információkat. A lekérdező rendszer a Hírközlési Szolgáltatások és Interfész bejelentések, valamint az

Részletesebben

OSINT. Avagy az internet egy hacker szemszögéből

OSINT. Avagy az internet egy hacker szemszögéből OSINT Avagy az internet egy hacker szemszögéből Nyílt Forrású Információszerzés OSINT - Open Source Intelligence Definíció: minden egyén számára nyilvánosan, legális eszközökkel megszerezhető, vagy korlátozott

Részletesebben

Ismeretlen kifejezések és a szófaji egyértelm sítés

Ismeretlen kifejezések és a szófaji egyértelm sítés Szeged, 2010. december 2 3. 275 Ismeretlen kifejezések és a szófaji egyértelm sítés Zsibrita János 1, Vincze Veronika 1, Farkas Richárd 2 1 Szegedi Tudományegyetem, Informatikai Tanszékcsoport Szeged,

Részletesebben

KERESÉS A NETEN DR. KÓNYA LÁSZLÓ: KERESÉS A NETEN KERESÉS MÓDSZERE, KERESŐPROGRAMOK 2004.04.20

KERESÉS A NETEN DR. KÓNYA LÁSZLÓ: KERESÉS A NETEN KERESÉS MÓDSZERE, KERESŐPROGRAMOK 2004.04.20 INTERNET 1/42 KERESÉS A NETEN DR. KÓNYA LÁSZLÓ: KERESÉS A NETEN KERESÉS MÓDSZERE, KERESŐPROGRAMOK 2004.04.20 FORRÁS: TARR BENCE : KERESÉS AZ INTERNETEN PANEM KIADÓ, 2001 ISBN 963 545 326 4 INTERNET 2/42

Részletesebben

Információ és kommunikáció

Információ és kommunikáció Információ és kommunikáció Tanmenet Információ és kommunikáció TANMENET- Információ és kommunikáció Témakörök Javasolt óraszám 1. Az internet jellemzői 25 perc 2. Szolgáltatások az interneten 20 perc

Részletesebben

Adatszerkezetek Tömb, sor, verem. Dr. Iványi Péter

Adatszerkezetek Tömb, sor, verem. Dr. Iványi Péter Adatszerkezetek Tömb, sor, verem Dr. Iványi Péter 1 Adat Adat minden, amit a számítógépünkben tárolunk és a külvilágból jön Az adatnak két fontos tulajdonsága van: Értéke Típusa 2 Adat típusa Az adatot

Részletesebben

E-Kataszteri rendszer ismertető

E-Kataszteri rendszer ismertető E-Kataszteri rendszer ismertető Az E-Szoftverfejlesztő Kft. által fejlesztett KATAwin kataszteri és eszköznyilvántartó rendszert 2,600 db önkormányzat alkalmazza évek óta. Teljeskörű Certop minősítéssel

Részletesebben

Kvalitatív elemzésen alapuló reakciómechanizmus meghatározás

Kvalitatív elemzésen alapuló reakciómechanizmus meghatározás Kvalitatív elemzésen alapuló reakciómechanizmus meghatározás Varga Tamás Pannon Egyetem, Folyamatmérnöki Intézeti Tanszék IX. Alkalmazott Informatika Konferencia ~ AIK 2011 ~ Kaposvár, Február 25. Tartalom

Részletesebben

A szegénység fogalmának megjelenése a magyar online médiában

A szegénység fogalmának megjelenése a magyar online médiában A szegénység fogalmának megjelenése a magyar online médiában Tartalomelemzés 2000 január és 2015 március között megjelent cikkek alapján Bevezetés Elemzésünk célja, hogy áttekintő képet adjunk a szegénység

Részletesebben

Szövegbányászat Információ Visszakeresés és egyéb alkalmazások

Szövegbányászat Információ Visszakeresés és egyéb alkalmazások Szövegbányászat Információ Visszakeresés és egyéb alkalmazások A diák nagyban támaszkodnak a Stanford Egyetem Information Retrieval and Web-mining kurzusának anyagára: http://www-csli.stanford.edu/~schuetze/information-retrieval-book.html

Részletesebben

Ügyfél- és címadatok feldolgozása Talenddel

Ügyfél- és címadatok feldolgozása Talenddel Ügyfél- és címadatok feldolgozása Talenddel 2012.október 4. Dr. Miskolczi Mátyás, Kiss György A Stratisról röviden Jellemzők - Alapítva: 1998 - Tisztán magyar tulajdon - 50 tanácsadó - 140 ügyfél - 500+

Részletesebben

HASZNÁLATI ÚTMUTATÓ DOLGOZÓK IMPORTÁLÁSA KULCS BÉR PROGRAMBA AZ ONLINE MUNKAIDŐ NYILVÁNTARTÓ RENDSZERBŐL. Budapest, 2013. november 08.

HASZNÁLATI ÚTMUTATÓ DOLGOZÓK IMPORTÁLÁSA KULCS BÉR PROGRAMBA AZ ONLINE MUNKAIDŐ NYILVÁNTARTÓ RENDSZERBŐL. Budapest, 2013. november 08. HASZNÁLATI ÚTMUTATÓ DOLGOZÓK IMPORTÁLÁSA KULCS BÉR PROGRAMBA AZ ONLINE MUNKAIDŐ NYILVÁNTARTÓ RENDSZERBŐL Budapest, 2013. november 08. 1. CÉLKITŰZÉS A fő cél, hogy az OL Munkaidő Rendszerből kinyert jelenlét

Részletesebben

Ionogram releváns területeinek meghatározása és elemzésének automatikus megvalósítása

Ionogram releváns területeinek meghatározása és elemzésének automatikus megvalósítása Ionogram releváns területeinek meghatározása és elemzésének automatikus megvalósítása Előadó: Pieler Gergely, MSc hallgató, Nyugat-magyarországi Egyetem Konzulens: Bencsik Gergely, PhD hallgató, Nyugat-magyarországi

Részletesebben

A Debreceni Egyetem unideb.hu TELEFONKÖNYV. alkalmazásának felhasználói kézikönyve. Összeállította: DE VIR Központ, Sightspot Network Kft.

A Debreceni Egyetem unideb.hu TELEFONKÖNYV. alkalmazásának felhasználói kézikönyve. Összeállította: DE VIR Központ, Sightspot Network Kft. A Debreceni Egyetem unideb.hu TELEFONKÖNYV alkalmazásának felhasználói kézikönyve Összeállította: DE VIR Központ, Sightspot Network Kft. Debrecen, 2016. szeptember 1 TARTALOMJEGYZÉK 1. A telefonkönyv alkalmazás

Részletesebben

Számítógépes vírusok. Barta Bettina 12. B

Számítógépes vírusok. Barta Bettina 12. B Számítógépes vírusok Barta Bettina 12. B Vírusok és jellemzőik Fogalma: A számítógépes vírus olyan önmagát sokszorosító program,mely képes saját magát más végrehajtható alkalmazásokban, vagy dokumentumokban

Részletesebben

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola IGEI VONZATKERETEK AZ MNSZ TAGMONDATAIBAN Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola MSZNY2006 Szeged, 2006.

Részletesebben

Területi elemzések. Budapest, 2015. április

Területi elemzések. Budapest, 2015. április TeIR Területi elemzések Felhasználói útmutató Budapest, 2015. április Tartalomjegyzék 1. BEVEZETŐ... 3 2. AZ ELEMZÉSBEN SZEREPLŐ MUTATÓ KIVÁLASZTÁSA... 4 3. AZ ELEMZÉSI FELTÉTELEK DEFINIÁLÁSA... 5 3.1.

Részletesebben

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA BESZÉDTUDOMÁNY Az emberi kommunikáció egyik leggyakrabban használt eszköze a nyelv. A nyelv hangzó változta, a beszéd a nyelvi kommunikáció

Részletesebben

IV/4. sz. melléklet: Kontrolling és döntéstámogatás funkcionális specifikáció

IV/4. sz. melléklet: Kontrolling és döntéstámogatás funkcionális specifikáció IV/4. sz. melléklet: Kontrolling és döntéstámogatás funkcionális specifikáció 1. A követelménylista céljáról Jelen követelménylista (mint a GOP 2.2.1 / KMOP 1.2.5 pályázati útmutató melléklete) meghatározza

Részletesebben

IV/8. sz. melléklet: Internetes megjelenés (vállalati portál) funkcionális specifikáció

IV/8. sz. melléklet: Internetes megjelenés (vállalati portál) funkcionális specifikáció IV/8. sz. melléklet: Internetes megjelenés (vállalati portál) funkcionális specifikáció 1. A követelménylista céljáról Jelen követelménylista (mint a GOP 2.2.1 / KMOP 1.2.5 pályázati útmutató melléklete)

Részletesebben

Big Data az adattárházban

Big Data az adattárházban Big Data az adattárházban A párbaj folytatódik? Néhány fontos Big Data projekt Cég Téma Adat Újfajta Mennyiség Saját adat? Típus Google Influenza Google I big I Előjelzés előjelzés Farecast Xoom Chicagoi

Részletesebben

SZAKDOLGOZAT ÓBUDAI EGYETEM. Neumann János Informatikai kar Alba Regia Egyetemi Központ

SZAKDOLGOZAT ÓBUDAI EGYETEM. Neumann János Informatikai kar Alba Regia Egyetemi Központ ÓBUDAI EGYETEM Neumann János Informatikai kar Alba Regia Egyetemi Központ SZAKDOLGOZAT OE-NIK Hallgató neve: Berencsi Gergő Zsolt 2010. Törzskönyvi száma: T 000123/FI38878/S-N Tartalomjegyzék Tartalmi

Részletesebben

A 2011 2013. évi integritásfelmérések céljai, módszertana és eredményei

A 2011 2013. évi integritásfelmérések céljai, módszertana és eredményei Szatmári János Kakatics Lili Szabó Zoltán Gyula A 2011 2013. évi integritásfelmérések céljai, módszertana és eredményei Összefoglaló: Az Állami Számvevőszék 2013-ban már harmadik alkalommal mérte fel a

Részletesebben

8. Előadás. Megyesi László: Lineáris algebra, , oldal. 8. előadás Mátrix rangja, Homogén lineáris egyenletrendszer

8. Előadás. Megyesi László: Lineáris algebra, , oldal. 8. előadás Mátrix rangja, Homogén lineáris egyenletrendszer 8. Előadás Megyesi László: Lineáris algebra, 51. 56., 70. 74. oldal. Gondolkodnivalók Elemi bázistranszformáció 1. Gondolkodnivaló Most ne vegyük figyelembe, hogy az elemi bázistranszformáció során ez

Részletesebben

SZOFTVERES SZEMLÉLTETÉS A MESTERSÉGES INTELLIGENCIA OKTATÁSÁBAN _ Jeszenszky Péter Debreceni Egyetem, Informatikai Kar jeszenszky.peter@inf.unideb.

SZOFTVERES SZEMLÉLTETÉS A MESTERSÉGES INTELLIGENCIA OKTATÁSÁBAN _ Jeszenszky Péter Debreceni Egyetem, Informatikai Kar jeszenszky.peter@inf.unideb. SZOFTVERES SZEMLÉLTETÉS A MESTERSÉGES INTELLIGENCIA OKTATÁSÁBAN _ Jeszenszky Péter Debreceni Egyetem, Informatikai Kar jeszenszky.peter@inf.unideb.hu Mesterséges intelligencia oktatás a DE Informatikai

Részletesebben

Példa webáruház kialakítás rendszerdokumentáció

Példa webáruház kialakítás rendszerdokumentáció Példa webáruház kialakítás rendszerdokumentáció DWAM Webáruház integrációja meglévő belső ERP rendszerhez. A webáruház valamennyi termékkel és megrendeléssel összefüggő adatát a belső rendszer (..) tárolja,

Részletesebben

Honlapkoncepció. Miskolc város hivatalos honlapjához

Honlapkoncepció. Miskolc város hivatalos honlapjához Honlapkoncepció Miskolc város hivatalos honlapjához Ennek a dokumentumnak a célja, hogy rögzítse azokat az alapelveket, amelyek egyrészt irányt szabnak, másrészt kereteket adnak az új városi honlap részletes

Részletesebben

E-Kataszteri rendszer ismertető

E-Kataszteri rendszer ismertető E-Kataszteri rendszer ismertető Az E-Szoftverfejlesztő Kft. által fejlesztett KATAwin kataszteri és eszköznyilvántartó rendszert 2,700 db önkormányzat alkalmazza évek óta. Teljeskörű Certop minősítéssel

Részletesebben

Csináljunk az adatból információt! A Lone-Soft listázó keretrendszerrel

Csináljunk az adatból információt! A Lone-Soft listázó keretrendszerrel Csináljunk az adatból információt! A Lone-Soft listázó keretrendszerrel A piacon lévő ügyviteli szoftverek jó részének legnagyobb hibája, hogy a letárolt adatokat nem képesek a felhasználó által hasznosítható

Részletesebben

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Számítógépes képelemzés 7. előadás Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Momentumok Momentum-alapú jellemzők Tömegközéppont Irányultáság 1 2 tan 2 1 2,0 1,1 0, 2 Befoglaló

Részletesebben