ÖSSZETETT RENDSZER VÁLLALKOZÁSOK CÍMEINEK WEBRŐL TÖRTÉNŐ AUTOMATIKUS ÖSSZEGYŰJTÉSÉRE

Méret: px
Mutatás kezdődik a ... oldaltól:

Download "ÖSSZETETT RENDSZER VÁLLALKOZÁSOK CÍMEINEK WEBRŐL TÖRTÉNŐ AUTOMATIKUS ÖSSZEGYŰJTÉSÉRE"

Átírás

1 SZEGEDI TUDOMÁNYEGYETEM TERMÉSZETTUDOMÁNYI ÉS INFORMATIKAI KAR MTA-SZTE MESTERSÉGES INTELLIGENCIA KUTATÓCSOPORT ÖSSZETETT RENDSZER VÁLLALKOZÁSOK CÍMEINEK WEBRŐL TÖRTÉNŐ AUTOMATIKUS ÖSSZEGYŰJTÉSÉRE Készítette: Nagy István V. közgazdasági programozó matematikus Konzulensek: Farkas Richárd, tudományos segédmunkatárs Dr. Csirik János, egyetemi tanár Szeged, november

2 Tartalomjegyzék 1. Bevezetés Intelligens üzleti hírszerzés a Webről Üzleti információ Webbányászat Kapcsolódó munkák A vállalkozások címeit kinyerő rendszer Honlapok osztályozása Tanulás pozitív és jelöletlen példákból Honlap osztályozási adatbázis A honlap osztályozás jellemzőtere Döntési fa-alapú osztályozás Címek automatikus felismerése A manuálisan annotált címkorpusz Szabályalapú megközelítés címek és cégnevek jelölésére Gépi tanulási megközelítés címek és cégnevek jelölésére A cégnevek és -címek összerendelése Az összerendelés kiértékelése Cím és cégnév hozzárendelési heurisztikák Eredmények Honlapok osztályozásának eredményei Címek automatikus felismerése Cím és cégnév hozzárendelési heurisztikák eredményei A teljes rendszer eredményei Diszkusszió Összefoglalás Bibliográfia...32

3 1. Bevezetés A webbányászat [1] célja az Internethez kapcsolható dokumentumokból (honlapok, e- mailek, blogok, fórumok stb.) hasznos információ automatikus összegyűjtése. Ilyen feladat lehet például állásajánlatok automatikus összegyűjtése vállalati honlapokról, vagy újsághírekben egy vállalkozásról fellelhető információk kinyerése. Az így nyert információ strukturált szerkezetű (mezőértékekből áll), azaz például betölthető egy adatbázisba. Egy vállalkozás számára rengeteg információ található a Weben a potenciális partnerekről, esetleg versenytársakról, mint például a konkurencia árai, akciói vagy egy cég referenciái. Célom egy olyan online kereséseken alapuló rendszer megvalósítása, amely automatikusan képes cégekről, a Web publikus részén (WWW) elérhető információk összegyűjtésére. Ennek megvalósíthatóságát illusztrálandó, dolgozatomban egy olyan rendszert mutatok be, amely az egyes tevékenységi körökhöz tartozó magyarországi vállalkozások neveit és címeit automatikusan gyűjti össze. A kezdeti kísérletek után egyértelművé vált, hogy egy olyan összetett rendszer szolgáltatja a megoldást, amely számos szövegbányászati részprobléma beazonosítását és megoldását igényli (ez a dolgozat legfontosabb eredményének tekinthető). Az egyes részproblémák megoldása során egyaránt alkalmaztam gépi tanuló algoritmusokat, szabályalapú módszereket és egyéb heurisztikákat. A két legfontosabb részfeladat a következő: Weblapok osztályozása: Az egyes vállalatok honlapjainak azonosítása érdekében az alkalmazott on-line keresők eredményeit automatikusan céges és nem céges csoportokba kell sorolni. Ezt a dokumentum klasszifikációs feladatot tanító adatbázis manuális létrehozása nélkül oldom meg úgy, hogy a pozitív és jelöletlen példákból való tanulás megközelítését alkalmazom. Itt a standard módszer egy módosított változatát is ismertetni fogom. Címek és cégnevek azonosítása: A letöltött weboldalakon az egyes cégek neveinek és címeinek automatikus jelölésére van szükség (tulajdonnév felismerési feladat). Erre a részproblémára mind szabályalapú, mind gépi tanulási megoldást is adok, és a két módszer a dolgozatban összehasonlításra kerül. Az egész rendszer és a főbb komponensek egyéni empirikus kiértékelésére egy keretrendszert implementáltam, amelynek felhasználásával a dolgozatban számszerű eredményeket közlök

4 2. Intelligens üzleti hírszerzés a Webről 2.1. Üzleti információ A XXI. század vállalatainak elengedhetetlenül szükségük van a folyamatos és naprakész információkra mind a versenytársaikról, partnereikről, mind potenciális ügyfeleikről. Ezen információk egy részhalmaza elérhető valamilyen strukturált adatbázisban vagy archívumban, másik része azonban nyers, szöveges, azaz strukturálatlan adatokban rejtőzik. Ezen adatok révén a döntéshozók olyan értékes információra tehetnek szert, amely segíti potenciális üzleti kapcsolataiknak értékelését és kereskedelmi partnereik kategorizálását, valamint új üzletfeleik feltérképezését, vagy egyszerűen könnyebben hozhatnak a vállalat szempontjából megfelelő döntéseket [1]. Így például, amikor egy menedzser egy lehetséges partner megbízhatóságáról, fizetőképességéről kíván meggyőződni, egy cég-referencia vagy kapcsolatháló segítségével felderítheti, milyen más cégekkel van kapcsolatban az adott vállalkozás, esetleg milyen érdekeltségi körbe tartozik, és ezek helyzete mennyire stabil. Továbbá a megfelelő kapacitásokkal rendelkező üzletfél kiválasztását is megkönnyítheti. Távlati célom egy olyan automatikus, hatékony döntést támogató rendszer építése, amely minél több hasznosnak vélt információt képes összegyűjteni egy adott vállalkozásról vagy vállalkozásokról (például kapcsolathálót) a WWW publikusan elérhető részeiről. Így lényegesen kevesebb szakértői humán munkaerő (piaci elemző, marketinges, sales-es) alkalmazására lenne szükség, amely egyben jóval kevesebb költségráfordítást is jelent. Ráadásul részben kizárható a legfőbb hibaforrás, az ember, aki sokszor nem is képes a nagy mennyiségű adat között rejtőző fontos információk kinyerésére. A célrendszer egy fuvarozási use case-ében, például a felhasználó Szeged inputjára outputként megjelenik a Weben elérhető fuvarozó társaságok adatainak listája (esetenként egy Excel táblázat), ahol az adatok közt szerepel például a társaság járműállományának mérete (természetesen csak akkor, ha ez az adat a weben elérhető), így a döntéshozó, amennyiben szüksége van rá, megszűrheti a fuvarozókat a legalább 100 kamionnal rendelkezők -re Webbányászat Az utóbbi évtizedekben az adatok tárolása egyre olcsóbbá vált, (a tárolókapacitások rohamosan fejlődtek, míg az árak csökkentek) ezáltal az elektronikus eszközök és adatbázisok a mindennapi életünkben elérhetővé váltak. Az egyre olcsóbb adattárolási lehetőségek az adatok tömeges felhalmozását eredményezte, ám a ritkán látogatott adatokból úgynevezett - 2 -

5 adat temetők alakultak ki, ezáltal a döntéshozók a döntéseiket nem hozhatták meg információ-gazdag adatok alapján. John Naisbitt híressé vált mondása szerint: We are drowning in information, but starving for knowledge (Megfulladunk az információtól, miközben tudásra éhezünk) [2]. Az utóbbi években az informatika egyik leggyorsabban fejlődő részterülete az adatbányászat [2] lett. Ez az új tudományág szolgál a nagy mennyiségű adatokban rejlő információk automatikus feltárására mesterséges intelligencia algoritmusok alkalmazásával (pl. neurális hálók, szabálygenerálók, asszociációs modellek). A fejlődés motorja a pénzügyi haszon, hiszen a kibányászhatatlannak vélt, vagy csak nagyon erőforrás-igényesen elérhető információk, összefüggések nagyon sokat érhetnek. A köznyelv és a különböző informatikai cégek sok mindent neveznek adatbányászásnak, de a szigorúbb szakmai terminológia szerint nem tekinthető adatbányászatnak az adatokból lekérdezésekkel, aggregálásokkal, illetve alapstatisztikai vizsgálatokkal történő információ kinyerése. Az adatbányászat egy már meglévő, valamilyen egyéb célból összegyűlt adathalmazban keres megbúvó, rejtett és számunkra hasznos, releváns összefüggéseket, ismereteket, információkat. Az adatbányászat egyik igen fontos részterülete a szövegbányászat [3], amely a strukturálatlan, (vagy részben strukturált) elektronikus szöveges állományokban megbúvó, nem triviális információk kinyerését jelenti. Jól mutatja a probléma létjogosultságát Merill Lynch elemzése 1, mely szerint az üzleti információk 85%-a strukturálatlan, illetve részben strukturált adat formájában áll rendelkezésre, mint pl. ek, emlékeztetők, üzleti és kutatási beszámolók, prezentációk, hírek, reklámanyagok, weboldalak, ügyfélszolgálati tevékenység jegyzetei, stb. Az adatbányászathoz hasonlóan a szövegbányászat is a látens összefüggések és rejtett ismeretanyagok automatikus kinyerésére hivatott, de inputja folyó szövegek, azaz strukturálatlan, vagy részben strukturált dokumentumok. A szövegbányászati problémák megoldásai eltérő eszközöket igényelnek, itt modellezni kell az emberek által írt szövegek szintaktikai, szemantikai szerkezetét, sőt a pontos megértéshez azok stílusát is. Napjainkra a tudásmenedzsment egyik legfontosabb információtechnológiai eszközévé vált a szövegbányászat, melynek segítségével üzleti versenyelőny szerezhető. Az új alkalmazási lehetőségek közül a webbányászat az egyik legígéretesebb, mivel a világ legnagyobb és leggyorsabban bővülő adattárát, az Internetet használja. A szöveg- vagy web-bányászati rendszereknek számos alkalmazása képzelhető el, úgymint a 2008 őszén zajló amerikai elnökválasztás finiséhez érkező kampány 2, ahol a jelölteknek égető szükségük volt a bizonytalan szavazókra, ezért összetett automatikus webbányászati módszerek segítségével 1 Adatbányászok: (2008) 2 Adatbányászat az elnökválasztási kampányban: (2008) - 3 -

6 próbálták megtudni a fórumokon vagy blogokon fellelhető vélemények alapján a potenciális szavazók preferenciáit, álláspontjait. A WWW a jellegéből, struktúrájából fakadóan kihívásokkal teli platformot jelent az online szövegbányászati rendszerek számára 3. Ezen kihívások a következők: Elosztott adatstruktúra: Az Interneten jelen lévő információtároló szerverek egy előre meg nem határozott, önszerveződő struktúrájú kapcsolatban állnak egymással, vagyis az adatok fizikailag más-más helyen lelhetőek fel, amelyeket egységesen kell kezelni függetlenül forrásuktól, formázásuktól, a nyelvektől, nyelvezetüktől, valamint stílusuktól. Változó tartalmak: Az Internethez kapcsolódó dokumentumok bármikor eltűnhetnek vagy változhatnak. Becslések szerint az Interneten elérhető tartalom 40%-a legalább havi rendszerességgel módosul. Óriási méretek: Az Internet struktúrájából fakadóan lehetőséget biztosít minden fizikailag egy helyen tárolt adatbázisnál nagyobb adattömeg elérésére. Ekkora méretnél már komoly kérdéseket vet fel a szövegek feldolgozásának sebessége. Ráadásul a jelenlegi méret továbbra is exponenciális ütemben bővül. Redundáns és strukturálatlan szövegek: Az elérhető szövegek jelentős része többször is jelen van a hálózaton. Ezen redundáns dokumentumok aránya meghaladhatja akár a teljes adatmennyiség 30%-át, ezért figyelni kell, hogy az ugyanolyan tartalmú dokumentumok csak egyszer szerepeljenek az adott korpuszban. Ugyanakkor a szövegbányászat számára a redundancia lehetőségeket is hordozhat, ugyanis ha ugyanazon információ több helyen jelenik meg, az annál megbízhatóbbnak tekinthető. Ellenőrizhetetlen adatminőség: Az újonnan megjelenő szövegek cenzúrázatlanul kerülnek ki a Webre, a szerkesztői feladatokat pedig senki sem látja el. Ezért előfordulhat, hogy elavult, vagy valótlan tartalmak válnak elérhetővé, ezáltal téves információk kerülhetnek előtérbe. Ebből kifolyólag fokozottan figyelni kell a kinyert adat megbízhatóságára, minőségére. A probléma jelentőségét jól mutatja az a közelmúltban történt eset, amikor egy nagy amerikai hírportálon egy amerikai légitársaság rossz pénzügyi helyzetéről szóló, 7 évvel ezelőtti hír csak később módosult. Miután a Google változáskövető rendszerébe belekerült a hír, és végigfutott a világon, a társaság részvényeinek árfolyama meredek esésbe kezdett. 3 Szövegbányászat Nyelvtechnológia a PC világában: (2007) - 4 -

7 2.3. Kapcsolódó munkák A webtartalom-bányászat célja az Interneten elérhető szöveges dokumentumokból valamilyen szempont szerint hasznosnak vélt információk kinyerése. A kezdeti klasszikus webtartalom-bányászati próbálkozások után [4][5] a kutatók figyelme a webbányászat két másik részterületére a Web Usage Mining (webhasználat elemzés) [6][7] és a Wrapper Induction (struktúra felderítés) [8] felé fordult. A Wrapper Induction célja (HTML DOM) strukturált adatok automatikus módon történő kinyerése (cél a struktúra automatikus felismerése), többek között webshopok termékinformációs oldalaihoz hasonló dokumentumokból. Ugyanakkor a Web Usage Mining feladata a felhasználók böngészési szokásairól összegyűjtött, vagy generált adatok alapján automatikusan felkutatni és elemezni a viselkedési mintákat. Az utóbbi esztendők szövegbányászati eredményeinek köszönhetően a közeljövőben úgy vélem a webtartalom-bányászat ismét a figyelem középpontjába kerülhet. A webtartalom-bányaszati alkalmazásokra példa a FlipDog.com által kifejlesztett, egészen új elven működő álláskereső portál, amely automatikusan gyűjtötte össze a munkalehetőségeket több mint vállalat weboldaláról. Mindemellett havonta kiadtak egy elemzést az adatbázisukban megtalálható minták és trendek változásairól, amelyet sok szervezet használ, hiszen ehhez hasonló átfogó és naprakész értékelés máshol nem elérhető. Az információk automatikus kinyerése elég hitelesnek bizonyult, ám adott esetben a minél nagyobb pontosság elérése érdekében az alacsony megbízhatóságú weboldalakról kinyert információkat manuálisan is ellenőrizték [9]. Ismereteim szerint ez a dolgozat az első publikált munka, amely magyar nyelvű honlapokra irányuló webbányászati megoldást mutat be. A dokumentumosztályozási probléma [10] megoldása során (egyes cégekhez köthető weboldalak azonosítása) a pozitív és jelöletlen példákból való tanulás módszerét alkalmaztam. Ezen probléma megoldására publikált rendszerek [11][12] a kétlépéses megközelítést alkalmazzák, amelynek részletes bemutatása a fejezetben történik. A publikált rendszerek elsősorban a negatív példák kiválasztásában különböznek, egészen az egyszerű többségi szavazástól a kernel módszerekig [13] több lehetőség is megtalálható. A szövegbányászati rendszerek számára elengedhetetlenül fontos az egyes tulajdonnevek azonosítása, hiszen ezek általában jelentős információhordozó szerepet tölthetnek be a szövegekben. Az 1990-es évek közepe óta kutatott terület egy kétszintű problémának bizonyult: egyrészről meg kell találni és fel kell ismerni a szöveg(ek)ben az előre definiált kategóriákba tartozó tokensorozatokat, másrészről a megfelelő szemantikai osztályokba kell azokat sorolni. Az utóbbi időben egyre nagyobb figyelmet kaptak a - 5 -

8 tulajdonnév felismerő rendszerek. A Message Understanding Conference MUC-7 keretén belül a tulajdonnevek azonosítása, valamint a személynevek, földrajzi nevek, szervezetek egyéb kategóriákba sorolása, továbbá egyéb, időt, mennyiséget stb. leíró kifejezések felismerése volt a feladat [14] ban a Conferenceon Computational Natural Language Learning (CoNNL) által meghirdetett nyílt versenysorozaton angol és német nyelvű szövegekben egyazon modell építésével tulajdonnevek felismerése volt a célkitűzés [15]. Napjainkban a probléma legsikeresebbnek vélt, és egyben leggyakrabban használt megközelítésének a szekvenciatanulás bizonyult, amelynek legismertebb képviselője a Conditional Random Fields (CRF) [16]. Léteznek magyar nyelvre is alkalmazott szabályalapú [17] és gépi tanulási tulajdonnévfelismerő rendszerek [18][19]. A statisztikai rendszereket elsősorban a Szegedi Tudományegyetemen készített gazdasági tulajdonnév korpusz [20] inspirálta

9 3. A vállalkozások címeit kinyerő rendszer Dolgozatomban - a távlati célok elérése érdekében tett első lépésként magyarországi vállalkozások megnevezésének és címeinek online kereséseken alapuló automatikus kinyerésének problémájára fókuszáltam. A rendszer egy adott tevékenységi kör lekérdezésére a WWW-ben elérhető vállalkozások neveit és címeit adja eredményül. Tehát egy autókereskedés Szeged keresőkifejezésre a C-Mobil Kft Szeged, Napos út 6. rekordot adja vissza egy lehetséges találatként (a másik több tucat találat között). Azért választottam a címek azonosítását első lépésként, mert az automatikus rendszer outputja könnyedén kiértékelhető a Cylex Tehnologia Informatiei SRL 4 által rendelkezésemre bocsátott címlista alapján, és mindemellett mindennapi gyakorlati alkalmazása is komoly előnyöket biztosíthat a döntéshozók számára. A probléma megoldása során egyaránt alkalmaztam szabályalapú rendszereket, gépi tanuló algoritmusokat és egyéb heurisztikákat. A rendszer több, elkülöníthető részprobléma megoldásaként áll elő (az architektúrát az 1. ábra szemlélteti): A rendszer inputja egy keresőkifejezés, ami jellemzően egy tevékenységi kör, ami alapján on-line keresők (Google és Yahoo) segítségével letöltjük a találati oldalakat. Ezek közül a nem magyar nyelvű és kevés szót tartalmazó oldalak kiszűrésre kerülnek. A szűrésen átment dokumentumokból kiválasztásra kerülnek a céges honlapok, ugyanis az online keresőket alkalmazva nem mindig találtam releváns oldalakat, ezért szükséges volt ezek szűrése, osztályozása. Az egyes vállalatok internetes oldalainak az azonosítása érdekében a kereséshez használt online keresők eredményeit automatikusan céges és nem céges csoportokba soroltam. A probléma megoldásához a pozitív és jelöletlen példákból való tanulás megközelítését alkalmaztam, ahol a standard módszer egy módosított változatát használtam. A céges -nek ítélt weblapokon ezután az egyes cégek neveinek és címeinek automatikus jelölésére került sor (tulajdonnév felismerési feladat). Erre a részproblémára mind szabályalapú megközelítéssel, mind gépi tanulási módszerrel adtam megoldást, ezáltal lehetőség nyílt a két módszer összehasonlítására is. Az egyes honlapokon található címek és cégnevek azonosításán túl, az ellenőrizhetőség miatt szükség volt azok egységes formátumra hozására is, illetve ha egy oldalon több cím is szerepelt, egyszerű heurisztikák segítségével hozzárendeltem az adott cég nevéhez a hozzátartozó címet is, ami egy a keresett tevékenységi körhöz kapcsolódó - cégnév címlistát eredményez

10 3.1. Honlapok osztályozása 1. ábra: A rendszer felépítése Az első kísérletek kiértékelése során a hibák elemzésekor azonosítottam azt a problémát, hogy az online keresők találatai nagyon sok spam oldalt tartalmaznak. Ezek a nem releváns találatok rontják a hatékonyságot. A célom az volt, hogy a vállalatok weblapjait megkülönböztessem minden egyéb típusú weblaptól a későbbi (címfelismerésen túli) munka megkönnyítése érdekében. Ehhez a pozitív és jelöletlen példákból tanulás módszerét választottam Tanulás pozitív és jelöletlen példákból A standard szövegklasszifikációs eljárások [11][12] egy megadott tanulóhalmaz alapján megtanult modell szerint sorolják be az új, ismeretlen dokumentumokat az előre definiált osztályokba. A tanítóhalmaz általában minden osztályra tartalmaz példákat. Ezen felügyelt tanulási módszerek legnagyobb hátránya, hogy a pontos tanuláshoz szükség van egy nagy - 8 -

11 méretű, felcímkézett tanító adatbázisra. Ezt általában manuálisan jelölik, amely igen időigényes folyamat. A negatív példák keresése különösen fontos és nehéz feladat, mivel ezek egyenletesen írják le -a pozitív eseteken kívüli- univerzum halmazt. A honlap osztályozási feladatban a pozitív példák (céges oldalak) és a jelöletlenek könnyen gyűjthetőek. Az én esetemben a kézi jelölés elkerülhető. Megközelítésemben egy rendelkezésre álló pozitív tanítóhalmaz és egy jelöletlen halmaz segítségével valósítom meg a szövegklasszifikációt. A fő nehézség ebben az esetben az, hogy a jelöletlen halmaz tartalmazhat pozitív példákat is, ezért a klasszifikációt megelőzi egy előfeldolgozási szakasz, amelyben megbízható negatív példákat nyerünk ki automatikusan ebből a halmazból. A problémát éppen ezért kétlépéses stratégiával szokták megközelíteni [11]: 1. lépés: A jelöletlen halmazból azonosítani kell a legvalószínűbb negatív példákat automatikus eljárással. 2. lépés: A pozitív tanítóhalmaz és a jelöletlen halmaz negatív elemeiből összetevődő tanítóhalmaz segítségével klasszikus szövegklasszifikációs algoritmus alkalmazása. A probléma gyakorlati megvalósítása során az eddig alkalmazott eljáráson túl, annak módosított változatait is implementáltam. 1. lépés: Positive Examples Based Learning (PEBL, pozitív példákon alapuló tanulás): az eddig publikált módszerekben [10][11] egy pozitív szólista készült, amelybe minden olyan szó bekerült, amely átlagosan többször fordult elő a pozitív dokumentumokban, mint a jelöletlen korpuszban. Ennek a listának a segítségével minden olyan dokumentumot eltávolítok a jelöletlen halmazból, amelyben legalább egyszer előfordult a pozitív szólista egy eleme. Ez az új leszűkített jelöletlen halmaz jelentette a később alkalmazott klasszikus szövegklasszifikációs algoritmus negatív halmazát. Átlagos tfidf alapú megközelítés (ATFIDF): ez a saját módszer egy pozitív szólistát készít, melynek alapjául a pozitív és a jelöletlen halmaz átlagos tf-idf súlyozása szolgált (lásd fejezet). Ezután a negatív halmaz kijelölése a hagyományos módszerhez hasonlóan történt. Vegyes megközelítés: a hagyományos és a VTM alapú megközelítések szólistájának összefésülése (uniója) révén egy bővebb pozitív lista segítségével az eddigiekhez hasonló módon került kijelölésre a negatív korpusz. 2. lépés: Mindhárom esetben klasszikus szövegklasszifikáció alkalmazása, néhány új, a korábbiakban nem alkalmazott jellemzővel bővített térben

12 Honlap osztályozási adatbázis A honlap osztályozási feladat megoldásához és kiértékeléséhez szükséges adatbázisok alapjául, egy a Cylex által rendelkezésemre bocsátott lista szolgált, amely tízezer, többségében magyarországi vállalkozás legfontosabb információt tartalmazza, úgy mint a vállalkozás megnevezése, pontos címe, telefonszáma, tevékenységi köre, és amennyiben az elérhető, akkor annak címe és weboldala. A későbbi könnyebb feldolgozhatóság érdekében szükséges volt a listában szereplő vállalkozások normalizálása, egységes formára hozása. A tanító és kiértékelő adatbázisok a céglista bejegyzései alapján indított, a Google és a Yahoo API-val történő keresések találatainak letöltésével álltak elő. A nyílt forráskódú online kereső API-k előzetes regisztráció után, napi keresési limitek (a Google API esetében ez napi 1000, míg a Yahoo esetében napi 5000 lekérdezés) közt használhatóak. Mivel napjainkban alapkövetelménnyé vált, hogy betűinket és számainkat a saját nyelvünkön, ékezetekkel ellátva jelenítsék meg a weboldalak, ezért azok készítői különös figyelmet szentelnek a helyes karakterkódolásnak. Az egyes letöltött weblapok helyes karakterkódolásának megállapítása a későbbi hatékony adatfeldolgozás érdekében elengedhetetlenül fontos, ugyanakkor meglepően bonyolult feladatnak bizonyult. Megoldást végül a Mozilla Firefox nyílt forráskódú szoftverének a karakterkódolás megállapításáért felelős software könyvtára jelentette. Az online keresők API-jai jól paraméterezhetőek, ezért a keresések kizárólag magyar nyelven történtek. Sajnos ennek ellenére szükség volt a letöltött weblapok nyelvi szűrésére, ugyanis még így is jelentős mennyiségű angol nyelvű lap került az adatbázisokba. A szűrés alapja az egyes dokumentumokban szereplő angol szavak aránya volt. Amennyiben a dokumentumban szereplő szavak több mint 40%-a szerepelt egy angol szólistában 5 [21], akkor az a dokumentum kikerült a korpuszból. Továbbá kiszűrésre került minden 20-nál kevesebb szót tartalmazó dokumentum, mivel azok sok esetben egy belépő, vagy valamilyen hibáról értesítő oldalt tartalmaztak. A Cylex lista 4000 véletlenszerűen választott vállalkozásának URL címe biztosította a honlap osztályozási feladat pozitív példáit. Letöltés 3891 alkalommal volt sikeres, a többi esetben a lista nem tartalmazott webcímet. Az angol nyelvi és méret szűrések után 1646 dokumentum maradt a halmazban. A jelöletlen halmazba a dokumentumok a következőképp kerültek: a Cylex lista tevékenységi kör mezőjében szereplő kifejezések közül azon szavakra kerestem rá az online keresők segítségével, amelyek legalább harmincszor fordultak elő. Ez 279 különböző online 5 az English Gigaword korpuszban több mint tízezerszer előforduló szavak

13 keresést és 5253 letöltött fájlt eredményezett. A szűrések után 3384 dokumentumból tevődött össze a jelöletlen halmaz. A különböző módszerek végső kiértékeléséhez szükség volt egy etalon kiértékelési korpuszra. Ezért egy annotátor manuálisan kiválasztott mindkét listából 200 egyértelműen pozitív, illetve negatív weblapot A honlap osztályozás jellemzőtere A vektortérmodell (VTM) [22] a szövegbányászati modellek első, és egyben egyik legszélesebb körben használt dokumentum reprezentációs eszköze. A modellben a korpusz (dokumentumok halmaza) minden dokumentuma egy pontnak felel meg a sokdimenziós vektortérben, melyben egy dokumentumot egy vektor ír le. A vektor minden eleme az egyes termek (szavak esetleg szósorozatok) előfordulását jelenti. Ez a sokdimenziós struktúra nyújt lehetőséget az egyes dokumentumok egymáshoz viszonyított hasonlóságának meghatározására, dokumentum klaszterek definiálására, valamint egyéb jelentéstartalom kinyerésére. A dokumentumhalmazt leíró lexikon alapesetben minden egyedi szót tartalmaz (legalább egy alkalommal, legalább egy dokumentumban előfordultak a vizsgált korpuszban), a vektortérmodell dimenziószáma pedig a lexikon méretével azonos. Az egyedi szavak száma egy nyelv esetében átlagosan szó, de ez természetesen nyelvenként jelentősen eltérhet, és függ a felölelt témák diverzitásától is. A vektortér dimenziószámának csökkentésére különböző szövegbányászati előfeldolgozási műveleteket lehet alkalmazni, úgymint stopszó lista-alapú szűrés vagy szótövezés. A vektorteret egy TD NxM term-dokumentum előfordulási mátrixszal (Term-Document mátrix vagy TD mátrix) tudjuk leírni, ahol N-nel jelöljük a dokumentumok vektorainak dimenziószámát, míg M-mel a dokumentumok számát. Egy tetszőleges td ij elem pedig az i- edik term előfordulásainak számát jelenti a j-edik dokumentumban. Egy TD NxM term-dokumentum mátrixot többféleképpen valósíthatunk meg. Bináris TD mátrixról akkor beszélhetünk, ha a mátrix elemei csak 0 és 1 értéket vehetnek fel. Ebben az esetben, ha egy tetszőleges elem értéke 1, akkor az i-edik term szerepel a j-edik dokumentumban, máskülönben 0 (amennyiben nincs benne a dokumentumban). A szógyakorisági TD mátrix esetén az egyes elemek az egyedi szavak j-edik dokumentumban való előfordulásának a gyakoriságát adják meg, mely nyilvánvalóan több információt hordoz a bináris megközelítéssel szemben. A vektortér még pontosabb reprezentálására a súlyozott TD mátrixot használják, amely az előbbi gyakorisági értékeket súlyozza, ezáltal kisebb súllyal kerülnek a mátrixba a kevésbé releváns szavak. Erre az egyik legáltalánosabban használt módszer a tf-idf (term frequency

14 inverse document frequency) normalizáció. Ekkor azon termek kapnak nagyobb súlyt, amelyek előfordulása jobban jellemzi a dokumentum tartalmát. Alapjául egyrészről a TF súlyozás szolgál, amit alábbi módon számítanak: tf i,j = n i,j n k,j i-edik term j-edik dokumentumra vonatkozó tf értékét kiszámító képlet Ezen súlyozási séma fogyatékossága, hogy a lexikon összes szavát azonos módon számítja, holott az egyes témaspecifikus szavak, mint pl. az adatbányászat szó nyilvánvalóan jobban leírja egy dokumentum tartalmát, mint esetleg egy névelő. Másrészről az inverz dokumentum frekvencia (Idf) az alábbi képlettel képes leírni, hogy adott szó a korpuszbeli ritkasága alapján mekkora megkülönböztető képességgel rendelkezik: D idf i = log {d j :t i d j }, i-edik term idf értékét kiszámító képlet Ahol a hányados számlálójában az összes dokumentum száma szerepel, a nevezőben pedig azon dokumentumok száma, amelyek tartalmazzák az adott termet. Ezek felhasználásával a következőképpen kapjuk meg a tf-idf-t: tfidf i,j =tf i,j idf i tf-idf értékének kiszámításának képlete Ezáltal azok a szavak szerepelnek nagyobb súllyal egy dokumentumra vonatkoztatva, amelyek hangsúlyosak arra nézve, továbbá más témájú dokumentumokban nem fordulnak elő jellemzően. Az implementáció folyamán a GNU licenc alatt álló, nyílt forráskódú, JAVA nyelven implementált Text Clustering Toolkit (TCT) 6 library segítségével kerültek kiszámításra ezen értékek. A VTM megközelítésnek a legnagyobb hátránya, hogy a szavak egymáshoz való (szintaktikai és szemantikai) viszonya elveszik, mivel egy TD mátrix csak az egyedi szavak előfordulását képes reprezentálni az egyes dokumentumokban. Továbbá az ábrázolt tér dimenziószáma igen magas is lehet, a TD mátrix pedig igen ritka, mivel a teljes lexikon egyedi szavainak igen kis hányada fordul elő egy dokumentumban. Ugyanakkor elmondható, hogy egy egyszerű és gyors megoldás nyújt a dokumentumok hasonlóságának meghatározására, valamint a standard gépi tanulási technikák alkalmazására. 6 TCT (Text Clustering Toolkit) University College Dublin (http://mlg.ucd.ie/)

15 A tf-idf súlyozást két helyen is alkalmaztam a rendszerben. Egyrészt az egyes termek átlagos tf-idf értékei (tfidf normalizált TD mátrix oszlopátlaga) alapján került kiválogatásra az ATFID megközelítés esetén a pozitív szólista. Azaz minden olyan, a korpuszban legalább hússzor előforduló szó bekerült a szólistába, melynek a pozitív dokumentumhalmazban számított átlagos tf-idf súlya nagyobb volt, mint a jelöletlen halmazból számított súlya. Így természetesen olyan szavak is beválogatásra kerültek, amely csak a pozitív dokumentumokban fordult elő. A pozitív és jelöletlen példákból való tanulás második lépésének szövegklasszifikációjánál is a korpusz tf-idf által súlyozott TD mátrixának használata bizonyult a előnyösebbnek a normalizálás nélküli (bináris) TD mátrixhoz képest. Az osztályozási probléma megoldásához több új jellemzőt is felvettem a dokumentumokat leíró vektorokhoz: Az egyes weblapok TITLE tag-jeiben szereplő szavak a titleword címkével kerültek a lexikonba, amely ugyan a dimenziószám növekedésével járt, de ezáltal ezek a szavak a DOM fában való elhelyezkedésük plussz információját is tartalmazták. Így például a kft szó titleworld_kft ként szerepel a lexikonban. Továbbá bekerült néhány, a weblapokra jellemző adat is, úgy mint a lapon található szavak, címek, és kifelé mutató élek (linkek) száma. Ezek ugyan növelték a vektortér dimenziószámát, de információtartalmuk miatt a végső eredményre kedvező hatással voltak. A kezelhetőség érdekében különböző szűréseket is alkalmaznom kellett. A stopword alapú szűrés segítségével azon szavak, amelyek nem bírnak különösebb jelentéstartalommal, nem kerültek bele a VTM lexikonjába, ezáltal annak dimenziószáma is kisebb lett. Az egyes nyelvek stopword listája az Interneten fellelhető, így például a [23] nevezett helyen 23 különböző nyelv listájához lehet hozzáférni. A tf-idf szűrés során a listában szereplő szavak többségének ugyan eliminálásra kell kerülnie, de mivel ezen szavak semmilyen jelentés megkülönböztető szereppel nem bírnak, így előzetes eltávolításuk csökkenti alkalmazásuk költségeit. A stopwordökön túl a dokumentumokban előforduló számok kiszűrése is hasznosnak bizonyult Döntési fa-alapú osztályozás A VTM alapú osztályozáshoz a nagy dimenziós terekben is hatékony döntési fákat használtam [24]. Ezen megközelítés az ember számára könnyen értelmezhető outputot generál, ráadásul éppen diszkrét jellemzők feldolgozására fejlesztették ki. A döntési fa felépítésére több hatékony algoritmus létezik, például a C4.5 [25] illetve annak elődje, az ID3 (Iterative Dichotomiser 3), amelyekkel diszkrét osztályok felügyelt tanulását lehet

16 végezni. Ennek a folyamatnak az outputja egy tengelypárhuzamos vágásokat alkalmazó döntési fa lesz. Vagyis az ismert entitások által alkotott teret a tengellyel párhuzamos hipersíkok mentén részterekre osztja fel. A C4.5 algoritmust használhatjuk folytonos jellemző értékek esetén is, mivel a d-dimenziós tér pontjaiként kezeli a tulajdonságvektorokat. A C4.5 az oszd meg és uralkodj tudásreprezentációra épül, vagyis a tanulási folyamat közben egy részteret alterekre bontunk fel, ha az nem bizonyult kellőképpen homogénnek. A gyakorlatban az új-zélandi Waikato Egyetem által készített nyílt forrású, JAVA nyelven implementált adatbányászati alkalmazásokat támogató programcsomagot vettem igénybe. A Weka-ban [26] a C4.5 algoritmus egy továbbfejlesztett változatát, a J48 osztályt használtam, amely talán a legelterjedtebb döntési fa tanuló módszer e programcsomagban Címek automatikus felismerése Ebben a részfeladatban a különböző honlapokon található címek és vállalkozásnevek azonosítása volt a cél. A címek megadásának ugyan van előre meghatározott pontos formája, ám ha ezt nem tartják be, az ugyan az emberi szem számára továbbra is felismerhető marad, míg az automatikus felismerés nem triviális. A probléma megoldásakor többféle megközelítést alkalmaztam, így lehetőség nyílt a szabályalapú és a gépi tanulási módszer összehasonlítására. A gépi tanulási megközelítés során a Szegedi Tudományegyetemen kifejlesztett tulajdonnév felismerő rendszert alkalmaztam A manuálisan annotált címkorpusz Mivel a cél az egyes részfeladatok egymástól függetlenül történő kiértékelése volt, ezért fel kellett tenni egy etalon céges honlaposztályozót. Az egy adott céghez köthető weboldalak a vállalkozások adatait tartalmazó Cylex adatbázis segítségével kerültek letöltésre. Mivel csak az egyes társaságok saját weboldalai, azon belül is azok, amelyek tartalmazzák a vállalat címét vagy nevét, számítottak relevánsnak, ezért az online keresők site speciális kulcsszava segítségével csak a cégek saját oldalain történt a keresés. A nem releváns találatok elkerülése érdekében egy keresőkifejezés tartalmazta továbbá a cég címében szereplő közterület megnevezés első tokenjét is. Amennyiben az nem volt elérhető az adatbázisban, akkor e helyett a vállalkozás nevének első tokenje szerepelt helyette. Ez alapján egy adott keresőkifejezés a következőképpen alakult: site: vallalatwebcime.hu közterület amennyiben a közterület nem volt elérhető: site: vallalatwebcime.hu vállalkozás neve Természetesen a keresés csak abban az esetben járt sikerrel, ha az adatbázis tartalmazta

17 az adott webcímet. Sajnos több esetben is előfordult, hogy a cím nem helyesen került az adatbázisba, vagy az oldal címe időközben megváltozott. Az egy adott céghez tartozó weboldalak egy könyvtárba kerültek, amennyiben pedig a Google és Yahoo találatai közt volt egyezés, akkor a kérdéses oldal csak egyszer került letöltésre. HTML annotációs eszköz: A HTML oldalak manuális jelöléséhez elengedhetetlenül szükség volt egy az igényeket kielégítő, ugyanakkor kényelmes és hatékony eszközre. A 2008 tavaszán az MTA-SZTE Mesterséges Intelligencia Tanszék Kutatócsoportja által készített, HTML oldalak annotálását segítő, szabadon letölthető Mozilla Firefox extension felhasználásával történt az annotálás [27]. Ennek segítségével az annotátorok az oldalakat eredeti megjelenésükben látták, nem kellett a HTML-ek forrását szerkeszteniük. Az eszköz további előnye, hogy nem módosítja a DOM fát, mivel csak speciális komment tageket illeszt be a forrásba, így az oldalak eredeti megjelenése nem változik. Eredeti oldal <TR> <TD valign="top" width="100%"> <STRONG> No1.Gödöllő, Veres P. u. 18 Tel: </STRONG></TD> </TR> Annotált oldal <TR> <TD valign="top" width="100%"><strong>no1. <!--Cim- begin--><!--varos-begin-->gödöllő,<!-- Varos-end--> <!--Utca-begin-->Veres P. u.<!--utca-end--><!--hazszam-begin--> 18<!--Hazszam-end--><!--Cim-end--> Tel: </STRONG></TD> </TR> Címkék: A korpuszban jelölendő típusok a következők voltak: VALLALAT: különböző szervezetek és cégek megnevezései HAZSZAM: lakásszámok IRANYITOSZAM: települések postai irányítószámai UTCA: közterületek megnevezései és azok típusai VAROS: települések megnevezései Az annotációs folyamat: A vállalkozások adatait tartalmazó adatbázisból 100 db céget választottam ki véletlenszerűen, majd az ezekhez tartozó 454 Google találatot letöltöttem. Ezek alkotják a cím-annotációs korpuszt. Az annotációt két nyelvész hallgató végezte el, akik egymástól függetlenül dolgoztak egy előzetesen megírt útmutató alapján, amely tartalmazta a feladat

18 pontos leírását, valamint néhány példát és ellenpéldát egyaránt. Feladatuk az oldalakon szereplő cégnevek és címek jelölése volt. Az útmutató a legfontosabb előírása ez volt: A cél az, hogy az oldalakon minden magyar cég és egyéb szervezet nevét és címét megjelölünk, fontos, hogy csak magyar cégeket jelölünk magyar címekkel. Nem jelölünk magyar címeket, cégeket, amennyiben bármely más nyelven vannak leírva. Az annotátoroknak a folyamat során tilos volt a vitás eseteket egymással megbeszélniük. A folyamat végén egy harmadik nyelvész hallgató egyértelműsítette azokat az eseteket, amikor a két annotátor eltérően jelölt. Az így elkészült korpusz 536 VAROS, 526 UTCA, 515 HAZSZAM, 436 IRANYITOSZAM és 936 VALLALAT címkét tartalmaz Szabályalapú megközelítés címek és cégnevek jelölésére A szabályalapú megközelítésen a kézzel gyűjtött listaillesztési és reguláris kifejezési szabályok egymás utáni végrehajtását jelenti. Nehézséget jelentett többek közt, hogy a HTML forrásban való keresés értelemszerűen jóval nehezebb, mint az egyszerű szöveges dokumentumok esetén. Mindemellett kezelni kellett az esetleges elírásokat, a rövidítések feloldását vagy az ékezetek esetenkénti elhagyását. A helyesírási problémák feloldására a Levenstein-távolságfüggvényt alkalmaztam, ami képes egy mérőszámot adni arra, hogy milyen költségű beszúrás, törlés és csere operációk sorozatával vihetünk át egy stringet a másikba. A rendszer alapját többek közt különböző listák jelentették, mint például a Magyar Posta honlapjáról letölthető adatbázis [28], melyben a hat legnagyobb magyarországi város közterületei és irányítószámai szerepeltek. Továbbá a lehetséges városnevek, közterület- vagy vállalkozás típusok is egy-egy felsorolást alkottak. A hatékonyabb működés érdekében a listák egyes tokenjei többféleképpen is bekerültek a rendszerbe, így ékezetek nélkül és a közterületek megnevezései esetén rövidített formában is. Ezért pl. a Dózsa György közterület név Dózsa György, Dozsa Gyorgy, Dózsa Gy, valamint Dozsa Gy -ként is szerepel a rendszerben. Címek esetén a megközelítésnek az alapgondolata a következő volt: amennyiben az algoritmus a HTML oldalakon szereplő szövegben egy közterület típust leíró tokent talált, annak környékén igen nagy valószínűséggel egy cím szerepel. Ezért vettem ennek a tokennek egy adott k távolságon belüli szomszédait, és a továbbiakban ezen a tokensorozaton dolgoztam. Ebben a környezetben a fenti listák alapján próbálja azonosítani az egyes elemeket az algoritmus. Szabad tagok esetén a közterület típus előtt és után egyaránt, míg félig szabad tagokat csak az adott feltételek szerint keres. A módszer nem csak teljes címeket jelölt, hiszen előfordulhatnak csonka címzések is,

19 jellemzően az irányítószám hiányával. Továbbá ha az egyik tagot esetlegesen nem sikerült azonosítani, a többi attól még jelölésre került, ezáltal csökkentve a hiba mértékét. A cégnevek azonosítása a címekhez hasonló módon történt. Ebben az esetben viszont a HTML oldalakon a cégnevek végződéseit, mint például kft, vagy bt kereste az algoritmus, és cégnévnek jelölte azt a nagy kezdőbetűkkel rendelkező token sorozatot, amely a cégvégződést megelőzte. Az egyes elemek értelmezési, azonosítási lehetőségei a következők [29]: település megnevezése: szabad tag magyarországi települések neveinek halmaza (rövidítéseket tartalmazhat) irányítószám: szabad tag: (H )[1 9] [0 9] [0 9] [0 9] postafiók: szabad tag: postafiók/pf(.) [0 9]? [0 9]? [0 9]? [0 9] közterület típusa: félig szabad tag (nem szerepelhet a közterület előtt): magyarországi közterületek típusai (rövidítéseket tartalmazhat) közterület megnevezése: félig szabad tag (nem szerepelhet településnév előtt): magyarországi közterületek neveinek halmaza lakásszám: félig szabad tag (nem szerepelhet a közterület megnevezése előtt) római szám/egész szám(.) emelet egész szám (.) kerületszám: római szám/egész szám(.) ker(.)/kerület Gépi tanulási megközelítés címek és cégnevek jelölésére Ezen megközelítés során a Szegedi Tudományegyetem Informatikai Tanszékcsoportján Szarvas György és Farkas Richárd által 2006-ban publikált nyelvfüggetlen tulajdonnév felismerő rendszerhez Named Entity Recognition kialakított jellemzőteret használtam fel [18]. Ezen jellemzők a következők: Felszíni jellemzők: kis/nagy kezdőbetű, szóhossz, stb. Frekvenciainformációk: token előfordulási gyakorisága (webről gyűjtött frekvenciaszótárban) Környezeti jellemzők: mondatbeli pozíció, zárójelek, idézőjelek használata, stb. Egyértelmű tulajdonnevek listája: azon szavak listája, amelyeknek az osztálya a tanítóhalmaz alapján egyértelműen meghatározott Tulajdonnév szótárak: Internetről letöltött listák, mint pl. vállalat típusok

20 Az így kialakított jellemzőtérre a tulajdonnév felismerési feladatokban a napjainkban legjobbnak tartott Conditional Random Fields (CRF) tanuló algoritmust alkalmaztam [16], amely a szekvenciatanulás (sequence labeling, stuctured prediction) módszerén alapszik. Ez a megközelítés alapvetően abban különbözik a klasszikus osztályozási feladattól, hogy nem egyetlen szeparált egyed címkéjének előrejelzésére épülő statisztikai modell, hanem osztálycímkék egy egész sorozatára. Ebben az esetben természetesen nem lehet élni az egyedek közti függetlenség feltevésével. A szekvencia alapú tanuló algoritmusok első változata a Rejtett Markov Modell volt [30], melynek később számos változata jelent meg. A CRF a rejtett Markov Modellel ellentétben nem követeli meg (a logisztikus regressziós modell felhasználásának köszönhetően) a jellemzők közötti függetlenségi feltevést A cégnevek és -címek összerendelése A harmadik, és egyben utolsó nagyobb részfeladat célja a letöltött weboldalakon felismert cégnevek és azok címeinek összerendelése. Mivel egy cím, vagy akár egy cég megnevezése is többféleképpen fordulhat elő, ezért elengedhetetlen az egyes címek és vállalatnevek egységes formára hozása (normalizálása), majd ezután annak eldöntése, hogy a szóban forgó céghez mely cím és név tartozik Az összerendelés kiértékelése Az egyes honlapokon, amelyek egy adott vállalkozásra vonatkozóan tartalmazzák annak címét vagy megnevezését, más társaságok adatai is szerepelhetnek. Ebben az esetben valamilyen módon szükséges az adott vállalkozáshoz tartozó adatok azonosítása, mivel egy oldalon sok esetben több cím és vállalkozás név fordul elő. A feladatot különböző heurisztikák segítségével oldottam meg. Ezek hatékonyságának mérése a Cylex adatbázis segítségével történt. Annak érdekében, hogy az automatikus címfelismerés hozzáadott hibáját értékelni tudjuk, az egyes heurisztikák az annotátorok által címjelölt és egyértelműsített adatbázison is lemérésre kerültek (ez a címjelölésben etalon adatbázis). Mivel mind a kiértékelő Cylex adatbázist, mind az egyes weblapok tartalmát emberek készítették, valamint a jelölések tökéletlenségéből fakadóan, óhatatlanul előfordultak olyan hibák, amelyek jelentősen megnehezítették a kiértékelést

Gépi tanulás a gyakorlatban. Bevezetés

Gépi tanulás a gyakorlatban. Bevezetés Gépi tanulás a gyakorlatban Bevezetés Motiváció Nagyon gyakran találkozunk gépi tanuló alkalmazásokkal Spam detekció Karakter felismerés Fotó címkézés Szociális háló elemzés Piaci szegmentáció analízis

Részletesebben

ACTA CAROLUS ROBERTUS

ACTA CAROLUS ROBERTUS ACTA CAROLUS ROBERTUS Károly Róbert Főiskola tudományos közleményei Alapítva: 2011 3 (1) ACTA CAROLUS ROBERTUS 3 (1) Informatika szekció SZÖVEGOSZTÁLYOZÁSI MÓDSZEREK A WEKA ADATBÁNYÁSZATI SZOFTVER SEGÍTSÉGÉVEL

Részletesebben

Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára

Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára Vázsonyi Miklós VÁZSONYI Informatikai és Tanácsadó Kft. BME Információ- és Tudásmenedzsment Tanszék 1/23 Tartalom A MEK jelenlegi

Részletesebben

Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS)

Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS) Networkshop, 2008 Márc. 17 19., Dunaújváros Holl Erdődi: Fejlett kereső... 1 Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS) Holl András Erdődi Péter MTA Konkoly Thege Miklós

Részletesebben

Projektvezetői döntések támogatása webbányászattal

Projektvezetői döntések támogatása webbányászattal NETWORKSHOP 2008 2008. március 17-19. Dunaújváros, Dunaújvárosi Főiskola Projektvezetői döntések támogatása webbányászattal Bóta László Ph.D. hallgató (BME) Eszterházy Károly Főiskola, Eger BI (Business

Részletesebben

Adatkeresés az interneten. Cicer Norbert 12/K.

Adatkeresés az interneten. Cicer Norbert 12/K. Adatkeresés az interneten Cicer Norbert 12/K. Internetes keresőoldalak Az internet gyakorlatilag végtelen adatmennyiséget tartalmaz A dokumentumokat és egyéb adatokat szolgáltató szerverek száma több millió,

Részletesebben

Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben.

Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben. Tartalom Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben. Előszó 1. Az adatbányászatról általában 19 1.1. Miért adatbányászat? 21 1.2. Technológia a rejtett információk

Részletesebben

Zimbra levelező rendszer

Zimbra levelező rendszer Zimbra levelező rendszer Budapest, 2011. január 11. Tartalomjegyzék Tartalomjegyzék... 2 Dokumentum információ... 3 Változások... 3 Bevezetés... 4 Funkciók... 5 Email... 5 Társalgás, nézetek, és keresés...

Részletesebben

Az internet az egész világot behálózó számítógép-hálózat.

Az internet az egész világot behálózó számítógép-hálózat. Az internet az egész világot behálózó számítógép-hálózat. A mai internet elődjét a 60-as években az Egyesült Államok hadseregének megbízásából fejlesztették ki, és ARPANet-nek keresztelték. Kifejlesztésének

Részletesebben

A Hunglish Korpusz és szótár

A Hunglish Korpusz és szótár A Hunglish Korpusz és szótár Halácsy Péter 1, Kornai András 1, Németh László 1, Sass Bálint 2 Varga Dániel 1, Váradi Tamás 1 BME Média Oktató és Kutató Központ 1111 Budapest, Stoczek u. 2 {hp,nemeth,daniel}@mokk.bme.hu

Részletesebben

2. 3. Keresés az Interneten. Navigáció az Interneten: Megoldások. Internetes keresés buktatói. 1. Keresőmotorok. Webes keresési lehetőségek

2. 3. Keresés az Interneten. Navigáció az Interneten: Megoldások. Internetes keresés buktatói. 1. Keresőmotorok. Webes keresési lehetőségek Keresés az Interneten Navigáció az Interneten: Keresőrendszerek, keresési tippek Egyszerű keresőrendszerek Tematikus keresőrendszerek, katalógusok Portálok Adatbázisok, online folyóiratok Elektronikus

Részletesebben

Internet alkamazások Készítette: Methos L. Müller Készült: 2010

Internet alkamazások Készítette: Methos L. Müller Készült: 2010 Internet alkamazások Készítette: Methos L. Müller Készült: 2010 Tartalomjegyzék - Tartalomkezelő rendszerek Miért jó a CMS alapú website? CMS rendszerek - Mi szükséges ezen CMS-ekhez? - Információ építészet

Részletesebben

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék Adatelemzés intelligens módszerekkel Hullám Gábor Adatelemzés hagyományos megközelítésben I. Megválaszolandó

Részletesebben

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén Dombi József Szegedi Tudományegyetem Bevezetés - ID3 (Iterative Dichotomiser 3) Az ID algoritmusok egy elemhalmaz felhasználásával

Részletesebben

KERESÉS A NETEN DR. KÓNYA LÁSZLÓ: KERESÉS A NETEN KERESÉS MÓDSZERE, KERESŐPROGRAMOK 2004.04.20

KERESÉS A NETEN DR. KÓNYA LÁSZLÓ: KERESÉS A NETEN KERESÉS MÓDSZERE, KERESŐPROGRAMOK 2004.04.20 INTERNET 1/42 KERESÉS A NETEN DR. KÓNYA LÁSZLÓ: KERESÉS A NETEN KERESÉS MÓDSZERE, KERESŐPROGRAMOK 2004.04.20 FORRÁS: TARR BENCE : KERESÉS AZ INTERNETEN PANEM KIADÓ, 2001 ISBN 963 545 326 4 INTERNET 2/42

Részletesebben

Tudásalapú információ integráció

Tudásalapú információ integráció Tudásalapú információ integráció (A Szemantikus Web megközelítés és a másik irány) Tanszéki értekezlet, 2008. május 14. 1 Miért van szükségünk ilyesmire? WWW: (Alkalmazások) Keresés a weben (pl. összehasonlítás

Részletesebben

Tudás Reflektor. Copyright 2011; Kodácsy Tamás; E-mail: kodacsy.tamas@kodasoft.hu

Tudás Reflektor. Copyright 2011; Kodácsy Tamás; E-mail: kodacsy.tamas@kodasoft.hu Tudás Reflektor A Társadalmi Megújulás Operatív Program 4.1.3. számú, A felsőoktatási szolgáltatások rendszerszintű fejlesztése Központi/felsőoktatási Validációs Rendszer projekt keretében készült olyan

Részletesebben

BARANGOLÁS AZ E-KÖNYVEK BIRODALMÁBAN Milyen legyen az elektonikus könyv?

BARANGOLÁS AZ E-KÖNYVEK BIRODALMÁBAN Milyen legyen az elektonikus könyv? BARANGOLÁS AZ E-KÖNYVEK BIRODALMÁBAN Milyen legyen az elektonikus könyv? Készítették: Névery Tibor és Széll Ildikó PPKE I. évf. kiadói szerkesztő hallgatók, közösen 1 BEVEZETŐ Az elektronikus könyv valamilyen

Részletesebben

ITIL alapú IT környezet kialakítás és IT szolgáltatás menedzsment megvalósítás az FHB-ban

ITIL alapú IT környezet kialakítás és IT szolgáltatás menedzsment megvalósítás az FHB-ban IBM Global Technology Services ITIL alapú IT környezet kialakítás és IT szolgáltatás menedzsment megvalósítás az FHB-ban ITSMF Magyarország 3. szemináriuma Tild Attila, ISM IBM Magyarországi Kft. 2006

Részletesebben

Felhasználói dokumentáció a teljesítményadó állományok letöltéséhez v1.0

Felhasználói dokumentáció a teljesítményadó állományok letöltéséhez v1.0 Felhasználói dokumentáció a teljesítményadó állományok letöltéséhez v1.0 www.kekkh.gov.hu Státusz: Verzió Cím Dátum SzerzőFolyamatban Változások Verzió Dátum Vállalat Verzió: 1.0 Szerző: Lénárd Norbert

Részletesebben

Hogyan használják ki az ügyvédek az internet nyújtotta lehetőségeket?

Hogyan használják ki az ügyvédek az internet nyújtotta lehetőségeket? Hogyan használják ki az ügyvédek az internet nyújtotta lehetőségeket? KÉSZÍTETTE: ÜGYVÉDBRÓKER KFT. INFO@UGYVEDBROKER.HU WWW.UGYVEDBROKER.HU Tartalom Az eredmények rövid összefoglalása... 3 A felmérés

Részletesebben

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA BESZÉDTUDOMÁNY Az emberi kommunikáció egyik leggyakrabban használt eszköze a nyelv. A nyelv hangzó változta, a beszéd a nyelvi kommunikáció

Részletesebben

Webes keres rendszerek. Webtechnológiák. Webes keres rendszerek. Webes keres rendszerek. Répási Tibor egyetemi tanársegéd

Webes keres rendszerek. Webtechnológiák. Webes keres rendszerek. Webes keres rendszerek. Répási Tibor egyetemi tanársegéd Webtechnológiák Webes keresrendszerek Répási Tibor egyetemi tanársegéd Miskolc Egyetem,Gépészmérnöki kar, Infomatikai és Villamosmérnöki Tanszékcsoport (IVM) Általános Informatikai Tanszék Iroda: Inf.Int.

Részletesebben

S atisztika 2. előadás

S atisztika 2. előadás Statisztika 2. előadás 4. lépés Terepmunka vagy adatgyűjtés Kutatási módszerek osztályozása Kutatási módszer Feltáró kutatás Következtető kutatás Leíró kutatás Ok-okozati kutatás Keresztmetszeti kutatás

Részletesebben

KOPI. KOPI Online Plágiumkereső és Információs Portál DSD. Pataki Máté MTA SZTAKI. Elosztott Rendszerek Osztály

KOPI. KOPI Online Plágiumkereső és Információs Portál DSD. Pataki Máté MTA SZTAKI. Elosztott Rendszerek Osztály KOPI Rendszerek Osztály KOPI Online Plágiumkereső és Információs Portál Pataki Máté MA SZAKI émakörök Bemutatkozás A KOPI projekt célja A rendszer működése A KOPI portál bemutatása ovábbfejlesztési lehetőségek

Részletesebben

Internetes Statisztikai Felmérés ISF 2007

Internetes Statisztikai Felmérés ISF 2007 Internetes Statisztikai Felmérés ISF 2007 1/28/2008 AZ INTERNETES ALKALMAZÁSOKNÁL, FEJLESZTÉSEKNÉL, JOGGAL MERÜLNEK FEL A KÉRDÉSEK A KÜLÖNBÖZŐ INTERNETES SZOKÁSOK, FELHASZNÁLÓI SZOFTVEREK (BÖNGÉSZŐK),

Részletesebben

E-Kataszteri rendszer ismertető

E-Kataszteri rendszer ismertető E-Kataszteri rendszer ismertető Az E-Szoftverfejlesztő Kft. által fejlesztett KATAwin kataszteri és eszköznyilvántartó rendszert 2,600 db önkormányzat alkalmazza évek óta. Teljeskörű Certop minősítéssel

Részletesebben

ECDL Információ és kommunikáció

ECDL Információ és kommunikáció 1. rész: Információ 7.1 Az internet 7.1.1 Fogalmak és szakkifejezések 7.1.2 Biztonsági megfontolások 7.1.3 Első lépések a webböngésző használatában 7.1.4 A beállítások elévégzése 7.1.1.1 Az internet és

Részletesebben

Adatbányászati technikák (VISZM185) 2015 tavasz

Adatbányászati technikák (VISZM185) 2015 tavasz Adatbányászati technikák (VISZM185) 2015 tavasz Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2015. február 11. Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 1 / 27

Részletesebben

Innovatív trendek a BI területén

Innovatív trendek a BI területén Innovatív trendek a BI területén 1 Technológiai trendek 3 BI-TREK kutatás Felmérés az üzleti intelligencia hazai alkalmazási trendjeiről Milyen BI szoftvereket használnak a hazai vállalatok? Milyen üzleti

Részletesebben

Ismeretlen kifejezések és a szófaji egyértelm sítés

Ismeretlen kifejezések és a szófaji egyértelm sítés Szeged, 2010. december 2 3. 275 Ismeretlen kifejezések és a szófaji egyértelm sítés Zsibrita János 1, Vincze Veronika 1, Farkas Richárd 2 1 Szegedi Tudományegyetem, Informatikai Tanszékcsoport Szeged,

Részletesebben

KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / 2014.10.16. Mezei Ferenc üzletág-igazgató

KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / 2014.10.16. Mezei Ferenc üzletág-igazgató KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / 2014.10.16. Mezei Ferenc üzletág-igazgató Hasonló, mégis más Ez se rossz amíg ezt ki nem próbáltad!

Részletesebben

Google App Engine az Oktatásban 1.0. ügyvezető MattaKis Consulting http://www.mattakis.com

Google App Engine az Oktatásban 1.0. ügyvezető MattaKis Consulting http://www.mattakis.com Google App Engine az Oktatásban Kis 1.0 Gergely ügyvezető MattaKis Consulting http://www.mattakis.com Bemutatkozás 1998-2002 között LME aktivista 2004-2007 Siemens PSE mobiltelefon szoftverfejlesztés,

Részletesebben

Ionogram releváns területeinek meghatározása és elemzésének automatikus megvalósítása

Ionogram releváns területeinek meghatározása és elemzésének automatikus megvalósítása Ionogram releváns területeinek meghatározása és elemzésének automatikus megvalósítása Előadó: Pieler Gergely, MSc hallgató, Nyugat-magyarországi Egyetem Konzulens: Bencsik Gergely, PhD hallgató, Nyugat-magyarországi

Részletesebben

Bemutató anyag. Flash dinamikus weboldal adminisztrációs felület. Flash-Com Számítástechnikai Kft. 2012. Minden jog fenntartva!

Bemutató anyag. Flash dinamikus weboldal adminisztrációs felület. Flash-Com Számítástechnikai Kft. 2012. Minden jog fenntartva! Bemutató anyag Flash dinamikus weboldal adminisztrációs felület Flash-Com Számítástechnikai Kft. 2012. Minden jog fenntartva! Testreszabott weboldalhoz egyéni adminisztrációs felület Mivel minden igény

Részletesebben

Adatszerkezetek Tömb, sor, verem. Dr. Iványi Péter

Adatszerkezetek Tömb, sor, verem. Dr. Iványi Péter Adatszerkezetek Tömb, sor, verem Dr. Iványi Péter 1 Adat Adat minden, amit a számítógépünkben tárolunk és a külvilágból jön Az adatnak két fontos tulajdonsága van: Értéke Típusa 2 Adat típusa Az adatot

Részletesebben

AuditPrime Audit intelligence

AuditPrime Audit intelligence AuditPrime Audit intelligence Szakértői szoftver a könyvelés ellenőrzéséhez www.justisec.hu Minden rendben. Tartalom Előzmények... 3 A szoftver bemutatása... 3 A könyvelési adatok átvétele... 3 A technológia...

Részletesebben

4. Javítás és jegyzetek

4. Javítás és jegyzetek és jegyzetek Schulcz Róbert schulcz@hit.bme.hu A tananyagot kizárólag a BME hallgatói használhatják fel tanulási céllal. Minden egyéb felhasználáshoz a szerző engedélye szükséges! 1 Automatikus javítás

Részletesebben

Nyilvántartási Rendszer

Nyilvántartási Rendszer Nyilvántartási Rendszer Veszprém Megyei Levéltár 2011.04.14. Készítette: Juszt Miklós Honnan indultunk? Rövid történeti áttekintés 2003 2007 2008-2011 Access alapú raktári topográfia Adatbázis optimalizálás,

Részletesebben

1. Szolgáltatásaink. Adatok feltöltése és elemzése. Digitális feltöltés. Analóg korong feltöltés

1. Szolgáltatásaink. Adatok feltöltése és elemzése. Digitális feltöltés. Analóg korong feltöltés v 1.1 1. Szolgáltatásaink Adatok feltöltése és elemzése A Tacho-X rendszer képes a digitális, valamint analóg tachográfból korongokból származó adatokat beolvasni, és elemezni azokat. Az beolvasott adatokat,

Részletesebben

Információ és kommunikáció

Információ és kommunikáció Információ és kommunikáció Tanmenet Információ és kommunikáció TANMENET- Információ és kommunikáció Témakörök Javasolt óraszám 1. Az internet jellemzői 25 perc 2. Szolgáltatások az interneten 20 perc

Részletesebben

Az információs műveltség fejlesztése A könyvtárak szemléletváltása és feladatai a 21. században

Az információs műveltség fejlesztése A könyvtárak szemléletváltása és feladatai a 21. században Az információs műveltség fejlesztése A könyvtárak szemléletváltása és feladatai a 21. században Dr. Varga Katalin Miért fontos ez a téma? Az interneten nem azt találjuk meg, amire kíváncsiak vagyunk, hanem

Részletesebben

Aromo Szöveges Értékelés

Aromo Szöveges Értékelés Aromo Szöveges Értékelés AROMO Iskolaadminisztrációs Szoftver v2.50 - Felhasználói kézikönyv- Szöveges értékelés 1 Tartalomjegyzék Aromo Szöveges Értékelés 1 Bevezetés 3 A Szöveges Értékelés modul koncepciója

Részletesebben

TERC V.I.P. hardverkulcs regisztráció

TERC V.I.P. hardverkulcs regisztráció TERC V.I.P. hardverkulcs regisztráció 2014. második félévétől kezdődően a TERC V.I.P. költségvetés-készítő program hardverkulcsát regisztrálniuk kell a felhasználóknak azon a számítógépen, melyeken futtatni

Részletesebben

1. JELENTKEZŐ ADATBÁZIS MODUL

1. JELENTKEZŐ ADATBÁZIS MODUL A toborzást-kiválasztást támogató humáninformatikai megoldásunk, a nexonjob, rugalmasan a vállalati egyedi igények alapján testre szabható. A rendszer webes felületén keresztül jelentkezhetnek a pályázók

Részletesebben

Országos Rendezési Tervkataszter

Országos Rendezési Tervkataszter TeIR Országos Rendezési Tervkataszter Felhasználói útmutató Budapest, 2015. április Tartalomjegyzék 1. BEVEZETŐ... 3 2. LEKÉRDEZÉSEK... 3 2.1 TERV ELLÁTOTTSÁG LEKÉRDEZÉS... 4 2.1.1. Kördiagram... 5 2.1.2.

Részletesebben

Az alábbiakban a portál felépítéséről, illetve az egyes lekérdező funkciókról kaphat részletes információkat.

Az alábbiakban a portál felépítéséről, illetve az egyes lekérdező funkciókról kaphat részletes információkat. Súgó Az alábbiakban a portál felépítéséről, illetve az egyes lekérdező funkciókról kaphat részletes információkat. A lekérdező rendszer a Hírközlési Szolgáltatások és Interfész bejelentések, valamint az

Részletesebben

1. előadás. Lineáris algebra numerikus módszerei. Hibaszámítás Számábrázolás Kerekítés, levágás Klasszikus hibaanalízis Abszolút hiba Relatív hiba

1. előadás. Lineáris algebra numerikus módszerei. Hibaszámítás Számábrázolás Kerekítés, levágás Klasszikus hibaanalízis Abszolút hiba Relatív hiba Hibaforrások Hiba A feladatok megoldása során különféle hibaforrásokkal találkozunk: Modellhiba, amikor a valóságnak egy közelítését használjuk a feladat matematikai alakjának felírásához. (Pl. egy fizikai

Részletesebben

SZAKDOLGOZAT ÓBUDAI EGYETEM. Neumann János Informatikai kar Alba Regia Egyetemi Központ

SZAKDOLGOZAT ÓBUDAI EGYETEM. Neumann János Informatikai kar Alba Regia Egyetemi Központ ÓBUDAI EGYETEM Neumann János Informatikai kar Alba Regia Egyetemi Központ SZAKDOLGOZAT OE-NIK Hallgató neve: Berencsi Gergő Zsolt 2010. Törzskönyvi száma: T 000123/FI38878/S-N Tartalomjegyzék Tartalmi

Részletesebben

HASZNÁLATI ÚTMUTATÓ DOLGOZÓK IMPORTÁLÁSA KULCS BÉR PROGRAMBA AZ ONLINE MUNKAIDŐ NYILVÁNTARTÓ RENDSZERBŐL. Budapest, 2013. november 08.

HASZNÁLATI ÚTMUTATÓ DOLGOZÓK IMPORTÁLÁSA KULCS BÉR PROGRAMBA AZ ONLINE MUNKAIDŐ NYILVÁNTARTÓ RENDSZERBŐL. Budapest, 2013. november 08. HASZNÁLATI ÚTMUTATÓ DOLGOZÓK IMPORTÁLÁSA KULCS BÉR PROGRAMBA AZ ONLINE MUNKAIDŐ NYILVÁNTARTÓ RENDSZERBŐL Budapest, 2013. november 08. 1. CÉLKITŰZÉS A fő cél, hogy az OL Munkaidő Rendszerből kinyert jelenlét

Részletesebben

Üzleti modellen alapuló webes tudásprezentáció

Üzleti modellen alapuló webes tudásprezentáció Üzleti modellen alapuló webes tudásprezentáció Pataki Máté, Micsik András Bevezetés Számos projekt küzd azzal a problémával, hogy a projekt menete során felhalmozott nagy mennyiségű, hasznos információ,

Részletesebben

Ügyfél- és címadatok feldolgozása Talenddel

Ügyfél- és címadatok feldolgozása Talenddel Ügyfél- és címadatok feldolgozása Talenddel 2012.október 4. Dr. Miskolczi Mátyás, Kiss György A Stratisról röviden Jellemzők - Alapítva: 1998 - Tisztán magyar tulajdon - 50 tanácsadó - 140 ügyfél - 500+

Részletesebben

Területi elemzések. Budapest, 2015. április

Területi elemzések. Budapest, 2015. április TeIR Területi elemzések Felhasználói útmutató Budapest, 2015. április Tartalomjegyzék 1. BEVEZETŐ... 3 2. AZ ELEMZÉSBEN SZEREPLŐ MUTATÓ KIVÁLASZTÁSA... 4 3. AZ ELEMZÉSI FELTÉTELEK DEFINIÁLÁSA... 5 3.1.

Részletesebben

Történet John Little (1970) (Management Science cikk)

Történet John Little (1970) (Management Science cikk) Információ menedzsment Szendrői Etelka Rendszer- és Szoftvertechnológia Tanszék szendroi@witch.pmmf.hu Vezetői információs rendszerek Döntéstámogató rendszerek (Decision Support Systems) Döntések információn

Részletesebben

Csináljunk az adatból információt! A Lone-Soft listázó keretrendszerrel

Csináljunk az adatból információt! A Lone-Soft listázó keretrendszerrel Csináljunk az adatból információt! A Lone-Soft listázó keretrendszerrel A piacon lévő ügyviteli szoftverek jó részének legnagyobb hibája, hogy a letárolt adatokat nem képesek a felhasználó által hasznosítható

Részletesebben

A CMMI alapú szoftverfejlesztési folyamat

A CMMI alapú szoftverfejlesztési folyamat A CMMI alapú szoftverfejlesztési folyamat Készítette: Szmetankó Gábor G-5S8 Mi a CMMI? Capability Maturity Modell Integration Folyamat fejlesztési referencia modell Bevált gyakorlatok, praktikák halmaza,

Részletesebben

KÖNYVTÁRI KATALÓGUS HASZNÁLATI ÚTMUTATÓ

KÖNYVTÁRI KATALÓGUS HASZNÁLATI ÚTMUTATÓ KÖNYVTÁRI KATALÓGUS HASZNÁLATI ÚTMUTATÓ Mi az OPAC? Az OPAC az Online Public Access Catalogue rövidítése. Jelentése olyan számítógépes katalógus, mely nyilvános, bárki számára közvetlenül, általában ingyen

Részletesebben

Szövegbányászat és dokumentum kezelés

Szövegbányászat és dokumentum kezelés Szövegbányászat és dokumentum kezelés 3. Előfeldolgozás, klaszterezés A dokumentumok reprezentálása A dokumentum a szavak együttese A dokumentum rendszerben különböző szavak eltérő súlyúak a téma azonosításában

Részletesebben

E-Kataszteri rendszer ismertető

E-Kataszteri rendszer ismertető E-Kataszteri rendszer ismertető Az E-Szoftverfejlesztő Kft. által fejlesztett KATAwin kataszteri és eszköznyilvántartó rendszert 2,700 db önkormányzat alkalmazza évek óta. Teljeskörű Certop minősítéssel

Részletesebben

Bevezetés a kvantum informatikába és kommunikációba Féléves házi feladat (2013/2014. tavasz)

Bevezetés a kvantum informatikába és kommunikációba Féléves házi feladat (2013/2014. tavasz) Bevezetés a kvantum informatikába és kommunikációba Féléves házi feladat (2013/2014. tavasz) A házi feladatokkal kapcsolatos követelményekről Kapcsolódó határidők: választás: 6. oktatási hét csütörtöki

Részletesebben

Infor PM10 Üzleti intelligencia megoldás

Infor PM10 Üzleti intelligencia megoldás Infor PM10 Üzleti intelligencia megoldás Infor Üzleti intelligencia (Teljesítmény menedzsment) Web Scorecard & Műszerfal Excel Email riasztás Riportok Irányít Összehangol Ellenőriz Stratégia Stratégia

Részletesebben

IV/8. sz. melléklet: Internetes megjelenés (vállalati portál) funkcionális specifikáció

IV/8. sz. melléklet: Internetes megjelenés (vállalati portál) funkcionális specifikáció IV/8. sz. melléklet: Internetes megjelenés (vállalati portál) funkcionális specifikáció 1. A követelménylista céljáról Jelen követelménylista (mint a GOP 2.2.1 / KMOP 1.2.5 pályázati útmutató melléklete)

Részletesebben

Orvosi készülékekben használható modern fejlesztési technológiák lehetőségeinek vizsgálata

Orvosi készülékekben használható modern fejlesztési technológiák lehetőségeinek vizsgálata Kutatási beszámoló a Pro Progressio Alapítvány számára Budapesti Műszaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Kar Mérnök informatika szak Orvosi készülékekben használható modern

Részletesebben

SZOFTVERES SZEMLÉLTETÉS A MESTERSÉGES INTELLIGENCIA OKTATÁSÁBAN _ Jeszenszky Péter Debreceni Egyetem, Informatikai Kar jeszenszky.peter@inf.unideb.

SZOFTVERES SZEMLÉLTETÉS A MESTERSÉGES INTELLIGENCIA OKTATÁSÁBAN _ Jeszenszky Péter Debreceni Egyetem, Informatikai Kar jeszenszky.peter@inf.unideb. SZOFTVERES SZEMLÉLTETÉS A MESTERSÉGES INTELLIGENCIA OKTATÁSÁBAN _ Jeszenszky Péter Debreceni Egyetem, Informatikai Kar jeszenszky.peter@inf.unideb.hu Mesterséges intelligencia oktatás a DE Informatikai

Részletesebben

Big Data az adattárházban

Big Data az adattárházban Big Data az adattárházban A párbaj folytatódik? Néhány fontos Big Data projekt Cég Téma Adat Újfajta Mennyiség Saját adat? Típus Google Influenza Google I big I Előjelzés előjelzés Farecast Xoom Chicagoi

Részletesebben

Hogyan lesz adatbányából aranybánya?

Hogyan lesz adatbányából aranybánya? Hogyan lesz adatbányából aranybánya? Szolgáltatások kapacitástervezése a Budapest Banknál Németh Balázs Budapest Bank Fehér Péter - Corvinno Visontai Balázs - KFKI Tartalom 1. Szolgáltatás életciklus 2.

Részletesebben

Angol nyelvű összetett kifejezések automatikus azonosítása i

Angol nyelvű összetett kifejezések automatikus azonosítása i Angol nyelvű összetett kifejezések automatikus azonosítása i Nagy T. István SZTE TTIK Informatikai Doktori Iskola nistvan@inf.u-szeged.hu Kivonat: A jelen munkában az angol nyelvű összetett kifejezések

Részletesebben

ÁSZF 1. melléklet. GST-Max Kereskedelmi és Szolgáltató Kft. 1021 Budapest, Völgy utca 32/b. részéről

ÁSZF 1. melléklet. GST-Max Kereskedelmi és Szolgáltató Kft. 1021 Budapest, Völgy utca 32/b. részéről ÁSZF 1. melléklet GST-Max Kereskedelmi és Szolgáltató Kft. 1021 Budapest, Völgy utca 32/b részéről Click&Flow licenc, éves szoftverkövetés és kapcsolódó szolgáltatások díjai érvényes: 2015.08.01-től 1/7

Részletesebben

Automatikus tesztgenerálás modell ellenőrző segítségével

Automatikus tesztgenerálás modell ellenőrző segítségével Méréstechnika és Információs Rendszerek Tanszék Automatikus tesztgenerálás modell ellenőrző segítségével Micskei Zoltán műszaki informatika, V. Konzulens: Dr. Majzik István Tesztelés Célja: a rendszerben

Részletesebben

Számítógépes vírusok. Barta Bettina 12. B

Számítógépes vírusok. Barta Bettina 12. B Számítógépes vírusok Barta Bettina 12. B Vírusok és jellemzőik Fogalma: A számítógépes vírus olyan önmagát sokszorosító program,mely képes saját magát más végrehajtható alkalmazásokban, vagy dokumentumokban

Részletesebben

Multimédiás adatbázisok

Multimédiás adatbázisok Multimédiás adatbázisok Multimédiás adatbázis kezelő Olyan adatbázis kezelő, mely támogatja multimédiás adatok (dokumentum, kép, hang, videó) tárolását, módosítását és visszakeresését Minimális elvárás

Részletesebben

IMOLA. Integrált MOKKA2, ODR2 és OLA. Vándorgyűlés Szombathely, 2008 július 25. Monguz MTA SZTAKI konzorcium

IMOLA. Integrált MOKKA2, ODR2 és OLA. Vándorgyűlés Szombathely, 2008 július 25. Monguz MTA SZTAKI konzorcium IMOLA Integrált MOKKA2, ODR2 és OLA Vándorgyűlés Szombathely, 2008 július 25. Monguz MTA SZTAKI konzorcium Forró pontok, követelmények I. Tiszta, átlátható helyzetet teremteni MOKKA Egyesület, OSZK, Szállító,

Részletesebben

Fuzzy rendszerek és neurális hálózatok alkalmazása a diagnosztikában

Fuzzy rendszerek és neurális hálózatok alkalmazása a diagnosztikában Budapesti Műszaki és Gazdaságtudományi Egyetem Fuzzy rendszerek és neurális hálózatok alkalmazása a diagnosztikában Cselkó Richárd 2009. október. 15. Az előadás fő témái Soft Computing technikák alakalmazásának

Részletesebben

TESZ INTERNET ÉS KOMMUNIKÁCIÓ M7

TESZ INTERNET ÉS KOMMUNIKÁCIÓ M7 TESZ INTERNET ÉS KOMMUNIKÁCIÓ M7 1. FELADAT 1. Továbbküldés esetén milyen előtaggal egészül ki az e-mail tárgysora? Jelölje a helyes választ (válaszokat)! [1 pont] a) From: b) Fw: c) To: d) Vá: 2. Melyik

Részletesebben

Ellenőrző kérdések. 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t

Ellenőrző kérdések. 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t Ellenőrző kérdések 2. Kis dolgozat kérdései 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t 37. Ha t szintű indexet használunk,

Részletesebben

VIR alapfogalmai. Előadásvázlat. dr. Kovács László

VIR alapfogalmai. Előadásvázlat. dr. Kovács László VIR alapfogalmai Előadásvázlat dr. Kovács László Információ szerepe Információ-éhes világban élünk Mi is az információ? - újszerű ismeret - jelentés Hogyan mérhető az információ? - statisztikai - szintaktikai

Részletesebben

Tartalomszolgáltatási Tájékoztató

Tartalomszolgáltatási Tájékoztató Gödöllői Agrárközpont (GAK) Közhasznú Társaság Informatikai Csoport Tartalomszolgáltatási Tájékoztató 2003 / II. Kiadás Gödöllő, 2003. július 1. 1. EU AGRÁRINFO WWW.EU-INFO.HU Az EU agrár jogi szabályozásának,

Részletesebben

Gépi tanulás a Rapidminer programmal. Stubendek Attila

Gépi tanulás a Rapidminer programmal. Stubendek Attila Gépi tanulás a Rapidminer programmal Stubendek Attila Rapidminer letöltése Google: download rapidminer Rendszer kiválasztása (iskolai gépeken Other Systems java) Kicsomagolás lib/rapidminer.jar elindítása

Részletesebben

Webanalitika a mindennapokban

Webanalitika a mindennapokban Webanalitika a mindennapokban NEEK konferencia 2015.02.19. www.gemius.hu Rólunk A Gemius világszerte Piaci igények széleskörű ismerete Nemzetközi háttér, folyamatos fejlesztés Innovatív üzleti megoldások

Részletesebben

BŐVÍTMÉNYEK TELEPÍTÉSE ÉS SZERKESZTÉSE WORDPRESS-BEN

BŐVÍTMÉNYEK TELEPÍTÉSE ÉS SZERKESZTÉSE WORDPRESS-BEN Mgr. Námesztovszki Zsolt BŐVÍTMÉNYEK TELEPÍTÉSE ÉS SZERKESZTÉSE WORDPRESS-BEN Eötvös Loránd Tudományegyetem, Pedagógiai és Pszichológiai Kar Oktatásinformatikai rendszerek - szöveggyűjtemény Budapest,

Részletesebben

KÉPZÉSI PROGRAM. GAZDASÁGI INFORMATIKUS OKJ azonosító: 54 481 02. Szolnok

KÉPZÉSI PROGRAM. GAZDASÁGI INFORMATIKUS OKJ azonosító: 54 481 02. Szolnok KÉPZÉSI PROGRAM GAZDASÁGI INFORMATIKUS OKJ azonosító: 54 481 02 Szolnok 2015 KÉPZÉSI PROGRAM A képzési program Megnevezése Gazdasági informatikus OKJ azonosító 54 481 02 A képzés során megszerezhető kompetenciák

Részletesebben

Email Marketing szolgáltatás tájékoztató

Email Marketing szolgáltatás tájékoztató Email Marketing szolgáltatás tájékoztató RENDESWEB Kft. Érvényes: 2013.03.01-től visszavonásig +3 20 A RENDES (273 337) Adószám: 12397202-2-42 Cégjegyzékszám: 01-09-7079 1. Minőség Nálunk legmagasabb prioritást

Részletesebben

TeIR. EUROSTAT adatlekérdező. (Használati útmutató) Budapest, 2005. május 19.

TeIR. EUROSTAT adatlekérdező. (Használati útmutató) Budapest, 2005. május 19. TeIR EUROSTAT adatlekérdező (Használati útmutató) Budapest, 2005. május 19. 2005. május 19. TeIR EUROSTAT adatlekérdező Használati útmutató 2/7 Tartalomjegyzék 1. AZ ESZKÖZ SZEREPE... 3 2. AZ EUROSTAT

Részletesebben

II. rész: a rendszer felülvizsgálati stratégia kidolgozását támogató funkciói. Tóth László, Lenkeyné Biró Gyöngyvér, Kuczogi László

II. rész: a rendszer felülvizsgálati stratégia kidolgozását támogató funkciói. Tóth László, Lenkeyné Biró Gyöngyvér, Kuczogi László A kockázat alapú felülvizsgálati és karbantartási stratégia alkalmazása a MOL Rt.-nél megvalósuló Statikus Készülékek Állapot-felügyeleti Rendszerének kialakításában II. rész: a rendszer felülvizsgálati

Részletesebben

FOLYAMATAUDIT JELENTÉS ELEKTRONIKUS VÁLTOZATA

FOLYAMATAUDIT JELENTÉS ELEKTRONIKUS VÁLTOZATA FOLYAMATAUDIT JELENTÉS ELEKTRONIKUS VÁLTOZATA 1.0 VERZIÓ A program alkalmazási környezete A program felépítése, tulajdonságai A program további tulajdonságai A program ára A program szállítása, telepítése

Részletesebben

EGYSZERŰSÍTJÜK AZ IRODAI MUNKÁT.

EGYSZERŰSÍTJÜK AZ IRODAI MUNKÁT. EGYSZERŰSÍTJÜK AZ IRODAI MUNKÁT. Az OfficeGuru segít a munkahelyi Excel felhasználóknak egyszerűbbé és gyorsabbá tenni a napi feladatokat azzal, hogy automatizálja a munka favágó részét. Így több idő marad

Részletesebben

TESZTKÉRDÉSEK. 2013 ECDL Online alapismeretek Szilágyi Róbert S.

TESZTKÉRDÉSEK. 2013 ECDL Online alapismeretek Szilágyi Róbert S. TESZTKÉRDÉSEK Mi az Internet? a) Az internet az egész világot körülölelő számítógép-hálózat. b) Egy olyan számítógépes hálózat, ami csak Magyarországon érhető el. c) Egy adott cég belső számítógépes hálózata.

Részletesebben

A webanalitika változó világa 4 felvonásban

A webanalitika változó világa 4 felvonásban A webanalitika változó világa 4 felvonásban Arató Bence, BI Consulting Email: arato@bi.hu, Twitter: @aratob Traffic Meetup, 2013.02.06 1 Bemutatkozás 15 éves szakmai tapasztalat az üzleti intelligencia

Részletesebben

GIS adatgyűjtés zseb PC-vel

GIS adatgyűjtés zseb PC-vel GIS adatgyűjtés zseb PC-vel Mit jelent a midas GIS kifejezés? Mapping Information Data Acquisition System Térképi Információ- és Adat Gyűjtő Rendszer Terepi adatgyűjtés a felhasználó által definiált adatbázisban.

Részletesebben

Vajda Éva. Keresőoptimalizált üzleti honlap

Vajda Éva. Keresőoptimalizált üzleti honlap Vajda Éva Keresőoptimalizált üzleti honlap Hagyományos és keresőmarketing Hagyományos marketing Csoportképzésen alapul Passzív befogadás Magas belépési korlát Konverzió alig mérhető Keresőmarketing Egyéni

Részletesebben

Példa webáruház kialakítás rendszerdokumentáció

Példa webáruház kialakítás rendszerdokumentáció Példa webáruház kialakítás rendszerdokumentáció DWAM Webáruház integrációja meglévő belső ERP rendszerhez. A webáruház valamennyi termékkel és megrendeléssel összefüggő adatát a belső rendszer (..) tárolja,

Részletesebben

Otthontérkép, segít a döntésben! 2012. április 25. 2012.04.25.

Otthontérkép, segít a döntésben! 2012. április 25. 2012.04.25. Otthontérkép, segít a döntésben! 2012. április 25. 1 Az FHB Otthontérkép már most további információkkal bővül! A 2012. április 16-án bemutatott Otthontérkép alkalmazás újabb statisztikai adatokkal került

Részletesebben

Közfoglalkoztatás támogatás megállapítását segítő segédtábla használati útmutatója

Közfoglalkoztatás támogatás megállapítását segítő segédtábla használati útmutatója Közfoglalkoztatás támogatás megállapítását segítő segédtábla használati útmutatója 1.) Általános tudnivalók: A segédtábla két méretben készül, 10, és 50 sort lehet kitölteni. A tábla megnevezéséből amit

Részletesebben

Kontrol kártyák használata a laboratóriumi gyakorlatban

Kontrol kártyák használata a laboratóriumi gyakorlatban Kontrol kártyák használata a laboratóriumi gyakorlatban Rikker Tamás tudományos igazgató WESSLING Közhasznú Nonprofit Kft. 2013. január 17. Kis történelem 1920-as években, a Bell Laboratórium telefonjainak

Részletesebben

Döntéselőkészítés. I. előadás. Döntéselőkészítés. Előadó: Dr. Égertné dr. Molnár Éva. Informatika Tanszék A 602 szoba

Döntéselőkészítés. I. előadás. Döntéselőkészítés. Előadó: Dr. Égertné dr. Molnár Éva. Informatika Tanszék A 602 szoba I. előadás Előadó: Dr. Égertné dr. Molnár Éva Informatika Tanszék A 602 szoba Tárggyal kapcsolatos anyagok megtalálhatók: http://www.sze.hu/~egertne Konzultációs idő: (páros tan. hét) csütörtök 10-11 30

Részletesebben

Nyelvfüggetlen tulajdonnév-felismerő rendszer, és alkalmazása különböző domainekre

Nyelvfüggetlen tulajdonnév-felismerő rendszer, és alkalmazása különböző domainekre Nyelvfüggetlen tulajdonnév-felismerő rendszer, és alkalmazása különböző domainekre Farkas Richárd 1, Szarvas György 1 1 Szegedi Tudományegyetem, Informatikai Tanszékcsoport 6720 Szeged, Árpád tér 2. {rfarkas,

Részletesebben

7. Gyakorlat A relációs adatmodell műveleti része

7. Gyakorlat A relációs adatmodell műveleti része 7. Gyakorlat A relációs adatmodell műveleti része Relációs algebra: az operandusok és az eredmények relációk; azaz a relációs algebra műveletei zártak a relációk halmazára Műveletei: Egy operandusú Két

Részletesebben

------------------- --------------------

------------------- -------------------- A Járók Társasága bemutatja a KiallitasAjanlo.hu szolgáltatását helyszíneknek Ügyfélkapu Portál Kortársak egymás közt Programajánló Bizonyára Önnel is előfordult már, hogy a sajtónak küldött bejelentések,

Részletesebben