Az Oracle Text további lehetőségei



Hasonló dokumentumok
5. téma XML DB. Az adatkezelés és XML kapcsolata. Miért fontos az XML használata az adatbázis kezelésben?

SQL*Plus. Felhasználók: SYS: rendszergazda SCOTT: demonstrációs adatbázis, táblái: EMP (dolgozó), DEPT (osztály) "közönséges" felhasználók

Adatbázis Rendszerek II. 5. PLSQL Csomagok 16/1B IT MAN

Adatbázis kezelés Delphiben. SQL lekérdezések

Adatbázis Rendszerek I. 10. SQL alapok (DML esettanulmány)

Adatbázis Rendszerek II. 8. Gyakorló környezet

Bevezetés: az SQL-be

SQL haladó. Külső összekapcsolások, Csoportosítás/Összesítés, Beszúrás/Törlés/Módosítás, Táblák létrehozása/kulcs megszorítások

SQL. 1.rész. 1.elıadás // Adatbázisok-1 elıadás // Ullman-Widom (Stanford) tananyaga alapján // Hajas Csilla (ELTE IK) 1

Adatbázis tartalmának módosítása

Adatbázisok elmélete 9. előadás

LBRA6i integrált rendszer

Az SQL adatbázisnyelv: DML

Tartalomjegyzék. Tartalomjegyzék 1. Az SQL nyelv 1 Az SQL DDL alapjai 2

Az SQL*Plus használata

SQLServer. Particionálás

Bevezetés az SQL-be. Tankönyv: Ullman-Widom: Adatbázisrendszerek Alapvetés Második, átdolgozott kiadás, Panem, 2009

Adatbázis másolás Slony-I segítségével

SQL jogosultság-kezelés. Privilégiumok Grant és Revoke Grant Diagrammok

Spatial a gyakorlatban

DAT adatcserefájl AutoCAD MAP DWG mapobject konvertáló program dokumentáció

Nézetek és indexek. AB1_06C_Nézetek_Indexek - Adatbázisok-1 EA (Hajas Csilla, ELTE IK) - J.D. Ullman elıadásai alapján

Adatbázis rendszerek SQL nyomkövetés

Az indexelés újdonságai Oracle Database 12c R1 és 12c R2

OO PDO. Tehát PDO használatával, könnyen átállhatunk egy másik adatbáziskezelőre, anélkül hogy a kódot teljes egészében újraírnánk.

Területi elemzések. Budapest, április

A gyakorlat során MySQL adatbázis szerver és a böngészőben futó phpmyadmin használata javasolt. A gyakorlat során a következőket fogjuk gyakorolni:

Adatbázisok I. Definíció: DDL: - objektum létrehozás CREATE - objektum megszüntetés DROP - objektum módosítás ALTER

Adatbázis-kezelés. Harmadik előadás

Adatbázis Rendszerek II. 2. Ea: Gyakorló környezet

8. Gyakorlat SQL. DDL (Data Definition Language) adatdefiníciós nyelv utasításai:

Csomag. Adatbázis-objektum Programozási eszközök gyűjteménye Két részből áll. specifikáció törzs (opcionális)

Java és web programozás

Vizuális programozás gyakorlat

SQLServer. DB Recovery modes

ORACLE. SYS: rendszergazda SCOTT: demonstrációs adatbázis, táblái: EMP (dolgozó), DEPT (osztály) "közönséges" felhasználók

B I T M A N B I v: T M A N

Adatbázisok. 8. gyakorlat. SQL: CREATE TABLE, aktualizálás (INSERT, UPDATE, DELETE), SELECT október október 26. Adatbázisok 1 / 17

Indexek és SQL hangolás

KERESÉS A NETEN DR. KÓNYA LÁSZLÓ: KERESÉS A NETEN KERESÉS MÓDSZERE, KERESŐPROGRAMOK

ALAPOK. 0 és 255 közé eső számértékek tárolására. Számértékek, például távolságok, pontszámok, darabszámok.

Adatbázis Rendszerek II. 2. Gyakorló környezet

Készítette: Szabóné Nacsa Rozália

ADATBÁZIS-KEZELÉS FÉLÉVES FELADAT

MS ACCESS 2010 ADATBÁZIS-KEZELÉS ELMÉLET SZE INFORMATIKAI KÉPZÉS 1

Táblakezelés: Open SQL Internal table. Tarcsi Ádám: Az SAP programozása 1.

Kézikönyv. Szelekciós jegyzék 2.

Vektoros grafikát tároló adatbázisok. Katona Endre Térképi adatbázisok diasorozata alapján

3. Ezután a jobb oldali képernyő részen megjelenik az adatbázistábla, melynek először a rövid nevét adjuk meg, pl.: demo_tabla

Választó lekérdezés létrehozása

Kilencedik témakör: Lazarus-Firebird. Készítette: Dr. Kotsis Domokos

ADATBÁZIS RENDSZEREK I BEADANDÓ

Tranzakciókezelés PL/SQL-ben

Webfejlesztés 4. alkalom

Adatbázisok II. Jánosi-Rancz Katalin Tünde 327A

Az SQL nyelv Structured Query Language (Struktúrált lekérdező nyelv)

Fájlszervezés. Adatbázisok tervezése, megvalósítása és menedzselése

NightHawk AccessControl

KÖNYVTÁRI KATALÓGUS HASZNÁLATI ÚTMUTATÓ

Java és web programozás

Építésügyi Monitoring Rendszer (ÉMO) komplex működését biztosító településrendezési tervek digitalizálása EKOP /B kiemelt projekt megvalósítása

FordEcat Gyors útmutató

ADATBÁZIS-KEZELÉS - BEVEZETŐ - Tarcsi Ádám, ade@inf.elte.hu

Adatbázis Rendszerek II. 3. SQL alapok

Szathmáry László Debreceni Egyetem Informatikai Kar

SQL ALAPOK. Bevezetés A MYSQL szintaxisa Táblák, adatok kezelésének alapjai

AB1 ZH mintafeladatok. 6. Minősítse az állításokat! I-igaz, H-hamis

PHP-MySQL. Adatbázisok gyakorlat

Informatikai képzés Információs rendszerek dr. Hajas Csilla (ELTE IK)

ELTE SAP Excellence Center Oktatóanyag 1

Adatbázisok. 9. gyakorlat SQL: SELECT október október 26. Adatbázisok 1 / 14

Gyakorlás: Hozzunk létre egy Alkalmazottak táblát AZO szám, Részleg szöveg, Munkakör szöveg és BelépésDátuma dátum típussal.

Adatbázisok elmélete 9. előadás

Adatbázis használat I. 5. gyakorlat

Pick Pack Pont kereső és boltválasztó alkalmazás

KIEMELT MEGJELENÉSEK CÉGEKNEK (ÉVES / FÉLÉVES)

3. modul - Szövegszerkesztés

Adatbázis Rendszerek I. 9. SQL alapok (DDL esettanulmány)

Adatbázisok-1 előadás Előadó: dr. Hajas Csilla

Kézikönyv. Szelekciós operátorok használata

Boros Andrea és Ignéczi Lilla Neumann-ház, Budapest. Networkshop 2004 konferencia Győr, április 4 7.

SQLServer. SQLServer konfigurációk

Adatmodellezés. 1. Fogalmi modell

Oracle Spatial. Térbeli adatot tartalmazó tábla: Geometry table Legalább 2 oszlopa van: Elsődleges kulcs, SDO_GEOMETRY típusú oszlop.

SZAKIN program használati útmutató: A megjelenő képernyő baloldalán találjuk a választó mezőt, a jobboldali részen a

Adatbázisok elleni fenyegetések rendszerezése. Fleiner Rita BMF/NIK Robothadviselés 2009

Az ErdaGIS térinformatikai keretrendszer

Adatkeresés az interneten. Cicer Norbert 12/K.

Objektum-relációs adatbázisok. Felhasználói típusok (User-Defined Types) Objektum ID-k Beágyazott táblák (Nested Tables)

Célkitűzések Az Oracle10 g felépítésének, használatának alapszíntű megismerése

Adatbázis rendszerek tervezése

A trigger egy aktualizálási művelet esetén végrehajtandó programrészletet definiál. Alakja:

SQL PÉLDATÁR. készült a PTE TTK Iskolai informatika III. kurzus teljesítésére

Adatbázisok elmélete 10. előadás

SQL DDL-1: táblák és megszorítások

Felhasználói kézikönyv

A fájlkezelés alapjai

Leolvasói rendszer kialakításának koncepciója ipari mobil eszközökkel (ipari PDA-val)

Több tábla összekapcsolásán alapuló lekérdezések. Copyright 2004, Oracle. All rights reserved.

Jelnyelvi szótár használati útmutató

Átírás:

Az Oracle Text további lehetőségei Szekció szerinti keresés Amint a könyvben már említettük, az Oracle Textben lehetőség van a keresést a dokumentum valamely meghatározott szekciójára (SECTION) korlátozni. A rendszer több különböző szekcióhatár-értelmezést támogat, ebből a felhasználónak kell a megfelelő értelmezést kiválasztania. A szekcióhatárt a szekciócsoport típusa határozza meg, amelyek az alábbiak lehetnek: null_section_group: csak mondat vagy bekezdés szekciók lesznek; basic_section_group: a szekció határokat az <A> és </A> tagok határolják; html_section_group: HTML-forrásban értelmezett szekciók; xml_section_group: XML-forrásban értelmezett szekciók; auto_section_group: XML-ben automatikus szekció kijelölés; news_section_group: NEWSML-ben értelmezett határolás. A szekciócsoporton belül több különböző szerepű szekciót lehet értelmezni, melyek az alábbiak: normálzóna (zone); mező (field); végjel (stop); metaadat (mdata); attribútum (attribute); speciális szekciók mint pl. mondat, bekezdés (sentence, paragraph). A normálzóna-szekciók rendszerint a szöveg törzsét jelentik. A határoló elemeket a CTX_DDL csomag ADD_ZONE_SECTION eljárásával definiálhatjuk. Mezőszekciókat az ADD_FIELD_SECTION eljárással hozhatunk létre. Ezek hasonlóak a zónaszekciókhoz, azonban itt a kiemelt fontosságú adatokra fókuszálunk: a szekcióba eső részeket a rendszer külön indexeli, és ezen adatokhoz gyorsabb hozzáférést biztosít. Hátránya, hogy ez a szekciótípus nem ágyazható egymásba, és ilyen szekciók nem lehetnek átlapolóak. Automatikus szekciócsoportok esetén végjelszekcióval tudunk egyes részeket kivonni az indexelés hatálya alól. A metaadat-szekcióba a normáladatokhoz tartozó leíró-információkat helyezhetjük le. Ezáltal egyazon lekérdezési operátorban szerepelhet az adat és leírója. A szekciókra történő szűkítésnél a WITHIN taggal lehet a vizsgálandó szekciót kijelölni. 1

2 Szövegbányászat online melléklet Tezaurusz alapú keresés A dokumentumokból történő keresés során a kulcsszavas keresés hátránya az, hogy a felhasználó nem ismeri a dokumentumok pontos szókészletét, így előfordulhat, hogy nem a keresett szó, hanem annak valamely rokon értelmű kifejezése szerepel a dokumentumokban. Ekkor a standard keresés sikertelen lesz, mivel a kereső rendszer nem talál illeszkedő dokumentumot. Ezt a problémát a tezaurusszal támogatott kereséssel lehet kiküszöbölni. A tezaurusz (fogalomtár) kezelése a CTX_THES csomag segítségével történik. A csomag tartalmazza a hierarchia felépítéséhez, ill. módosításához szükséges eljárásokat. Fontosabb elemei: tezaurusz létrehozása: CREATE_THESAURUS; új bejegyzés felvitele: CREATE_PHRASE(tezaurusz, fogalom); kapcsolat létesítése az elemek között: CREATE_RELATION(tezaurusz, forrásfogalom, kapcsolat, célfogalom), ahol a kapcsolat típusa lehet: NT: specializáció, BT: általánosítás, RT: reláció, SYN: szinonima, Nyelv: fordítás; elemek, kapcsolatok megszüntetése: DROP_PHRASE, DROP_RELATION, DROP_THESAURUS; információlekérdezés, melynek elemei: BT(fogalom, szint, tezaurusz): a fogalom megadott szintű általánosításait adja vissza, TT(fogalom, tezaurusz): a fogalom gyökér fogalmait adja vissza NT(fogalom, szint, tezaurusz): a fogalom megadott szintű specializációit adja vissza SYN(fogalom, tezaurusz): a fogalom szinonimáit adja vissza. Grafikus megjelenítés A felhasználóknak az eredmény vizuális megjelenítése gyakran többet mond, mint a puszta szöveg, ezért igen hasznos kiegészítő szolgáltatása az Oracle Text rendszerének a grafikus eredmény megjelenítését végző komponens. Az adatok grafikus megjelenítését CSS és Java programok végzik. A dokumentum témaköreit leíró THEMES rutin alapesetben egy listát ad eredményül, melyben a kulcsszavak relevanciaértékükkel együtt szerepelnek. Ebből

3 a listából készít egy tématérképet a CSS-ben implementált ThemeMap modul. A megjelenítésnél a legfontosabb kulcsszavak a térkép közepén, nagyobb betűvel jelennek meg. Egy adott szó kiválasztása után egy részletesebb leírás jelenik meg. Hasonló megjelenítési célt szolgál az Oracle Interactive Viewer modul is, melyben Java csomag fogja össze a különböző megjelenítő rutinokat. Az Interactive Viewer modul Java futtató környezet mellett használható. A csomag ThemeStar appletje az előzőben említett témakörlistát csillag alakú elrendezésben illusztrálja. A legfontosabb fogalmak ennél a megjelenítési módnál is nagyobb betűvel íródnak ki és a középponttól balra helyezkednek el (ld. 1. ábra). Ez a módszer akkor előnyös, amikor viszonylag kisebb számú kulcsszó található az eredményben. A következő ábra ezt a megjelenítési módot illusztrálja. hypersensitivity pneumonitis inducement drugs lungs disease pulmonary occurre nces antigens INFILTRATIVE interstital cells cause diagnoses symptoms biopsoses exposure pathology inclusion change progression diffusion 1. ábra. Oracle Text ThemeStar megjelenítési mód A hierarchikus adatok megjelenítéséhez ad segítséget a SearchViewer Java modul. A megjelenítő képernyőn együtt látszik a hierarchia globális nézete és az éppen kijelölt rész részletes tartalma. Az Oracle Text az angol nyelvű téma alapú kereséshez egy beépített témahierarchiát, alaptezauruszt is tartalmaz. A témakörök kijelölése igen nehéz feladat, hiszen sok szubjektív elemet tartalmaznak, és maga a témaszótár, ill. a témakörök időben dinamikusan változnak.

4 Szövegbányászat online melléklet Mintapélda A szövegkezelés jellegét egy egyszerűbb mintapéldával szemléltetjük. A feladat egy rugalmas, tezauruszon alapuló keresési módszer megvalósítása. A mintapélda működésének előfeltétele, hogy a CTXSYS-felhasználó már létezzen az adatbázisban a hozzá kapcsolódó jogokkal és adminisztrációs táblákkal együtt. Ha az Oracle Text rendszere már működik, akkor az alkalmazás felépítése a következő lépésekből áll össze. 1. Elsőként létrehozzuk a dokumentumokat tartalmazó táblát: CREATE TABLE doksik (kod NUMBER PRIMARY KEY, szoveg VARCHAR2(200)); 2. Ezután megalkotjuk a táblához tartozó speciális indexet. Mivel most a szövegkeresést kívánjuk bemutatni, egy CONTEXT típusú indexre van szükség: CREATE INDEX idx_docs ON doksik(szoveg) INDEXTYPE IS CTXSYS.CONTEXT; 3. Ezután következhet a dokumentumtábla feltöltése adatokkal: INSERT INTO doksik VALUES(1, I have a nice dog ); A dokumentumtábla tartalmának módosítása után el kell végezni a kapcsolódó index frissítését is: EXEC CTX_DDL.SYNC_INDEX( idx_docs, 2M ); 4. Az index aktualizálása után a szövegkeresési alapfunkciók már használhatók. Például, a dog szót tartalmazó dokumentumok listája a SELECT szoveg FROM doksik WHERE CONTAINS(szoveg, dog ) > 0; paranccsal kérdezhető le. Ha a dokumentum illeszkedési súlyát is tudni szeretnénk, akkor a SCORE értéket is ki kell iratni: SELECT szoveg, SCORE(1) FROM doksik WHERE CONTAINS(szoveg, dog,1) > 0; 5. A következő lépésben egy tezauruszt hozunk létre. Ehhez előbb megalkotjuk a témaorientált indexelést beállító paramétert: BEGIN CTX_DDL.CREATE_PREFERENCE( mylex, BASIC_LEXER ); CTX_DDL.SET_ATTRIBUTE( mylex, INDEX_THEMES, YES ); END; Az eljárás lefuttatásával létrejött a mylex Lexer leíró objektum. Ezt adjuk most át az indexünknek: ALTER INDEX idx_docs REBUILD PARAMETERS( REPLACE LEXER mylex );

6. A tezaurusz létrehozását is több lépésben valósítjuk meg. Elsőként egy üres tezauruszt állítunk elő: EXEC CTX_THES.CREATE_THESAURUS( sajattz,false); 7. Ezután egyenként feltöltjük előbb a fogalmakkal: EXEC CTX_THES.CREATE_PHRASE( sajattz, animal ); 8. Majd a fogalmak feltöltése után megadjuk a köztük értelmezett kapcsolatokat: EXEC CTX_THES.CREATE_RELATION( sajattz, dog, BT, animal ); Az előző paranccsal azt adtuk meg, hogy a dog fogalomnak egy kibővítése, általánosítása az animal fogalom. A szinonimák megadása is hasonló módon végezhető el: EXEC CTX_THES.CREATE_RELATION( sajattz, dog, SYN, pet ); 9. Az elkészült tezaurusz tartalmát szöveges állományba exportálhatjuk a CTXLOAD -USER nev/pwd -THESDUMP -NAME sajattz -FILE ki.txt operációs rendszerbeli paranccsal. A tezauruszon alapuló keresésre lehet példa az animal fogalom specializációit tartalmazó dokumentumok lekérdezése: SELECT szoveg FROM doksik WHERE CONTAINS(szoveg, NT(ANIMAL,3,SAJATTZ) ) > 0; illetve a dog és a vele szinonim szavakat tartalmazó dokumentumokat visszaadó lekérdezés: SELECT szoveg FROM doksik WHERE CONTAINS(szoveg, SYN(DOG,SAJATTZ) ) > 0; A mintapéldában angol szavak szerepeltek, mivel a rendszer nem rendelkezik a magyar nyelvtan szabályait figyelembe vevő szóillesztési mechanizmussal. 5