INTERAKTÍV TARTALOM ALAPÚ IRODALOMKUTATÁS KERESÉS, SKICC ALAPJÁN KÉSZÍTETTE: POZSEGOVICS PÉTER SZÁNTÓ BALÁZS ÓBUDAI EGYETEM

Átírás

1 INTERAKTÍV TARTALOM ALAPÚ KERESÉS, SKICC ALAPJÁN IRODALOMKUTATÁS KÉSZÍTETTE: POZSEGOVICS PÉTER SZÁNTÓ BALÁZS ÓBUDAI EGYETEM NEUMANN JÁNOS INFORMATIKAI KAR INFORMATIKAI AUTOMATIZÁLT RENDSZEREK 2010

2 1 Tartalomjegyzék 1 TARTALOMJEGYZÉK ABSZTRAKT BEVEZETÉS ALAPFOGALMAK KÉPFELDOLGOZÁS KÉPEK SZEGMENTÁLÁSA TARTALOM LEÍRÁSA A JELLEMZŐ VEKTOR AZ ÉLHISZTOGRAM LEÍRÓ A SIFT LEÍRÓ TALÁLATOK RENDSZEREZÉSE SZÍNHISZTOGRAM ALAPJÁN OSZTÁLYOZÁS KIHÍVÁSAI AZ SVM OSZTÁLYOZÓ ARCHITEKTÚRÁLIS KÉRDÉSEK SAJÁT RENDSZERÜNK HASONLÓ RENDSZEREK PHOTOSKETCH PHOTOBOOK VIRAGE ENGINE OF THE ALTAVISTA PICTURE FINDER RENDSZERTERV ÉRTÉKELÉS ÖSSZEFOGLALÁS IRODALOMJEGYZÉK:

3 2 Absztrakt A tartalom alapú keresés, nagyon gyorsan, sőt hirtelen jelent meg a tudományos világban. Ezt a fejlődést lehetővé tette/teszi az internet elérhetősége, az egyre olcsóbb háttértárolók, és legfőképp a felhasználók igénye az ilyen jellegű rendszerekre. A téma egy részterülete a skicc alapú tartalom visszakeresés. Jelen dokumentum célja a skicc alapú tartalom keresés felépítésének, módszereinek elemzése, összehasonlítása, illetve általános tartalom alapú ismeretek bemutatása. Kulcsszavak: content based image retrieval, sketch based image retrieval, shape matching, image databases, image indexing, similarity retrieval, spatial query, edge histogram descriptor 3

4 3 Bevezetés Az idők folyamán bebizonyosodott, hogy a csoportosítás a fejlődés egyik kulcsa. Amikor a feldolgozandó tér már meghaladta az emberi felfogás teljesítőképességét, elkezdtek gépeket építeni, hogy gyorsítsák a feldolgozást. Évtizedek óta a szöveges információ tartalmat kategorizálják, és elérhetővé teszik könyvtárak formájában, ahol dinamikusan tudunk keresni könyvek, folyóiratok és számos nem csak szöveges alapú információ után. Azonban, ha a képekre kerül a sor, fel kell adni a rugalmas, dinamikus keresést. Jelenleg sajnos nincsenek széles körben elérhető képi tartalom alapú kereső rendszerek. Miért lehet ez? Az egyik ok lehet talán, hogy a szöveg, egy közvetlen ember általi absztrakció. Könnyebb egyedi, de mégis jól azonosítható tulajdonságokkal felruházni egy szöveget. A képeknél pont az óriási információ tartalom és ennek a feldolgozása okozza a problémát. A feldolgozandó tér óriási. Érezzük, hogy szükség van olyan közösségekre, csoportokra, befektetőkre, melyek ambiciózus munkája által áttörést lehetne elérni a témában. Jó példa erre a Google, vagy a Yahoo sikersztorija. A tartalom alapú kereső rendszerekkel kapcsolatos kutatások száma az utóbbi évtizedben jelentősen nőtt, ahogy az 1. ábra is mutatja. Számos innovatív publikáció, megvalósított rendszer látott napvilágot, azonban az áttörés még várat magára, algoritmikus mód még nem létezik ennek a problémának a feloldására. Azonban az általános alapelvek meglétével, ma már a kutatás a mélyebb problématerületek felé evez, mely a gépi látás, az információ visszakeresés és az adatbázis elméletből születtek. Ezen terület talán legfőbb mozgató ereje az internet lehet. Az elérhető képek száma drámai növekedést mutat, mondhatjuk azt, hogy exponenciális ütemben nő, amely megköveteli a hatékony indexelő, és kereső eljárások használatát a digitális archívumoknál. Mindemellett a háttértárolók mérete, és az adatok feldolgozási sebessége egyre nő, az informatikai rendszerek ára egyre csökken. Ez a két fő mozgató erő viheti előre ezt a még gyerek cipőben járó kutatási területet. 1. ábra - Az 1995 és 2004 között a Goggle tudós oldalán indexelt publikációk számának változása. A publikációk száma normalizált. A kékkel jelölt függvény fejezi ki a képi visszakeresés címszóval indexelt publikációkat, pirossal jelölt függvény pedig a jellemző vektor címszóval megjelölt publikációkat. 4

5 4 Alapfogalmak Először is fontos felállítani egy fogalomrendszert, egy csoportosítást, amely rendszerünket valamilyen kategóriába sorolja. Lényegében ez nem képzi szerves részét a rendszerének, de nagyon fontos megemlíteni, mivel a különféle kategóriák, különféle módszereket kívánnak meg. A feladat pontos kategorizálása alapja a sikeres megvalósításnak. A szakirodalom [1] a felhasználók alapján a tartalom alapú keresési rendszereket három jól azonosítható csoportba sorolja be. Persze ez a három csoportosítás nem kőbevésett szabály, lehet más kritériumok alapján is osztályozni a felhasználókat. Asszociatív keresés, célzott keresés, kategóriák szerinti keresés. Ezen fogalmakat a szakirodalom rendre a következőképp említi: search by association, aims the search, category search. Az asszociatív keresési stílusú rendszereknél főleg, óriási méretű, különböző osztályokra bontható képek halmazáról beszélhetünk. A keresés kezdetén általában még nincs kifejezett célunk a kereséssel kapcsolatban, csak elindulunk egy irányban. Így a keresés általában iteratívvá válik, tehát több lépés szükséges ahhoz, hogy eljussunk egy végállapotba. Meg kell említeni, hogy e csoporthoz sorolható rendszerek nagymértékben interaktívak, ahol például a specifikáció lehet egy skicc. A találatokat, és magát a rendszert manipulálhatjuk felhasználói visszacsatolással, amelyben a találatok jóságát véleményezi a felhasználó [2]. Ez a terület tér el leginkább a hagyományos értelemben megszokott gépi látástól. A célzott keresés esetén egy pontos kép alakul ki a felhasználóba, hogy mit keresünk. Esetleg rendelkezünk egy képpel, és ezen a képen lévő objektumokat keressük más képeken. Ezt szokás példa szerinti keresésnek is nevezni [1]. Ezek a rendszerek főleg bélyegek, művészeti tárgyak, gyári komponensekhez, katalógusokhoz illenek legjobban. Főleg a mintaegyezés keresésen alapul. A kategóriák szerinti kereséskor rendelkezünk egy képpel, mely adott képek osztályát reprezentálja, például egy márkajelzést tartalmaz a kép. A kategóriák ilyenkor származtathatóak az adatbázisban tárolt képek címkéivel. Egy címke meghatároz egyfajta besorolást, egy klasztert. Az ilyen rendszerek gyakran használják márkatermékek keresésére, nyilvántartására. Jellemző itt is az interaktivitás. Főleg objektumdetektáló és a statisztikai minta felismerő metódusok képzik a visszakeresés alapját [1]. A következőben a különböző képtartományokról lesz szó. Képtartományként definiálhatjuk azt a környezetet, amely az adott feladattal kapcsolatban érdekel minket egy kép esetében. Két fő részt különböztethetünk meg. Az egyik a szűk tartomány (narrow domain), a másik a széles tartomány (broad domain) [1]. Egy a szűk képtartományba elhelyezhető kép estén nem beszélhetünk változatosságról. A felvétel körülményei általában megegyezik az egész képtartományra vetítve. Jellemző a fehér megvilágítás, és a frontális nézet. Ilyen képeknél a jellemzők leírása általában jól definiált. Jó példaként említhető egy olyan adatbázis, ahol embereket fényképezték szemből, tiszta hátérrel és egyenletes megvilágítással. A széles tartomány pont ellenkezője a szűk tartománynak, itt a kép megvilágítása, tartalma sokszínű, a képen elhelyezkedő objektumok változatosak. Az elérhető legszélesebb környezetként, tartományként talán az internetet említhetjük meg. 5

6 Az képtartományokkal kapcsolatban mindig sok probléma merül fel. Mindig át kell gondolni, hogy milyen kritériumok alapján válasszuk ki a képekből a jellemzőket, hogy tervezzük meg magát a rendszer egészét. Például egy széles tartomány esetében a tényleges jellemzők és annak leírása között elég nagy a különbség, jó példa erre a kép színének elemzése egyenletlen megvilágításnál. Oda kell figyelni egy kép színeire, hogy az a kép tulajdonságaiból, vagy a megvilágításból fakad-e. Éldetektálás esetén is meg kell viszgálnunk, hogy egy él valódi-e, vagy csak egy erősebb árnyék miatt gondolhatja azt a feldolgozó algoritmus, hogy az él. Láthatjuk, hogy a származtatott információ és a tényleges tartalom között kialakulhat egy szakadék. Vizuális keresés esetén fontos ennek a szakadéknak a méretét csillapítani, minimálisra redukálni. Egy lehetséges módszer, hogyha a jellemzők kinyerését több lépésre bontjuk. Először az egyszerű tulajdonságokat viszgáljuk meg, mint például a kép színe, majd egyre komplexebb szempontok irányába keresünk és nyerünk ki információkat. 5 Képfeldolgozás Az első lépés tehát a képfeldolgozó operációk, rutinok használata, hogy képi adatot átalakítsuk jellemzőket tartalmazó vektorokra, tömbökre. A jellemzők előállítása előtt mindenképp végezzünk el egy előfeldolgozási lépést, annak érdekében, hogy a kép egyenletlen megvilágításából, a képi zajokból adódó problémákat kiküszöböljük. Lásd 12. fejezet. Három szemszögből is megközelíthetjük a jellemző előállítást. A képet alkotó színek felől, a kép alakja felől, és a kép textúrája felől. Mi a kép színeit, éleit, és az éleinek futását fogjuk megvizsgálni. A színekre, pontosabban a színhisztogramra azért lesz szükség mivel az adatbázisunkat osztályozni fogjuk a színhisztogramjuk alapján. Az alakok, élek keresése, futásának vizsgálata pedig magánál a visszakeresés folyamatánál fog fontos szerepet játszani (lásd 7. és 8. fejezet). Ezek mellett el kell döntenünk, hogy szegmentálni kell-e a képünket. Lehet, hogy számunkra fontos információk mint a objektumokat alkotó élek kép egyes régióiban helyezkednek el. Ha a globális tulajdonságok alapján keresnénk megoldást, akkor könnyen előfordulhat, hogy az irreleváns adatokat tartalmazó régiók úgymond elnyomják a számunkra releváns adatokat tartalmazó régiókat, így nem lesz sikeres a visszakeresés. Szóval ilyen esetekben a képet fel kell bontani régiókra. Fontos kérdés az, hogy létezik-e olyan módszer, amely segítségével elkerülhető a számításigényes szegmentálás. A 7. fejezetben megválaszoljuk a most nyitva hagyott kérdést. 6 Képek szegmentálása Amennyiben szegmentálunk, a képeket többféleképpen érdemes felosztani, különböző felosztásokat és módszereket érdemes figyelembe venni, hogy minél több hasznos információt kinyerhessünk a képünkből. Meghatározhatjuk a szegmentálás szintjeit. Ha egy objektumot keresünk, akkor érdemes végrehajtani a teljes szegmentálást, azonban a mi feladatunk esetében, illetve általánosságban a széles képtartomány esetében nem fog jól működni, lásd 3. fejezet. 6

7 7 Tartalom leírása A jellemző vektor A következőkben a jellemző vektorokról, leírókról fogunk beszélni. Magát a jellemzőket két részre oszthatjuk, mint globális jellemző és mind lokális jellemző. Nyílván a globális jellemző, a lokális egyik speciális este, amikor az egész képet egy régiónak tekintjük. Megkülönböztethetünk szín jellemzőket, objektum jellemzőket, alak jellemzőket, textúra jellemzőket, elrendezésbeli jellemzőket. Létrehozhatunk olyan jellemző vektorokat, melyek a jellemző leíróra nézve többdimenziósak, így sokféle információt tartalmaznak, azonban, így a feladat komplexitása is nőni fog. Egydimenzió esetén már ismerünk számos gyors, és hatékony kereső algoritmust, mely működésének meghatározása magasabb dimenzószámnál bonyolult feladat. Azonban az is megoldásnak tekinthető, hogy minden képhez több szempontból készítek jellemző vektort, így nem a dimenziók számát növeljük, hanem a vektorok számát, és így csak súlyozni kell azt, hogy az egyes vektorok, milyen mértékben írják le a képet. 2. ábra - A képi tartalom kinyerésének sémája [3]. 7

8 A következő lépés az egyes jellemző-ök alapján egy szignatúrát előállítani (lásd 2. ábra). Vizsgáljuk meg, hogy a lokális jellemző vektorokból, hogyan állítunk elő szignatúrát. Súlyozott összeget fogunk használni ilyen esetben, azonban felmerül egyből a kérdés, hogy milyen súlyokkal dolgozzunk. Ez esetben mérlegelnünk kell, figyelembe kell venni, hogy a feladat melyik jellemzőt részesíti előnyben. Ahonnan számunkra releváns adat nyerhető ki (a feladat szempontjából fontos), azt nagyon súllyal vesszük figyelembe. A következő talán a legnehezebb lépés, a távolság meghatározása szignatúra között, ami jellemző vektorok kombinációja. Jelöljük a hasonlóságot két aláírás között S betűvel akkor S=s (F q, Fd), ahol s egy általunk értelmezett távolságfüggvény, F q és F d pedig az álírás, bár akár ezt is nevezhetnénk jellemzőnek. Többféle távolságfüggvény függvényt szoktak használni, többek között az Euklideszi távolsággal és Manhattan távolsággal számolnak. Érdemes elgondolkodni azon, hogy milyen távolságkritérium alapján számolunk, mivel az befolyásolja a számítási igényt is. 7.1 Az élhisztogram leíró A szövegekkel ellentétben a hang- és mozgókép-tartalmakat még nem lehet automatikusan katalógusba rendezni. Az multimédia-tartalmakra sokáig nem létezett általános leíró formátum. Ezt az űrt az 1996-ban létrehozott MPEG-7 [4+ szabvány hivatott betölteni. Az MPEG-et kifejezetten multimédiás tartalmak leírására fejlesztették ki. Az ISO/IEC szabvány teljes neve: Multimédia tartalom leíró interfész. A szabvány 10 részből áll, külön részekben vannak definiálva például a rendszereszközök, a leírás definíciós nyelv, a vizuális, az audió és a multimédia leírások és leírási sémák. Térjünk rá az MPEG-7 fő elemeire [5]. A leírók definiálják az egyes tulajdonságok (metaadat elemek, D) szintaxisát és szemantikáját. A leírási sémák (description schemes) az elemek (amelyek lehetnek leírók vagy leírási sémák is, DS) kapcsolatainak szerkezetét és szemantikáját írja le. Leírás definíciós nyelv (description definition language) a leírók és leírási sémák szintaxisát definiálja, valamint új leírók és leírási sémák definiálhatók segítségével. A rendszereszközök segítségével (system tools) az MPEG leírások binárisan kódolt reprezentációját állíthatjuk velük elő a hatékony tárolás vagy továbbítás céljából. A 3. ábrán látható ahogy a leírók leírási sémákba rendeződnek, mindezek szintaxisát és szemantikáját a definíciós nyelv adja meg, amely a bővítés lehetőségeit is tartalmazza. A konkrét példányosodás során címkézett (XML) leírások készülnek, amelyek a szállítás és tárolás számára bináris reprezentációba alakíthatóak. Elérhetők nyílt forráskodú osztály könyvtárak, például a Joanneum Research által C++ nyelven fejlesztett MP7 JRS osztálykönyvtár (A fejlesztésnél többek között a Microsoft Visual C++ Compiler.NET 2003/2005/2008 at is felhasználták). Az osztálykönyvtár segítségével hatékonyan tudjuk létrehozni, manipulálni és szerializálni a vizuális információ tartalmat az MPEG szabvány szerint. Mind az osztálykönyvtár, mind a dokumentáció ingyenesen letölthető és felhasználható. 8

9 3. ábra - MPEG-7 fő elemei és kapcsolatuk [5]. Az MPEG leírói között, a textúra leíróknál megtaláljuk az az él hisztogram leírót (Edge Histogram Descriptor). Következőkben ezt fogjuk felhasználni. Ez azonban nem egy program, hanem egy interfész, egy leírás, melyet nekünk kell megvalósítani. Először is szögezzük le, hogy nincs szükségünk szegmentálásra. Ennek három fő oka van. Mivel az adatbázisunk képeit a világhálóról gyűjtjük majd be, így jellemző lesz a képekre az extrém fokú diverzitás. Másodszor a képek minősége viszonylag nagy határok között mozog. Tehát a szegmentálás nem biztos, hogy konzisztens eredményt adna vissza. Ezeken felül a képek számát is figyelembe kell vennünk. A szegmentálás számítási teljesítményben mérve jelentős növekedést jelentene. Az élhisztogram leíró a képen található lokális éleknek egy felbontása [4]. Első lépésben osszuk fel a képet 4x4-es méretű alképekre. Az egyes alrészek reprezentálják a lokális élfelbontást. A hisztogrammok generálása érdekében az alképen található éleket öt osztályba soroljuk, mégpedig: vertikális, horizontális, 45 -os diagonális, 135 -os diagonális, és konkrét iránnyal nem rendelkező irányú élek csoportjába. Mivel a képünk tizenhat alképből áll, melyeknél az élek öt állapotba kerülhetnek, így 5*16=80 hisztogram vödörre lesz szükségünk. Hogy az éleket osztályozni tudjuk, tovább finomítjuk a kép felosztását. Az egyes alképeket, úgynevezett nem átfedő, azonos méretű és kettővel osztható szélességű és magasságú, négyzet alakú kép blokkokra osztjuk fel. A blokkok méretét a kép felbontásának függvényében választjuk ki. Mivel kettővel osztható részeket kapunk így egy pár pixel elveszhet. A tapasztalati érték 1100 darab kép blokk körül ingadozik, itt a leghatékonyabb az él infromációk előállítása. Minden kép blokkot egy él kategóriába soroljuk, a fent már említett módszer szerint. Az osztályozás elvégzésére egy egyszerű módszer az, hogy az egyes kép blokkokat 2x2 es méretű szuper pixel kép blokknak tekintjük, és erre végezzük el az éldetektálást, hogy kiszámítsuk a megfelelő élerősségeket. 9

10 Mielött rátérünk az élek kategorizálásának menetére, bevezetünk jelöléseket. Az a0(i,j), a1(i,j), a2(i,j), és a3(i,j) jelentse az i. sorban és j. blokkban lévő 2x2-es szuper pixelnek az intenzitás értékét. Ezek mellett jelöljük a szűrő együttható értékeit az egyes irányok esetén és az egyes pozíció esetén: f v (k), f h (k), f d-45 (k), f d-135 (k), és f nd (k), ahol k=0,1,2,3 (a szuperpixelen belüli pozíciót adja meg). Az él nagyságát jelöljük m v (i,j), m h (i,j), m d-45 (i,j), m d-135 (i,j), és m nd (i,j) segítségével, ahol az i és j jelentése megegyezik a fent leírtakkal. Az alábbi képleteken (1., 2., 3., 4., 5.) láthatjuk az m értékek kiszámításának módját [4]. 1. képlet 2. képlet 3. képlet 4. képlet 5. képlet Ha max{ m v (i,j), m h (i,j), m d-45 (i,j), m d-135 (i,j), m nd (i,j) } nagyobb egy küszöbnél akkor az adott blokk tartalmaz élt, ellenkező esetben, tekintsük úgy rá, hogy nem tartalmaz élt. A 4., 5., 6., 7., 8. ábrán láthatóak a szűrő maszkok [4], főleg az irány nélküli esetet tekintve ezek csupán heurisztikus gondolatok eredménye. 10

11 4. ábra vertikális élekre szűrő maszk 5. ábra horizontális élekre szűrő maszk 6. ábra 45 -os diagonális élekre szűrő maszk 7. ábra 135 -os diagonális élekre szűrő maszk 11

12 8. ábra konkrét iránnyal nem rendelkező élekre szűrő maszk Nehéz olyan szűrő mátrixot találni, amely az irány nélküli élekre általánosan jól működne. Induljunk ki az irány nélküli élek definicójából. Olyan élek, melyeknek nincs konkrét iránya. Keressünk olyan éleket amelyeknek van konkrét iránya, ha nem találunk megoldást, akkor az élnek nem lesz konkrét iránya. A következő fontos kérdés, hogy mi alapján hasonlítunk össze két élhisztogrammot. A 80 vödrös lokális élhisztogram alapján nem érdemes dönteni, mivel csak globális tulajdonságokat vesz figyelembe. Szükségünk van kifejezőbb formulákra. Jelöljük LocalA-val és LocalB-vel a 80 vödrös lokális hisztogrammokat. Legyen SemiGlobalA és SemiGlobalB, mely a 13 szegmensre felosztott képről (lásd 9. ábra) készített hisztogrammokról ad információt (13x5=65 vödör). Végül pedig vegyük figyelembe a GlobalA-t és GlobalB-t, melyek az kép öt részre való felosztása, az egyes felosztások estenén 5 vödrös hisztogrammot viszgálunk. D(A,B) az A és B kép közötti távolság. 9. ábra 13 szegmensre felosztott kép [4]. 6. képlet A lokális és globális élhsiztogrammok segítségével előálított hisztogrammok közötti távolásg kiszámítása látható. 12

13 10. ábra - Az élhisztogram szemléltetése tetszőleges felosztás esetén. Az egyes szeletek a már fent említett élirányoknak megfelelő vödröt szemléltetik [13]. Természtesen még mielött távolságot számolunk az egyes hisztogram vödröket normalizálni és kvantálni kell. Normalizálás céljából az egyes élek előfordulásának számát a vödrökben elosztjuk az alképen található kép blokkok számával. Meg kell jegyezni, hogy a homogén területeket is számításba vesszük a normalizálás esetén, viszont a hisztogramban nem jelennek meg, lényegében ez azt jelenti, hogy az élhisztogrammot azok a területek is befolyásolják, amelyek nem tartalmaznak éleket. Egy indirekt függésről beszélhetünk. A normálizált hisztogram vödrök értékei kvantálnunk kell. A kvantálás egy, az eredeti halmaznál lényegesen kisebb elemszámú halmazra való leképezés úgy, hogy az eredeti értékhez a halmazból a legközelebbi értéket rendeljük hozzá egy távolságkritérium (norma) alapján. Másik szakirodalomban [6] így definiálják a kvantálás fogalmát: A képfüggvény folytonos fényességértékei és a digitális megfelelőik közötti átalakítást nevezzük kvantálásnak (egy kép esetén ezt jelenti, de párhuzamot vonhatunk hisztogram vödör értékek kvantálásával). A kvantálás definíciója szerint két érték között kell mindig döntésthoznunk, az intervallumunkat fel kell osztani úgynevezett kvantálási szintekre. A felosztás lehet lineáris, és nem lineáris. A mi esetünkben az egyes vödrök értékei a *0;1+ zárt intervallumba esehetnek (a normalizálás után), azonban elmondható az, hogy leginkább az értékek a [0;0.3] zárt intervallumba esnek. Mivel az intervallumba esés nem egyenletes eloszlást követ, így a nem lineáris kvantáls mellett dönthetünk, így az egyes kvantálási szintek különböző távolságra esnek egymástól. 13

14 7.2 A SIFT leíró A következőben vizsgáljunk meg egy másik jellemző leírót. Választásunk a David Lowe által kifejlesztett módszerre a, SIFT-re esett [16]. Ez a leíró algoritmus a digitális látáskutatás tudományos igényességgel megfogalmazott, jól definiált metódusa a képtartalmat eltolás-, elfordulás-, skála- és megvilágítás-független helyi jellemzők kvantitatív értékeivé transzformálja. A transzformáció folyamatábráját a 11. kép illusztrálja. 11. ábra - A SIFT transzformáció folyamatábrája [16]. Az első lépéshez Gauss-féle konvolúciós szűrőt kell használni a simításhoz. Ezt a simítást el kell végezni egymás után többször, majd ezt követően a kép méretét a felére kell csökkenteni. A csökkentett méretű képpel ugyanígy járunk el és így folytatódik tovább az eljárás. Ezzel tulajdonképpen egy kép-piramist hoztunk létre, mely majd a feldolgozás gyorsítását szolgálja. A következő lépésként minden szomszédos konvolúciós szintnek képezzük a különbségét, amelyből egy másik, különbség skála szintjei jönnek létre. Ehhez a D(x, y, σ) függvényt (továbbiakban D) használjuk, amely a következőképpen leírható: 7. képlet - x és y a pixel koordinátái, k egy konstans szorzó tényező a szomszédos szintek közt és σ a Gauss-maszk előállításához szükséges paraméter. Ezzel a lépéssel biztosítjuk, hogy hatékonyan találhassunk biztos pontokat a skála-térben és megtartsuk a módszer erejét adó invarianciát. A következő lépésben szélsőértékeket kell keresni a létrehozott skála-térben. A kulcspontok a lokális maximum illetve minimum értékek lesznek a különbségekből létrehozott skála térben. Ezen pontokat úgy határozzuk meg, hogy az aktuális pixelt összehasonlítjuk mind a nyolc szomszédjával a saját szintjén, majd az alatta és felette lévő szinten lévő 18 másik szomszédjával, ami így összesen 14

15 huszonhat összehasonlítás. Ha ez a pont a többivel való összehasonlítások után minimális vagy maximális, akkor szélsőérték. Az így kapott pontokon további műveleteket kell végezni. Mivel többször is simítottunk a képeken és a méretüket is csökkentettük, ezért interpoláció segítségével a környező adatok alapján vissza kell keresnünk a kijelölt pontok eredeti helyét az eredeti képen. Ha ez megvan, akkor a hatékonyság növelése érdekében csökkenteni kell a kulcspontok számát, ugyanis ezek közül még nem mind hordoz fontosnak mondható információt. Ez azért is fontos, hogy csak a biztos vagy stabil pontok maradjanak meg a további számításokhoz. Folytatódik tehát a feldolgozás. Az alacsony kontrasztú pontokat és a gyenge élpontokat el kell távolítani egy küszöböléssel. Ezt kiszámíthatjuk a következő függvénnyel: 8. egyenlet - Az adott pont intenzitásának kiszámítása (z paraméter) parciális deriváltak segítségével. Ha az adott pont kontraszt értéke egy megadott küszöb alatt van, akkor kivesszük a kulcspont listából. A stabilitáshoz azonban nem elegendő a kis kontrasztú pontok kiszűrése. A Gauss-különbség függvény jól használható információkkal szolgál az élekről, azonban ha egy él elég gyenge, akkor érzékeny lesz a zajra. Ezeket fogjuk kiszűrni a továbbiakban ismertetett módszerrel. Egy gyenge csúcsnak a Gauss-különbség függvényben nagy lesz fő görbülete az élen keresztül, de kicsi a merőleges irányban. A fő görbület kiszámítható a 2 2-es Hesse-mátrixból, a továbbiakban H. A Hesse-mátrix egy többváltozós valós függvény másodrendű parciális deriváltjaiból alkotott négyzetes mátrix [7]. Jelen esetben a deriváltak megmutatják, a szomszédos pontok különbségét. A H sajátértékei arányosak a D fő görbületeivel. Ezek közül a legnagyobbra és a legkisebbre lesz szükségünk a továbbiakban, azonban a számításhoz nem fontos kiszámítani a konkrét értékeket, megelégszünk az arányukkal (r). A H determinánsa célravezető, ha szélsőértékeket szeretnénk találni a függvény felületén. Ezért képezzük a következő törtet: 9. képlet - Tr(H) jelentse a főátlóban lévő elemek összegét, Det(H) a H mátrix determinánsát. Látható, hogy az érték kizárólag a sajátértékek arányától függ. Látható hogy 9. képleten szereplő utolsó kifejezés akkor a legkisebb, ha a két sajátérték egyenlő. Ilyetén nézve, ha arra vagyunk kíváncsiak, hogy a fő görbületek aránya valami küszöb alatt van-e, akkor elég megvizsgálni az alábbi egyenlőtlenséget. 10. képlet 15

16 A feldolgozás következő lépéseként a pontokhoz irányokat kell rendelni. Egy ponthoz lehet több irányt is rendelni, amelyeket a lokális gradiens jellemzők alapján határozunk meg. A gradiens nagyságát (m) és irányát (θ) a következő két képlet adja meg, amelyet minden simított képre alkalmazunk: 11. képlet 12. képlet Ezt elvégezzük az adott kulcspont adott sugarú általában 4 vagy 8 környezetére is, majd ezeket az értékeket egy olyan σ paraméterű Gauss maszk szerint súlyozzuk, amely rendszerint másfélszerese a kulcspont léptékének (lásd 12. ábra). Ezt követően készítünk egy szöghisztogramot 36 vödörrel. Az így létrejött régiókat összegezzük egy 4 4-es felbontású részekre a megfelelő értékek összegzéséből úgy, hogy közben csökkentjük a vödrök számát nyolcra. Nagyon fontos, hogy az egyes kulcspontokhoz tartozó hisztogramok a ponthoz előzőleg kiszámolt orientációjához vannak igazítva. A domináns irányok, a hisztogram kiemelkedő értékei lesznek. Alapvetően a legnagyobb ilyen csúcsot tekintjük fő iránynak, de ha előfordul még olyan érték, amely a maximális érték 80%-án belül van, akkor létre kell hozni vele egy új kulcspontot ugyanazon a helyen. 12. ábra A szöghisztogram készítés *16+. Általánosságban a pontok 15%-a rendelkezik többirányú hozzárendeléssel, ezzel csak növelik az ilyen kulcspontok stabilitását. A leíró végül úgy jön létre, hogy minden kulcsponthoz és környezetéhez tartozik 4 4 db hisztogram egyenként 8 értékkel. Ez összesen egy 128 elemű vektort eredményez. Ha a megvilágításból fakadó változásokat szeretnénk kiküszöbölni, akkor normalizálnunk kell a vektort, így elérhetünk bizonyos fokú invarianciát ezen változásokkal szemben. A jellemző vektorok közötti távolságot szimpla Euklidészi távolsággal számítjuk, mint az élhisztogram leíró esetében. 16

17 8 Találatok rendszerezése színhisztogram alapján Maga a színnel foglalkozó részterület talán a gépi látás egyik legaktívabb kutatási területe. Lényegében a képünk minden pixele felvesz egy értéket egy adott vektor térből, és ez meghatároz egy színt az ember számára. A szín alapú képfeldolgozás két fő szemléletmódja terjedt el, két fő aspektusa. Az egyik, amikor a rögzített színek alapján határozzák meg a felület orientációját, ebből következtethetünk a kamera irányára, illetve a megvilágításból adódó problémákat feloldó függvényekre. Egy érdekes törekvésnek tekinthető az emberi érzékelés és a szín alapú képfeldolgozás között párhuzamokat keresni. Általános esetben elmondhatjuk, hogy az RGB szín reprezentáció választása kellőképp kielégítő módszer. Az RGB színtér hatásfokának javítása érdekében, használjuk a következők szerint, (R-G,2B- R,R+G+B) legyen a színterünk [1]. Ennek a megvalósításának az előnye, hogy a fényességet ( brightness ) izolálja a harmadik tengelyre nézve. Ez hasznos, mivel az ember is sokkal érzékenyebb a fényességre. Ha az emberi látást, érzékelést szeretnénk megközelíteni, akkor akár használhatjuk a Lab vagy a HSV színteret. Rendszerünkben szeretnénk szín alapján a lehetséges a találatokat osztályozni, és az osztályoknak megfelelően megjeleníteni. Ezáltal a megoldás halmaz átláthatóbb, és rendezettebb lesz. Négy döntést kell hoznunk. Ki kell választani, hogy milyen színtérben fogunk dolgozni, majd el kell dönteni, mi alapján generáljuk le a szín tartalomra jellemző vektort. Végül pedig el kell döntenünk, hogy a vektorok között milyen szabály alapján számolunk távolságot, és ezeket a távolságokat milyen osztályozó algoritmussal csoportosítjuk. Az RGB színtér széleskörben használt színtér. A piros, a zöld és a kék szín összetételén alapul. A legtöbb digitális ezköz rendelkezésre bocsát direkt RGB ki és bemeneteket. Azonban az RGB színkockában nem szerepel minden szín. Az RGB-ből átkonvertálható HSV színtér sokkal jobban megközelíti az emberi érzékelést. Ilyenkor a HSV színtérrel lenne érdemes dolgozni, de mivel a RGB HSV konverzió meglehetősen számításigényes feladat, így az RGB színtér használata mellett döntöttünk. (Lényegében ez a feldolgozási lépés nincs hatással az eredmény képre, csak az eredmény halmazt teszi átláthatóbbá egy szempont szerint, ami most színjellemző). A jellemző vektor legyen a színhisztogram. Kiszámítása egyszerű és nem számítás igényes feladat, ezek mellett jól tükrözi mind a globális, mind a lokális jellemzőket. A jellemző vektorunk annál kifejezőbb lesz, minél több hisztogramm vödröt alkalmazunk. Azonban a vödrök számának növelése nem csak a számítási költségeket növeli, hanem megakadályozza a hatékony indexelést egy adatbázis kiépítése esetén. Az osztályozásnál Euklidészi távolságot vegyünk figyelembe, és használjuk a k-közép klaszterező algoritmust (k-means clustering). Két hisztogrammot (jelöljük g-vel és h-val) Euklidészi távolságukat jelöljük D(g,h) 3 dimenziós vektorral (lásd 13. képlet). 17

18 13. képlet Két RGB hisztogram különbség vektora. Ahol jelentése a következő: A g hisztogram R csatornájának i. helyen vett értéke. A k jelenti a vödrök számát. Ha el akarjuk kerülni a háromdimenziós vektorokkal való számolást, akkor használhatjuk az (R-G,2B-R,R+G+B) színteret. Ilyenkor ha mellőzük a fényességet jelölő harmadik tengelyt, akkor 2 dimenziós vektorokat kapunk. A 256x256 vödör helyett használjunk 6x6 vödröt. A vödrök készítése szintén történhet k-közép algoritmus segítségével. Így a pontok egy tizenkétdimenziós térben fognak elhelyezkedni az elemeink. A k-közép klaszterezés (lásd 13. ábra) egy iteratív algoritmus, egyes szakirodalmak [8] Lloyd algoritmusnak esetleg Voronoi iterációnak nevezik. Az algoritmus működését az OpenCV-s implementáció alapján mutatjuk be [8]. Késöbb is ezt az implementációt fogjuk alkalmazni. Az első lépésben véletlenszerűen kiválasztjuk a klaszterek központi elhelyezkedését. Minden adatpontot belehelyezzük a megfelelő klaszterba, az egyes központi elhelyezkedések alapján. A központi helyezkedéseket módosítjuk, úgy hogy pont az egyes klaszterekhez tartozó vektorok centroidja legyen. Az előző két lépést addig iteráljuk, amíg a centroid pontog nem mozdulnak többet el. A módszer porblémái, hogy lassú, előre meg kell adni a az osztályok számát, illetve nem ad tökéletes megoldsát. Azonban nincs is szükségünk pontos megoldásra, a gyorsaságon pedig lehet javítani párhuzamossítással (Az algoritmus remekül párhuzamosítható). Az OpenCV-ben megvalósított algoritmus szignatúrája: void cvkmeans2( const CvArr* samples, int cluster_count, CvArr* labels, CvTermCriteria termcrit), ahol a samples változó egy több dimenziós tömb a minták számára, a cluster_count jelöli a klaszterek számát, a labels változó fogja majd tartalmazni a végső klaszter indexeket, termcrit az iteratív algoritmusok szükséges paramétere. 13. ábra A k-közép algoritmus végeredményének szemléltetése (2 dimenziós esetben). Azonos színű pontok egy osztályba tartoznak. A centroidokat fekete keresztel jelölték. 18

19 9 Osztályozás kihívásai Az osztályozás mint téma igen összetett, mivel meglehetősen nehéz behatárolni, hogy két kép az élei alapján például mikor hasonló. Teljesen egyértelmű választ csak nagyon ritkán lehet alkotni. Akkor hogyan fogunk mégis elfogadható eredményekre jutni? Elsőre jön az ötlet, hogy illesszük egymásra az ismertetőjeleket reprezentáló adatsorokat, azonban ez korántsem ilyen egyértelmű. A számítógépnek precíz definíciókra van szüksége. Az 1. táblázat egy példa az osztályozás nehézségeire. Tanító adatok Teszt adatok Kategória A A A A B B B B???????? 1. táblázat Ezekre az egyszerű mintákra is többféle szabály alkotható a logikai operátorok segítségével (például, az A kategória előállhat a 3. és 4. minta XOR művelettel vett eredményének negáltjaként). De ahogy az a táblázatból is látszik, még sincs a Teszt adatokra vonatkozó szabály, amely egyértelműen meghatározná, hogy melyik kategóriába tartozzanak. Még ez a nagyon egyszerű példa is remekül illusztrálja, hogy ha egyetlen bitet is megváltoztatunk, akkor már nem működik a rendszer. A probléma abban gyökeredzik, hogy képtelenség az összes kombinációt előállítani, majd betanítani egyedi szabályokat rájuk. Kénytelenek leszünk feltételezésekkel élni a keresési térre vonatkozóan, mert ha nem tesszük, akkor nem lesznek szabályaink az addig nem látott mintákra. További problémákat vet fel a képekre ülő zaj, amely hamis információkkal vezetheti félre a rendszert. Az ilyen esetek bizonyítják a kép előfeldolgozásának fontosságát. Egységes megoldást nem fogunk találni, a szabályokat az adott feladat jellege határozza meg. Egy tartalom alapú kereső rendszernek meglehetősen kiterjedt osztályozó mechanizmussal kell rendelkeznie, hogy képesek legyenek hatékonyan ellátni a feladatukat. Visszacsatolással fenntarthatjuk a tanulási folyamatot. Osztályozó algoritmusokat, mint például az SVM megtalálhatunk az OpenCV könyvtárban is. 19

20 10 Az SVM osztályozó Kijelenthető, hogy a különféle osztályozási eljárásokat az adott feladat optimális megoldásához választják meg. A mi problémánkra a legjobb megoldást a lineáris osztályozók adják, amelyek egyenessel vagy más néven hipersíkkal szeparálják az entitásokat. A hipersíkot a következő egyenlet írja le: 14. képlet g(x) a hipersík függvénye, ahol W egy normálvektor, mely merőleges a hipersíkra, a b paraméter pedig az eltolást határozza meg. Az osztályozás értelemszerűen aszerint történik, hogy melyik oldalán helyezkedik el az adott pont. Tanítás során a fő cél megtalálni a pontokat legjobban elválasztó hipersíkot úgy, hogy a tanítás során nem látott pontokat is eredményesen sorolja az adott pontnak megfelelő osztályba. Elválasztó hípersíkok közül azonban több is lehet, így felvetődhet a kérdés, hogy melyiket válasszuk? A választ az SVM [14] (lásd 14. ábra) módszer szolgáltatja a felügyelt tanulási módszerek családjába tartozik. A lényege, hogy a legjobban szeparáló sík margóját maximálisra méretezi. Margónak nevezzük azon térrészt, amelyet az elválasztó sík párhuzamos hipersíkokkal bezár és nem tartalmaz tanító pontokat. Az SVM osztályozó a maximális margó kritérium miatt remekül képes általánosítani, ami a mi esetünkben jól fog majd jönni. 14. ábra - Az SVM ábrázolása [14]. A legjobb sík meghatározásához teljesülnie kell a következőknek. Adott tanító minta esetén {(x i,y i )}, i=1,2,,n teljesülnie kell a következő két feltételnek: 15. képlet Miközben a margót maximálisra kell választani. 20

21 Azon a pontok segítségével, amelyek a rajta vannak a margósíkokon leírhatjuk a margók szélességét. A szeparáló sík és a margóra eső pontok közti merőleges vektorok lesznek az ún. támogató vektorok (support vectors), amelyekkel leírhatók lesznek a margók szélességei: 16. képlet A margók szélességét leíró kifejezés. Ebből következik, hogy a feladatunk a következő két kifejezés (lásd 17. képlet) közül az első maximalizálása, amiből következik, hogy a másodikat kell minimalizálni. Ehhez pedig a 18. képleten látható egyenlőtlenséget kell megoldani. 17. képlet 18. képlet Ha bevezetjük a Lagrange szorzókat az eredeti változók szerinti parciális deriváltak nullává tétele után, akkor a következő összefüggést kapjuk. 19. képlet - ahol A Karush Kuhn Tucker (KKT) kondíciók alapján (amelyek nemlineáris programozási feladatok optimális megoldásainak kereséséhez használatosak) bizonyítható a 20.képlet első egyenlősége. Support vektorok esetén α i 0, tehát a megoldást lásd a 20. képlet második kifejezésén. 20. képlet A b pedig az következő egyenletből számítható: 21

22 21. képlet Az elválasztó hipersík egyenletete tehát: 22. képlet Ebből látszik, hogy az egyenlet kifejezhető pusztán a tanító minták belső szorzataival, sőt az optimalizáció során szintén csak ezeket használtuk fel. A módszer előnyei, hogy egyszerű elválasztó felülettel dolgozik, a maximális margó kritérium miatt jól általánosít és csak a tanító minta belső szorzataira van szükség. Felvetődik a kérdés, hogy ha nem szeparálható lineárisan a tanítóminta, illetve ezeket hogy lehet megtanítani? Vezessünk be hézag változókat (ξ), amelyek leírják, hogy a tanító pontok milyen messze vannak a hozzájuk tartozó margótól. 15. ábra Lineárisan nem szeparálható eset [14]. Ebben az esetben a következőképpen módosul a megoldandó feladat: 23. képlet A C paraméterrel szabályozható lesz az általánosítás mértéke. Ha C kicsi, akkor a margó maximalizálása a fontos, így jó általánosítás érhető el, de nagyobb hibával! Ha C nagy, akkor a margómaximalizálás kevésbé fontos, így kevésbé általánosít jól a modell, azonban a hiba mértéke is lecsökken. 22

23 Nem lineáris összefüggések esetén a tanítási problémák megoldására az ún. kernel trükk ad alternatívát. Ez azonban csak akkor alkalmazható, ha mind a tanulás mind a modell használata megoldható a pontok belső szorzatának felhasználásával. Ha ez fennáll, akkor a kernel függvénye megadja a transzformált pontok belső szorzatát, azonban a transzformációt nem kell ténylegesen elvégezni. A függvényt a következő összefüggéssel lehet definiálni: 24. képlet 23

24 11 Architektúrális kérdések Egy asszociatív típusú, profilú tartalom alapú keresőrendszert tervezünk. Ahogy azt a 3. fejezetben megismertük, egy ilyen típusú rendszernek hatlmas és sokszínű képállománnyal kell rendelkeznie, ahhoz, hogy megfelelő éményt biztosítson. Tehát egy óriási adathalmazon kell számításigényes műveleteket végezni mint például, jellemző vektorokat előállítani, osztályozni, visszakeresést végezni. Nagyon fontos tehát a problémára optimalizált rendszer kialakítása. Egy olyan tároló rendszert kell választanunk, amely mind a tárolóhelyet és a feldolgozási idő redukálást, mind pedig a felhasználás egyszerűségét megpróbálja megvalósítani. Szeretnénk azt elérni, hogy a feldolgozási idő lehetőleg ne érje el az O(n 2 )komplexitást. A következőkben bemutatunk két indexelési módszert. Az egyik az úgynevezett terület felosztásos technika (space partitioning [9]), a másik pedig az általunk intuitívan kigondolt technika. Az egy dimenzós adatok tárolása esetén főleg B-fákat szoktak használni, mivel az adatszerkezet hatékony beszúrást és törlést tesz lehetővé, miközben mindig kiegyensúlyozott marad a szerkezete. Azonban a többdimenziós adatok esetén nem használható (többdimenziós kulcsok). A terület felosztásos indexelés a B-fának egy módosított változatát használja fel. Az indexelés alapja a képet leíró jellemzőknek módosított B-fa struktúrába szervezése (lásd 16. ábra). A kiindulási tér a jellemzők halmaza, melyet részekre osztunk fel, úgy hogy lehetőleg kevés elem legyen egy halmazba. A 10. ábra egy adathalmaz lehetséges felosztását mutatja. A felosztás után mindegyik partíciót cimkézzük meg egy számmal, majd a következőként ábrázoljuk egy B-fa segítségével (lásd 17. ábra). 16. ábra - A jellemző tér felosztása. Számokkal jelöltük az egyes partíciókat, betűkkel pedig az adatokat [9]. 24

25 17. ábra - B-fa segítségével ábrázolt jellemző tér. A szakirodalom K-D-B fának nevezi ezt az indexelési módszert [9]. Az általunk kigondolt módszer alapja már az adatbázis elméletből is ismert ritka indexeléses technikán alapul. Ilyenkor egy szempont szerint rendezett rekordok halmazán úgynevezett jelző cölöpöket definiálunk. Két jelző cölöp között több elem található meg. A jelzőcölöpöket több szinten megvalósíthatjuk. Mi egy többlépéses osztályozás segítségével állítanánk fel a jelző pontokat, így keresés esetén csak meg kell találni az adott fiókot, amelybe az elem elhelyezkedik. A módszer legnagyobb problémáját az új elemek lekezelése jelentené. Az új elemek számával fordítottan arányos lenne az indexelés kiegyensúlyozottsága. A fejezetben megismerkedtünk lehetséges indexelési módszerekkel. Egy komplett adatbázis kezelő rendszer kifejlesztése viszont hatalmas erőforrásokat emésztene fel. Ennek okán vizsgáljunk meg egy adatbázis kezelő rendszert, mégpedig az Oracle adatbázis kezelő rendszer 11g második kiadását, azon belül pedig a multimédia kezeléssel foglalkozó lehetőségeit (Oracle Database 11g Release 2 - Multimedia). Ez egy relációs adatbázis kezelő rendszer, mely SQL nyelven programozható. A multimédia kiegészítés segítségével hatékonyan tudjuk eltárolni mind a képeinket, mind a jellemző leírókat. A következő bekezdésben megvizsgáljuk a multimédia kiegészítés milyen lehetőséget teremet a multimédiás tartalmat kezelő adatázisokhoz [10]. A kiegészítés csak az Oracle Adatbáziskezelő Standard és Enterprise verziójában található meg. A termék lehetőséget nyúlt relációs adatok, struktúrális adatok és egyaránt strukturálatlan adatok hatékony tárolására és visszakeresésére. Egy képet a saját ORDImage objektumán keresztül tárolja el a rendszer. Az objektumhoz számos hasznos metódus tartozik, mint például a getmetadata, melynek segítségével egy képről lekérdezhetjük a meta-információkat. A képeket eltárolhatjuk az adatbázisban, vagy akár az adatbázison kivűl is, azonban a meta-információkat mindig az adatbázisban kell tárolnunk, mint például a kép formátuma, mérete, neve, forrása. A képhez tartozó információkat többek között elérhetjük XML formátumban is. Az XML formátum miatt az Oracle többek között a.net fejlesztők számára kényelmes feldolgozást biztosít. A rendszer rendelkezésünkre bocsát különböző képtömörítő eljárásokat is, ezzel segítve munkánkat. Alapvető képfeldolgozási rutinokat is tartalmaz a rendszer, mint például gamma-korrekciót, kép elforgatást, 25

26 kontraszt-vágást, és többek között kvantálást is. Ezen felül számos fejlesztői eszközt bocsátanak rendelkezésre mint például az SQL*Loader-t, mely segítségével könnyen tudunk új képeket hozzáadni az adatbázisunkhoz. A modern fejlesztői környezetként pedig a Java, C++ és PL/SQL t jelöli meg. Számos osztálykönyvtárat bocsátanak rendelkezésre. Az óriási elemszámról és az adatok sokszínűségéről (felbontás, színmélység,momentumok...) beláttuk, hogy egy problémaforrást jelent a feldolgozásnál. Mivel mi nagy képi adatbázist fogunk használni, így szükségünk van egy előfeldolgozó lépésre. Először is meg kell határozni milyen felbontású képekkel is fogunk dolgozni, erre vonatkozóan kell majd választani egy alsó és egy felső határt (a felső határt átlépő képeket átskázállzuk). Az átskálázás helyett akár használhatnánk a kép piramisok építésének módszerét, így növelhetjük a sebességet és még az eredeti kép is megmarad. Ilyenkor a tárhelykihasználás lesz rossz. A képeket pedig tároljuk le JPEG formátumban, ilyenkor egy átlagos kép mérete úgy 250 Kilo Byte lesz. Szóval, ha 1 millió darab képpel dolgozunk, akkor már közelítőleg 250 Giga Byte tárhellyel kell számolni. Nyílván az adatbázisnak bővülnie kell, és bővülni is fog, fenntartva a fejlődés lehetőségét. A leírt előfeldolgozó lépéseket egy részét akár az Oracle adatbázis kezelő segítségével is elvégezhetjük. Egy az interneten is elérhető képmegosztókról letöltött képek esetén könnyen előfordulhat az, hogy egy kép többször is szerepel az adatbázisban. Ha léteznek duplikált képek, akkor nagy valószínűséggel, ha az egyik megjelenik, mint egy visszakeresési eredmény, akkor a másik is. Ezáltal romlik a felhasználói élmény. Az első kérdés, hogy találjuk meg a hasonló képeket? A [11] ben leírtak alapján a következőket tehetjük. Alakítsuk át az RGB képet indexelt formátumú képpé, ahol paletta színt tartalmaz. Az összekapcsolódó pixelek homogének, ha több mint 98%-ban ugyan azzal az indexelt színnel rendelkeznek. Definiáljunk egy hasonlósági mértéket a két kép között, jelöljök f és g betűvel.legyen R F (1),R F (2),...,R F (p) az f homogén régiói, és R F (n) területe nagyobb mint R F (n+1) területe, ahol is n=1,2,...,p-1. p szám egy fix constans. 1, 2 legyen a hibahatár. Ha a következő egyenlőtlenségek (25., 26. képlet) teljesülnek akkor a két kép egyforma. 25. képlet D 1 jelöli a terület szerinti hasonlóságot. 26. képlet D 2 jelöli a szín szerinti hasonlóságot. 27. képet A p fix konstans meghatározásához szükséges képlet. Nf és Ng jelöli az f-ben és g-ben található homogén régióinak számát. 26

27 12 Saját rendszerünk Ez egy olyan tartalom alapú kereső rendszer, mely skiccek alapján keres, nagyméretű képi adatbázisban. Sokszor kerül olyan helyzetbe az ember, amikor nem bír szöveggel, esetleg gesztusokkal se megfogalmazni egy momentumot. Ilyenkor sokszor mutatna egy képet helyette, de mivel nincs konkrét, biztos megfogalmazása, így a kereső rendszer valószínűleg nem fog érdekes találatot szolgáltatni számára. De mi lenne, ha lerajzolná? Erre nyújtana segítséget a mi rendszerünk. Ezek mellett fontosnak érezzük, hogy a rendszerünkkel verseny helyzet teremtsünk e téren, így talán el lehetne indítani egy dinamikus fejlődést a témában. A rendszert tehát olyan emberek számára tervezzük, akik szeretnek böngészni az interneten képek után. Arra számítunk, hogy egy ilyen rendszert a felhasználója iteratívan használja, vagyis egy találat után nem áll meg. Mivel a rendszernek nem egy felhasználója lesz, hanem több, így kliens szerver architektúrába kell gondolkoznunk, azonban amíg nem lesz stabil, gyors verzió addig csak egy kliens lesz. Beszéljünk a rendszer várható funkcióiról. A felhasználói felületen lesz egy rajzfelület, ahol a felhasználó rajzolni tud. A rajzolás mellett még színezésre is lehetőség lesz, ilyenkor a színhisztogramok segítségével fogunk döntésre jutni, a színezett szegmensek és az él hisztogramok alapján. Először az él hisztogramot fogja vizsgálni, majd pedig a megfelelő színhisztogramok segítségével kiszűr a nem megfelelő találatot. Egyelőre még terv szinten tervezett a felhasználó által készített rajzok felcímkézése is, így akár a szöveges keresés is megvalósítható lenne. Szeretnénk egy olyan funkciókat is megvalósítani, hogy amikor keres egy képet a felhasználó, akkor azt a találatok közül be tudjon rakni egyet a rajzfelület hátterének,és azon a háttéren körbe tudjon rajzolni egy alakzatot, így megkönnyítve a következő keresés eredményességét. Az eredmények megjelenítése egy érdekes kérdés. Csoportosítva jelenítjük meg az eredményeket a színhisztogram alapján. Ennek egy oka van. A felhasználó csak egy bináris rajz alapján keres, csak ennyi áll rendelkezése, így a program nem tudja eldönteni, melyik a legjobb megoldás, illetve melyik a legrosszabb. Ha rang szerint, vagyis a szignatúrák hasonlósága szerint raknánk sorrendbe, akkor előfordulhat, hogy a ténylegesen legjobb kép hátul fog elhelyezkedni. Szín alapú csoportosítást pedig, azért alkalmazunk, mivel a szín fogalma közel áll az emberi érzékeléshez. 27

28 13 Hasonló rendszerek Az ember a látására támaszkodik leginkább a különböző érzékei közül. A dolgok, amiket meglát az ember nem tárolódnak el egy konkrét memóriában, ahonnan utána vissza lehetne olvasni azt, azonban mégis a másodperc törtrésze alatt azonosítani tudja az emlékeit alapul véve, ha valami régebben látott dologhoz hasonlót lát. Rengeteg kutatás történt ezen a területen, azonban áttörő sikert még várat magára. Egyes rendszerek kereskedelmi forgalomban is megjelentek, de mégis a legtöbb a kutatási fázisban maradt. Ezek a rendszerek elsősorban a szín és textúra tulajdonságok alapján működtek, és csak nagyon kevés esetben tettek kísérletet az élek alapján való feldolgozásra. Meg kell jegyezni, hogy általános keresésre mondhatóak hatékonynak a jelenlegi rendszerek, ugyanis a speciális esetekben ugyanazon hibákba futnak, mint az általános szöveg alapú keresők. A képek zajosak és a keresési feltételek csak nagyon nehezen írhatók le. Főleg szín alapú szegmentálás, textúra, elrendezés és élek alapján dolgoznak. A textúra alapján elég könnyen lehet hasonlóságot találni képek között, amire az egyszerű szín alapú indexelők nem képesek. Az elrendezési és él futási leírók ritkán használtak, mert meglehetősen nehéz ezeket reprezentálni, ráadásul jelentősen megnövelik a keresési teret. Egy másik technika, amikor kézzel felcímkézik a képeket egyedileg. Ezek komoly hátránya viszont, hogy ha előzőleg nem vitték be a címkét a rendszerbe, akkor nem fog rátalálni a keresett dologra. Érdekes területetek felé nyit utat ezeknek a módszereknek az automatizálása. Egy lehetséges ötlet lehet az, hogy mintaképek alapján tanítás segítségével címkézzünk, illetve a későbbi keresés során interaktív módszerekkel fejlesztjük a rendszer jóságát. A következőkben a saját rendszerünkhöz hasonlóakat fogunk prezentálni. Először is leírjuk, hogy kik fejlesztették ki, mikor fejlesztették ki, és milyen publikációk kötődnek a rendszerhez. Ezt követően leírjuk, hogy milyen funkciókkal rendelkezik, és ezeket a funkciókat milyen módszerek segítségével hozták létre. Fontos, hogy kiemeljük az innovatív funkciókat. Fontos hogy, megkeressük a párhuzamot a bemutatott és a saját a rendszerünk között, illetve az ellentéteket. A végén pedig leírjuk, hogy milyen ötleteket merítettünk a saját rendszerünkhöz PhotoSketch A Mathias Eitz, Kristian Hildebrand, Tamy Boubekeur és Marc Alexa készítették a rendszert 2009-ben, melyről egy publikáció [13] jelent meg. Videómegosztó portálokon bemutató videókat találhatunk a rendszerükről, mely a megosztó portál felhasználóinak körében elég nagy népszerűségre tett szert. A 18. ábrán láthatjuk rendszer működését a felhasználó szemszőgéből. A felhasználói felületen találhatunk egy rajzfelületet. Itt készíthetjük el az a rajzot, ami alapján történik a visszakeresési folyamat. Kizárólag fekete fehér rajzot készíthetünk. Mint a rendszer neve is sugallja, egyszerű skicceket rajzolhatunk. Ha elindítjuk rövid idő alatt a képernyő jobb oldalán megjelennek a legjobb találatok a színhisztogramjaik alapján csoportosítva. Ha kiválasztunk egy képet, az megjelenik a rajzlapon, és akár arra a képre is rárajzolhatunk, így pontosíthatjuk a keresést. A másik lehetőség pedig az, hogy a keresett képet elehelyezzük a rajfelületen, majd keresünk egy új képet. Ilyenkor a két képet összeilleszhetjük, úgy hogy a második képről kijelölünk egy területet, és azt a lehető 28

Több megjelenítése