Képelemzési módszerek vizuális kódok felismerésére PhD disszertáció tézisei Bodnár Péter Témavezet : Nyúl László, Ph.D. Informatikai Doktori Iskola Képfeldolgozás és Számítógépes Graka Tanszék Természettudományi és Informatikai Kar Szegedi Tudományegyetem Szeged, 2015.
1. Bevezetés A mindennapi életben elterjedt a számítógéppel olvasható vizuális kódok használata, nem csak ipari felhasználási területen, de magáncélú alkalmazásokban is [15]. Ezen kódok használatának el nye szemben például az RFID technológiával [13], hogy gyártásuk kevésbé költséges, egyszer eszközökkel megoldható, és szélesebb körben felhasználhatóak. Megbízható azonosítási módszert jelentenek postaszolgálatokon, áruházi PoS terminálokon és raktárkészletek nyilvántartásához is. A technológia elterjedéséhez nagyban hozzájárult még az asztali nyomtatók és az áruházi automatikus checkout rendszerek elterjedése [26]. Egy vizuális kódban tárolt adat visszanyerése két lépésben történik, ezek a kód megtalálása és a kódolt adat visszaalakítása. Az els lépésben fel kell ismernünk a szenzor terében a kódobjektum jelenlétét, annak pozícióját és orientációját. Gyakran transzformációkat is kell alkalmazni a további feldolgozás könnyítése érdekében. Ilyen transzformációk például a zajredukció, élkiemelés, normalizáció, különféle pont-operációk és torzulási korrekciók. A feldolgozás után a kódnak címkézett képrészlet továbbkerül a detektorhoz, amely aztán visszanyeri a képi információból a szöveges információt. Ez a lépés manuális volt a vonalkódok használatának kezdeti szakaszában. Egy terminált vagy egy hordozható vonalkód-olvasót kellett kézzel pozícionálni a kódot visel termékhez vagy objektumhoz annak érdekében, hogy azonosítani tudjuk. Jelenleg az okostelefonok vonalkód-olvasó alkalmazásai hasonló fejlettségi szinten m ködnek. Amennyiben az els lépés megfelel en kidolgozott, a hordozott adat visszaolvasása már megoldott problémának tekinthet. A visszaolvasást tovább segítik a karakterek közötti maximális Hamming-távolságok, továbbá a legtöbb kódszabvány tartalmaz redundáns információt is hibajavítási célzattal. A lokalizációs lépés több nehézséggel rendelkezik, amit a kódok, kamerák és végfelhasználói követelmények sokfélesége okoz. Az elmúlt néhány évben a képalkotó eljárások és a számítógépes hardver nagy mértékben fejl dött, lehet vé téve a vizuális kódok automatikus felismerését biztosító képelemzési algoritmusok használatát, ez viszont a korábbi manuális és egyszer lokalizációs problémát magasabb nehézségi szintre emelte [35]. Igény támadt a vizuális kódok automatikus megkeresésére emberi felügyelet nélkül, pusztán a szenzor adataira alapozva. Minden alkalmazásnak eltér jellemz i vannak, például a megtalálni kívánt vizuális kód típusát, távolságának és elhelyezkedésének korlátait illet en. A sikeres lokalizálási folyamat után a dekódolási lépés következik, ami a kódolt adat visszanyerését jelenti algoritmusok által. Amíg a lokalizálási probléma nehezebbé vált az automatizmus követelménye miatt, a dekódolás megbízhatósága nagyban n tt a szenzorok pontossága és a számítási kapacitás növekedésének köszönhet en. A hatékony megoldásokra folyamatos az igény, mivel az alkalmazások különböz problémákat fogalmaznak meg. Számos lokalizálási algoritmus létezik már, ezeket 1
jellemezhetjük pontosságukkal, sebességükkel és a technikával, amit használnak a megoldáshoz. Ezek az algoritmusok hatékonyan ellátják a konkrét végfelhasználói alkalmazások feladatát, mégsem szolgálnak univerzális lokalizálási módszerrel, ami indokolja a további kutatást a témában. A disszertáció els dleges célja megvizsgálni létez algoritmusok hatékonyságát és új módszereket kidolgozni a lokalizálási feladatra. Tárgyalja továbbá az egyre népszer bb, gépi tanuláson alapuló módszerek felhasználhatóságát [3, 31], melyek bonyolultságukat tekintve túlmutatnak a kézi vonalkód-olvasók technikáin, és betekintést ad a fuzzy következtetési rendszerek felhasználására a feladathoz. A vizuális kódok lokalizációját végz algoritmusokkal szemben két f elvárást támasztunk, ezek a megfelel sebesség és hatékonyság. Az ipari alkalmazásokban a hatékonyság kiemelten fontos, mivel a nem lokalizált kódok a prot csökkenését vonhatják maguk után, a magáncélú okostelefon-alkalmazások esetében viszont megengedhet néhány kihagyott kód, vagy a képalkotó eszköz újrapozícionálásának szükségessége. A feldolgozási sebesség másodlagos elvárás a legtöbb helyzetben. 2. A disszertáció eredményei 2.1. Globális információn alapuló egyszer algoritmusok Ebben a fejezetben globális módszereket ismertetek és adok hozzájuk fejlesztési lehet ségeket. Ezeknek az algoritmusoknak a m ködése közben végig elérhet a teljes szenzoros információ, és a leállásig rendelkezésükre áll. A legels algoritmikus ötlet a vonalszkennerek m ködését imitáló képelemzés volt, mely a számítógépes látás korai korszakában keletkezett, amikor még a matematikai morfológia m veletei túlságosan költségesek voltak [30]. A számítási kapacitás fejl dése ellenére fennmaradt az igény ezen algoritmusok használatára és fejlesztésére, mivel a szerényebb képesség beágyazott rendszerek térhódítása új alkalmazási területet nyitott meg. Ezen algoritmusok sajátossága még, hogy könnyebben megérthet k és paraméterezhet k, mint a gépi tanuláson alapuló módszerek. A vonalszkennelésen alapuló algoritmusok [16, 32, 33] az alábbi egyszer ötleten alapulnak. A vonalak mentén olvasott intenzitás-értékek egy egydimenziós prolt alkotnak (1(b) és (c) ábra). A detektálást végz algoritmusok [1, 23, 33] ezeken a prolokon dolgozva nyerik vissza az ideális bináris függvényt, mely a kódolt adatot reprezentálja. Ennek lépései a lokális extremitások megtalálása, illetve az intenzitásprol adaptív küszöbölése bináris értékek származtatására. A vonalszkennelésen alapuló algoritmusok gyorsak, de alacsony toleranciával rendelkeznek a zajra és a simításra. A disszertációban megvizsgáltam az algoritmus képességeit és fejlesztési lehet séget adtam rá. Három illetve négy irányt javasoltam vonalszkennelésre, és a s r ségképek helyett a vonalszegmensek csoportosítását 2
1.20 0.80 0.40 0.00 0 50 100 150 200 250 1.20 0.80 0.40 0.00 0 50 100 150 200 250 1. ábra. A vonalszkennelésen alapuló algoritmus. A képet vonalak mentén olvassuk (balra), és megkeressük a gyakori intenzitás-változással rendelkez szakaszokat. Ezen szakaszok végpontjai a vonalkód-objektum konvex burkának is kontúrpontjai. 2. ábra. Vonalszkennelésen alapuló algoritmus, valós példa. Eredeti kép (balra) és jellemz kép (jobbra), vonalszegmensekkel, felhasznált végpontokkal, kiszámolt középponttal, 0 fokos szkenneléssel (zöld, kitöltött kör), illetve a 60 fokos szkennelés eredményeként kapott, meglév középponthoz közelségi kritérium miatt eldobott középponttal (piros, üres kör). vezettem be távolság-kritérium alapján (2. ábra). A morfológián alapuló algoritmusok is ebbe a családba tartoznak, és jellegzetességük, hogy az erózió és dilatáció m veleteire építkeznek [22, 24, 28]. Ez a csoport nagyobb számításigény, de nagyobb robusztussággal is bír. A disszertációban javasoltam egy morfológián alapuló algoritmust, mely morfológiai gradienst, nyitást és kontúrkeresést használ [9]. A lépéseket a 3.ábra összegzi. Létrehoztam továbbá egy kizárólag Hough-transzformáción [2, 25] alapuló algoritmust, mely vonalszegmenseket detektál Canny eljárásával együttm ködve. Ez önmagában is használható lokalizálásra, illetve el sz r ként hatékonyabbá tehet k vele más algoritmusok. 2.2. Mozaikfelbontáson alapuló algoritmusok A legtöbb alkalmazásnak korlátozottak az er forrásai, mint például a memória menynyisége és a számítási kapacitás. Nem minden hardver-konguráció engedi meg a 3
(a) (b) (c) (d) (e) 3. ábra. A MINMAX algoritmus lépései. Eredeti kép (a), morfológiai gradiens (b), bináris küszöbölés (c), nyitás (d), megtalált kontúr az eredeti képre vetítve (e). teljes kép memóriában tartását. Ezekben az esetekben a rendelkezésre álló információból lokális méréseket kell végeznünk, és minél kevesebb információt tárolni egyidej leg. A képek felosztása egybevágó cellákra, a mozaikfelbontás a mintafelismerésben elterjedt ötlet, ami a lokalizációs feladatra is használható. Mivel a legtöbb kódtípus - ahogy a textúrák is általában - felismerhet csupán egy részletének elemzésével. Ez lehet vé teszi a cellák vizsgálatát és azokhoz mér szám hozzárendelését. Ezek a cellák együtt megfelel méret és konvexitású foltokat alkothatnak, melyek vizuális kód jelenlétére utalnak. A fejezetben bemutatom a mozaikfelbontás alapuló, lokális cella-információból döntéseket hozó algoritmusokat [6, 9, 21]. Ez az algoritmuscsalád, néhány kivételt l eltekintve [11], a cellákat külön vizsgálva ad mér számot az adott cella tartalmát illet en. Fontos megjegyezni, hogy ezek az algoritmusok ugyanazon elven minden cellának értéket adnak, a választott jellemz viszont különbözik. A magasabb szint kiértékelés jellemz t l függetlenül hasonlóan történik, a jellemz -mátrixban - mely a blokkmérettel leskálázott jellemz képnek is tekinthet - a szabott feltételeknek megfelel összefügg komponenseket keresünk. A kompakt területek fogják alkotni a számunkra fontos helyeket, mivel a vizuális kódok hasonló statisztikai mér számokat produkálnak a szomszédosan elfoglalt képtérbeli cellákban. Az er sen elnyúlt, vagy konkáv régiók valószín síthet en nem tartalmaznak kódrészletet, ezért a kompaktság jó osztályozási alap. A klasszikus vonalszkenneléses módszer lecserélése az els újításom ebben a szekcióban [11]. A körvonal menti olvasáson alapuló algoritmusom a következ lépésekb l áll. Kezdetben a képet binárissá küszöböljük, majd a várható kódméretet gyelembe véve, cellákra osztjuk azt, fél cellányi eltolással. Minden cellát el ször külön kiértékelünk. A kiértékelés alapja a cellán belül intenzitásprol készítése körvonal menti minta alapján. Ezen az egydimenziós prolon a zéró-átmenetek különböz gyakorisággal és mintákban fognak el fordulni. A következ lépésben a kör mentén olvasott mintát négy egyenl régióra bontom, melyek a zéró-átmenetek alapján 4
w S 1 c S 2 c w 4. ábra. Zónák és szimmetriák a körvonal menti intenzitásprolon. Vad (w) és csendes (c) zónák, szimmetriák pixelek (S 1 ) és kvadránsok (S 2 ) között. kerülnek deniálásra. A sok, illetve kevés átmenettel rendelkez zónákat a kés bbiekben vad és csendes zónaként hivatkozom. Az 1D vonalkódok esetén a vad és csendes zónák felváltva fordulnak el, tehát egymással szemben helyezkednek el a kör mentén. A zónák felosztását a 4. ábra szemlélteti. A zónák megtalálása után szimmetriákat is keresek a zónák között zóna- illetve pixelszinten, gyelembe veszem továbbá a szomszédok orientációs információját, mely a zónák elhelyezkedéséb l adódik. A futamhossz-mérés nevet visel algoritmus szintén egy módosított, mozaikfelbontással dolgozó módszer. Alkalmasan megválasztott cellaméret után minden cellát megvizsgálok két, egymásra mer leges vonal mentén. Ebb l a párból még egyet használok, 45 fokkal elforgatva, tehát a két vonalpár 0 és 90, illetve 45 and 135 (5. ábra). A jellemz ezekb l nyerhet ki, a párokon belül a vonalak mentén mért intenzitás-változások különbségeként. Például, egy közel vízszintesen álló vonalkódban sok intenzitás-változás mérhet a vízszintes szkennel vonal mentén, és kevés mérhet függ legesen (5. ábra). A 45 fokban elforgatott párra azért van szükség, hogy különböz orientációjú kódokat is felismerjünk. A végs mér számot a két különbség maximuma adja. Ez 1, ha a képen párhuzamos sávok fellelhet k a cellában, és 0, ha homogén terület, vagy uniform zaj. A mozaikfelbontáshoz használt egyik legegyszer bb jellemz n alapul a lokális komponens-keresés [9]. A cellát egyszer en felosztja sötét és világos szegmensekre, és megszámolja ket. A vonalkódot tartalmazó cellában meghatározható darabszámú, elnyúlt komponens lesz. Egy új algoritmust is javasoltam a lokalizációs feladathoz, mely kizárólag távolságtranszformáción alapul [14]. Önmagában is használható, de teljesítménye limitált. Ajánlott inkább köztes lépésként használni szosztikáltabb algoritmusok tervezése- 5
5. ábra. Két pár vonal halad végig a képrészleten. Az egyik páron belül szignikánsan több eltérés lesz a szkennel vonalak által mért intenzitás-különbségek számában, ez adja a pozitív választ. A példában a vonalkód-részletet az els pár ismeri fel. 6. ábra. Aztec kód, 25 % uniform zajjal és σ = 2 paraméter Gauss simítással terhelve. A képrészlet hisztogramja 256 intenzitással (jobb fels ábra) és 8 intenzitással (jobb alsó ábra). kor. Bevezettem továbbá egy algoritmust, mely a cellahisztogramokon alapul. Az ideális, vizuális kódot tartalmazó cellában kizárólag fekete és fehér intenzitások - gyelhet k meg, közel 1:1 arányban. A kód-objektum variabilitása és a képalkotó berendezések pontatlanságai miatt a mérhet hisztogram el fog térni az ideális esett l (6. ábra). Ahhoz, hogy ezt számításba vegyük, az alábbi modellt javasoltam a várható hisztogramok modellezésére: ( U C,σ (x) = C + (1 C) e x 2 (ε+σ) 2 ) + e (1 x)2 (ε+σ) 2, (1) ahol C és σ a zaj és simítottság mértékének megfelel en beállított paraméterek. Különböz értékek eltér eloszlásokhoz vezetnek (7. ábra). A sebesség ezeknél a módszereknél is fontos szempont. Ezen algoritmusok egyszer, gyorsan számolható jellemz ket használnak, és a lokális méréseknek köszönhet en könnyen párhuzamosíthatóak. Az egyszer jellemz kön alapuló detektorok sokféleképp aggregálhatók, például többségi szavazással, vagy a detektorok maximumát tekintve. Használható még a súlyozott szavazás [5] is, mely lehet séget ad a jellemz k fontosságának kiválasz- 6
1.0 0.8 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 7. ábra. Várható eloszlások. Piros folytonos vonal: kis C (várható simítás) közepes mennyiség zajjal C = 0.1, σ = 0.15 (szennyezett környezet példája), kék szaggatott vonal: nagyobb C kisebb várható zajjal C = 0.3, σ = 0.01 (gyenge min ség telefonos felvétel példája). tására. A többségi szavazás akkor hatékony, ha a jellemz k önmagukban alacsony osztályozó er vel bírnak, de magas recall értékkel. A maximum elv szavazás a recall maximalizálására jó, amikor ez a pontosságnál fontosabb szempont, például ipari alkalmazások esetén. 2.3. Neurális hálók használata a lokalizálási feladatra Mind az 1D és 2D vizuális kódok nagy variabilitással rendelkeznek az elemek elhelyezkedését tekintve. Nehéz lenne manuálisan felsorolni minden kongurációt, mely el fordul a kód-objektumban, vagy olyan modellt alkotni, amely pozitív választ ad minden jellegzetes, és minden ritkábban el forduló kongurációra is. A neurális hálók használata ebben a feladatban segít, automatizálva a tanulást, és szükségtelenné téve a minták manuális felsorolását. Az elmúlt néhány évben megnövekedett az érdekl dés a neurális hálók használata iránt, f leg a mély hálók tanítása terjedt el különféle feladatokra. A mély neurális hálók (DNN), szemben a hagyományos hálókkal (ANN) több rejtett réteget tartalmaznak. Az ilyen hálók megfelel tanításához viszont oda kell gyelnünk arra, hogy a rejtett rétegek növelésével a hagyományos back-propagation algoritmus nehézségekbe ütközik. Ilyenek például a vanishing gradient és az explaining away hatások [17]. Az eddig bemutatott módszerekhez hasonlóan, a neurális hálók bemeneti vektorait is blokkszinten nyerjük ki. A háló által kiszámolt jellemz adja meg a QR kód jelenlétének valószín ségét az adott cellában. Ebb l jellemz mátrixot (jellemz képet) építünk (8. ábra), melyben a fentiekhez hasonlóan összefügg területeket 7
(a) valós példa 8. ábra. (b) jellemz kép Okostelefonnal fényképezett kép és hozzá tartozó jellemz kép a neurális háló kimenete alapján. keresünk. A komponensek sz rése után visszaadjuk a befoglaló téglalapokat. Az egyik negnépszer bb állókép-szabvány a JPEG [34], mely hatékony tárolást és továbbítást tesz lehet vé. A legtöbb kamera képes közvetlenül ebben a formátumban rögzíteni, néhány berendezés JPEG adatfolyam továbbítására is képes. Ez indokolta a formátum használatát a kutatáshoz. A neurális hálózatok képesek a frekvenciatérben tanulni, a JPEG ennek egy részhalmazaként fogható fel, rögzített, 8 8 pixeles blokkmérettel. Ezt a megközelítést használva közvetlenül az együttható-vektorokon végezhetünk tanítást, így elkerüljük a JPEG dekompresszió legköltségesebb lépését, az inverz DCT-t. A disszertációban bevezettem a DCT vektorokon tanított, mély egyenirányított hálók használatát, mely hatékonyan végzi a cellák osztályozását a lokalizálási feladathoz. 2.4. Gyenge osztályozók kaszkádja Boosting technikával Belussi és tsa. [3] kísérletezett Haar-waveleteken alapuló jellemz k használatával gyenge osztályozók sokaságának tanítására. Megvizsgálta az osztályozók képességeit és optimális paramétereket javasolt. Az általa tanított osztályozó a QR kódok sarkaiban fellelhet lokátor mintákon tanultak. A kutatásaik szerint az optimális osztályozó csak a Haar-wavelet család alaphalmazát használja, elforgatott entitások nélkül, a gyenge osztályozók kaszkád topológiába szervez dnek maximálisan 1 osztással, osztályozónként legalább 0.5 FPR-rel és 4000 db 16 16 mintával vannak tanítva. A Haar-jellemz k helyett használhatunk LBP (Local Binary Patterns), és HOG jellemz ket (Histograms of Oriented Gradients). A mozaikfelbontás és a blokkok körvonal menti olvasása, mely az el z részben ismertetésre került, analóg az LBP koncepciójával [29], annyi különbséggel, hogy az a középpontot nem használja fel a jellemz kinyeréséhez. A lokátor minták helyett javasoltam és megvizsgáltam olyan osztályozók használatát, melyek az egész kód-objektumon végzik a tanulást. Amellett, hogy a QR 8
(a) (b) 9. ábra. Nyomtatott QR kód asztalterít re helyezve (a) és hozzá tartozó FIS jellemz kép (b) (Matlab JET paletta). kódok nagy változatossággal rendelkeznek az adatrégiókban, tartalmaznak adats r ségi mintát, és egy kisebb, negyedik lokátor mintát, melyet Belussi munkája nem használ ki. Feleslegessé válik továbbá a megtalált lokátorminták hármasokba rendezése, mely számításigényes m velet. Az egész kódon tanult osztályozók nem igényelnek utófeldolgozást a duplikátumok kisz résén kívül. Az LBP és a HOG jellemz s osztályozók egyaránt taníthatók lokátor mintára és egész kódra [11]. Továbbá az LBP a Haar-jellemz knél jobb teljesítmény érhet el, mivel nem korlátozódik egy kötött jellemz halmazra. A HOG jellemz k szintén hatékonyak QR kódok felismerésére, mivel a kódok vizuális struktúrája kell en kötött ahhoz, hogy a cellákon belül jellegzetes gradiens-irányokat produkáljon. 2.5. Fuzzy következtetési rendszerek A textúrák felismerésének egyszer megközelítése a sztochasztikus jellemz k használata [19]. Wang [20] bevezette a textúra-spektrumot, mely kiválóan alkalmas textúrák szegmentálására, illetve a Texture Unit fogalmával jellemezni tudjuk a cellán belüli lokális intenzitás-viszonyokat. Lee és tsa. [27] kiterjesztette ezt az elképzelést a Fuzzy elméletben, Fuzzy Uncertainty Texture Spectrum fogalmat hozott létre, ez- zel megalapozta a textúrák Fuzzy felismerését és jellemzését. Mivel a vizuális kódok textúrákra jellemz tulajdonságokkal is bírnak, a textúrák felismerésében alkalmas módszerek adaptációival felismerhet k. A Fuzzy Texture Spectrum bonyolult szá- molása helyett egyszer jellemz kön alapuló fuzzy következtetési rendszerek (Fuzzy Inference System, FIS) bevezetését javasoltam a feladatra, megalkottam a szabálybázisát és kiértékeltem a lokalizálási hatékonyságát. Ezek a rendszerek könnyen implementálhatók és a jellemz k függvényében gyors, on-line m ködésre is képesek. A szakirodalomban már megtalálható egy kett s küszöbölésen és Fuzzy lépéseken alapuló QR kód detektáló algoritmus [36]. Az általam javasolt FIS rugalmas a vizsgált jellemz k tekintetében, és adaptálható a tézisben ismertetett összes kétdimenziós vizuális kódhoz [8]. 9
A javasolt algoritmus hatékony mind számítási sebesség és memóriaszükséglet tekintetében, és a legtöbb ismertetett jellemz kiszámolható a cellákra osztott kép egy cellájában található pixelek alkalmasan választott részhalmazából is. A bemeneti adatok mennyisége nomhangolhatóvá teszi a módszert a sebesség vagy a pontosság elvét el nyben részesítve a másikkal szemben. Ezek a sajátosságok teszik a fuzzy következtetési rendszereket preferált választássá egyéb on-line algoritmusokkal szemben. A javasolt FIS három bemeneti és egy kimeneti változót tartalmaz. A tagsági függvények paramétereit a végfelhasználói alkalmazáshoz mérten kell beállítanunk, ezt néhány várható input-kép statisztikájának elkészítésével tehetjük meg legegyszer bben. A szükséges jellemz ket egyszer jellemz halmazból vesszük, a koncepció a kaszkádolt gyenge osztályozókkal analóg. Ezek a jellemz k emberi szemmel meg- gyelhet k, és az alábbi kijelentésben foglalhatók össze: egy QR kód f leg sötét és világos pixelekb l áll, nagyjából egyforma arányban, közepes vagy jó kontraszttal és alacsony telítettséggel rendelkezik. Ugyanez igaz marad, ha a kódnak csak egy részletét gyeljük meg, ami indokolja a mozaikfelbontást. A jellemz halmaz igény szerint b víthet. Azon esetekben, amikor a fent ismertetett jellemz k nem nyújtanak kell osztályozó er t, bonyolultabb jellemz k bevonása szükséges. Az általam javasolt új jellemz a futamhossz-mérésen alapuló új tagsági függvény. 3. A tézispontok összefoglalása 1. Bevezettem 3 új, globális információt használó algoritmust a vizuális kódok lokalizációjára képeken. Ezek rendre a klasszikus vonalszkennelésen, Hough transzformáción, valamint matematikai morfológiai operátorok használatán alapulnak. Az utóbbi két algoritmus képes felülmúlni a szakirodalom algoritmusait pontosság és találati arány tekintetében, míg a vonalszkennelésen alapuló algoritmus gyors és szintén elfogadható pontossággal rendelkezik. 2. Új algoritmusokat javasoltam a vizuális kódok helyének meghatározására a kép mozaikfelbontásának ötletét felhasználva. Ezeket az algoritmusokat alacsony számítási és tárigény jellemzi, valamint könnyen párhuzamosíthatók. 2.1. Javasoltam a cellahisztogram, a távolságtérkép és a módosított vonalszkennelés megközelítését helyi jellemz -kinyerésre. Megmutattam továbbá, hogy az egyszer jellemz k kombinációja képes felülmúlni pontosságban vagy találati arányban az eddig ismert algoritmusokat, attól függ en, hogy milyen típusú aggregációt és jellemz ket választunk. 2.2. Implementáltam egy forgás-invariáns jellemz t, mely a klasszikus vonalszkennelésb l származik. Az új jellemz egy kör mentén kinyert lokális 10
intenzitásprolokra épül, továbbá kihasználja a szimmetriákat és a szomszédos cellainformációkat. 3. Bevezettem és elemeztem a neurális hálókat a vizuális kódók lokalizációjára. 3.1. Vizsgálataim igazolták, hogy a mély egyenirányított hálók hatékonynak bizonyultak vizuális kódok lokalizációjára, képtérben és frekvenciatérben egyaránt, bináris képeken is. 3.2. Megmutattam továbbá, hogy a mély egyenirányított hálók közvetlenül JPEG DCT vektorokon is taníthatók, ami szükségtelenné teszi a JPEG dekódolás legköltségesebb m veletét, az inverz DCT-t. 4. Kiértékeltem a kaszkádolt, gyenge jellemz kön alapuló osztályozók használhatóságát a vonalkód lokalizációs feladatra, és fejlesztéseket javasoltam. 4.1. Két új jellemz t javasoltam az osztályozók tanításához, az LBP (Local Binary Patterns) és HOG (Histograms of Oriented Gradients) jellemz ket. Ezek bizonyítottan nagyobb pontosságot biztosítanak a szakirodalom tárgyalt, Haar-waveleteken alapuló jellemz khöz képest. 4.2. Javasoltam a teljes kódobjektumon végzett tanítást a kizárólag lokátormintákon végzett tanítással szemben, ami nagyban egyszer síti az utófeldolgozási lépést. 5. Bevezettem a Fuzzy következtetési rendszerek használatát a vonalkód lokalizációs feladatra, ami gyors végrehajtást és rugalmas modellalkotást tesz lehet vé. 1. táblázat. A publikációk és a tézispontok kapcsolata Publikáció 1 2.1 Tézispont 2.2 3.1 3.2 4 5 Típus [9] konferencia [5] konferencia [6] konferencia [11] konferencia [10] folyóirat [18] konferencia [4] konferencia [7] konferencia [8] konferencia [12] folyóirat 11
Hivatkozások [1] Robert Adelmann. Toolkit for bar code recognition and resolving on camera. In Phones Jump Starting the Internet of Things. In: Informatik 2006 workshop on Mobile and Embedded Interactive Systems, 2006. [2] D.H. Ballard. Generalizing the hough transform to detect arbitrary shapes. Pattern Recognition, 13(2):111122, 1981. [3] Luiz F. F. Belussi and Nina S. T. Hirata. Fast QR code detection in arbitrarily acquired images. In Graphics, Patterns and Images (Sibgrapi), 2011 24th SIBGRAPI Conference on, pages 281288, 2011. [4] Péter Bodnár, Tamás Grósz, László Tóth, and László G Nyúl. Localization of visual codes in the dct domain using deep rectier neural networks. International Workshop on Articial Neural Networks and Intelligent Information Processing: Proceedings of ANNIIP, pages 3744, 2014. [5] Péter Bodnár and László G Nyúl. Improving barcode detection with combination of simple detectors. In The 8th International Conference on Signal Image Technology (SITIS 2012), pages 300306, 2012. [6] Péter Bodnár and László G Nyúl. Barcode detection with uniform partitioning and distance transformation. IASTED International Conference on Computer Graphics and Imaging, pages 4853, 2013. [7] Péter Bodnár and László G Nyúl. QR code localization using boosted cascade of weak classiers. In Image Analysis and Recognition, pages 338345. Springer International Publishing, 2014. [8] Péter Bodnár and László G Nyúl. Localization of visual codes using fuzzy inference system. In VISAPP 2015 Proceedings of the 10th International Conference on Computer Vision Theory and Applications, pages 345352. SciTePress, 2015. [9] Péter Bodnár and László G. Nyúl. Barcode detection with morphological operations and clustering. In Signal Processing, Pattern Recognition, and Applications, Proceedings of the Ninth IASTED International Conference on, pages 5157, 2012. [10] Péter Bodnár and László G. Nyúl. Barcode detection using local analysis, mathematical morphology, and clustering. Acta Cybernetica, 21:2135, 2013. [11] Péter Bodnár and László G. Nyúl. A novel method for barcode localization in image domain. In Image Analysis and Recognition, volume 7950 of Lecture Notes in Computer Science, pages 189196. Springer Berlin Heidelberg, 2013. 12
[12] Péter Bodnár and László G. Nyúl. Improved QR code localization using boosted cascade of weak classiers. Acta Cybernetica, 22:2133, 2015. [13] Richard L. Dunlap and William A. Slat. Application of radio frequency identi- cation, April 24 2012. US Patent 8,164,457. [14] Pedro F. Felzenszwalb and Daniel P. Huttenlocher. Distance transforms of sampled functions. Technical report, Cornell Computing and Information Science, 2004. [15] Orazio Gallo and Roberto Manduchi. Image-based barcode reader, January 27 2011. WO Patent App. PCT/US2010/002,023. [16] Orazio Gallo and Roberto Manduchi. Reading 1D barcodes with mobile phones using deformable templates. IEEE Trans. Pattern Anal. Mach. Intell., 33(9):18341843, 2011. [17] Xavier Glorot, Antoine Bordes, and Yoshua Bengio. Deep sparse rectier networks. In Proc. AISTATS, pages 315323, 2011. [18] Tamás Grósz, Péter Bodnár, László Tóth, and László G Nyúl. QR code localization using deep neural networks. In Machine Learning for Signal Processing (MLSP), 2014 IEEE International Workshop on, pages 16. IEEE, 2014. [19] Robert M Haralick. Statistical and structural approaches to texture. Proceedings of the IEEE, 67(5):786804, 1979. [20] Dong-Chen He and Li Wang. Texture features based on texture spectrum. Pattern Recognition, 24(5):391399, 1991. [21] Pavel imurda. Barcode localization in image. In Information Sciences and Technologies Bulletin of the ACM Slovakia, volume 3, pages 5556, 2011. [22] Xiaojun Qi James Juett. Barcode localization using bottom-hat lter. NSF Research Experience for Undergraduates, 2005. [23] Eugene Joseph and Theo Pavlidis. Bar code waveform recognition using peak locations. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 16(6):630640, 1994. [24] Melinda Katona and László G. Nyúl. A novel method for accurate and ecient barcode detection with morphological operations. In The 8th International Conference on Signal Image Technology (SITIS 2012), pages 307314, 2012. [25] Nahum Kiryati, Yuval Eldar, and Alfred M. Bruckstein. A probabilistic hough transform. Pattern Recognition, 24(4):303316, 1991. 13
[26] Chuck Kurtz, Gary E. Desjardins, and Stephen J. Sanchez. Self checkout system with automated transportation conveyor, April 17 2007. US Patent 7,204,346. [27] Yih-Gong Lee, Jia-Hong Lee, and Yuang-Cheh Hsueh. Texture classication using fuzzy uncertainty texture spectrum. Neurocomputing, 20(1):115122, 1998. [28] Daw-Tung Lin, Min-Chueh Lin, and Kai-Yung Huang. Real-time automatic recognition of omnidirectional multiple barcodes and dsp implementation. Machine Vision and Applications, 22:409419, 2011. [29] T. Ojala, M. Pietikainen, and D. Harwood. Performance evaluation of texture measures with classication based on kullback discrimination of distributions. In Pattern Recognition, 1994. Vol. 1 - Conference A: Computer Vision and Image Processing., Proceedings of the 12th IAPR International Conference on, volume 1, pages 582585 vol.1, Oct 1994. [30] Jean Serra. Image analysis and mathematical morphology. Academic Press, Inc., 1983. [31] István Szentandrási, Adam Herout, and Markéta Dubská. Fast detection and recognition of QR codes in high-resolution images. In Proceedings of the 28th Spring Conference on Computer Graphics, SCCG '12, pages 129136, New York, NY, USA, 2013. ACM. [32] Ender Tekin and James M. Coughlan. A mobile phone application enabling visually impaired users to nd and read product barcodes. In Proceedings of the 12th international conference on Computers helping people with special needs, pages 290295, Berlin, Heidelberg, 2010. Springer-Verlag. [33] Timothy R. Tuinstra. Reading barcodes from digital imagery. Technical report, Cedarville University, 2006. [34] Gregory K. Wallace. The JPEG still picture compression standard. Consumer Electronics, IEEE Transactions on, 38(1):xviiixxxiv, Feb 1992. [35] Chunhui Zhang, Jian Wang, Shi Han, Mo Yi, and Zhengyou Zhang. Automatic real-time barcode localization in complex scenes. In Proceedings of International Conference on Image Processing, pages 497500, 2006. [36] Bin Zhou, Shumei Lan, Kai Sun, Jie Cao, Huajun Yu, and Yongliang Chen. Double thresholds with a membership function applied to qr image recognition. In The Fuzzy Systems, Knowledge Discovery, and Natural Computation Symposium, pages 5963, 2013. 14
Társszerzői nyilatkozat Kijelentem, hogy ismerem Bodnár Péter PhD fokozatra pályázó Image analysis methods for localization of visual codes című disszertációját. Az alábbi cikkben közösen publikált és a disszertációban is szereplő eredményekről az alábbi nyilatkozatot teszem. A következő eredményekben a pályázó hozzájárulása volt a meghatározó: 1. Péter Bodnár, Tamás Grósz, László Tóth, and László G Nyúl. Localization of visual codes in the DCT domain using deep rectifier neural networks. In Madani K., editor, International Workshop on Artificial Neural Networks and Intelligent Information Processing, Lecture Notes in Computer Science, pp. 37 44, 2014 A pályázó javasolta neurális hálók tanítását a frekvenciatérben. 2. Tamás Grósz, Péter Bodnár, László Tóth, and László G Nyúl. QR code localization using deep neural networks. In Moreau Eric Larsen Jan Mboup Mamadou, Adali Tülay, editor, International Workshop on Machine Learning for Signal Processing, Lecture Notes in Computer, 6 p. Science, 2014 A pályázó jellemzőket javasolt neurális hálók tanításához mind a képtérből, mind a frekvenciatérből. A neurális hálóhoz bemeneti típusokra és blokkméretre adott javaslatot. Javasolta a részben fedett blokkok tanítását. Ezeket az eredményeket nem használtam fel és a jövőben sem használom fel tudományos fokozat megszerzéséhez. Szeged, 2015. december 15. Grósz Tamás
Társszerzői nyilatkozat Kijelentem, hogy ismerem Bodnár Péter PhD fokozatra pályázó Image analysis methods for localization of visual codes című disszertációját. Az alábbi cikkben közösen publikált és a disszertációban is szereplő eredményekről az alábbi nyilatkozatot teszem. A következő eredményekben a pályázó hozzájárulása volt a meghatározó: 3. Péter Bodnár, Tamás Grósz, László Tóth, and László G Nyúl. Localization of visual codes in the DCT domain using deep rectifier neural networks. In Madani K., editor, International Workshop on Artificial Neural Networks and Intelligent Information Processing, Lecture Notes in Computer Science, pp. 37 44, 2014 A pályázó javasolta neurális hálók tanítását a frekvenciatérben. 4. Tamás Grósz, Péter Bodnár, László Tóth, and László G Nyúl. QR code localization using deep neural networks. In Moreau Eric Larsen Jan Mboup Mamadou, Adali Tülay, editor, International Workshop on Machine Learning for Signal Processing, Lecture Notes in Computer, 6 p. Science, 2014 A pályázó jellemzőket javasolt neurális hálók tanításához mind a képtérből, mind a frekvenciatérből. A neurális hálóhoz bemeneti típusokra és blokkméretre adott javaslatot. Javasolta a részben fedett blokkok tanítását. Ezeket az eredményeket nem használtam fel és a jövőben sem használom fel tudományos fokozat megszerzéséhez. Szeged, 2015. december 15.