Figyelmi algoritmusokkal vezérelt helyszínanalízis

Hasonló dokumentumok

Képfeldolgozás Szegmentálás Osztályozás Képfelismerés Térbeli rekonstrukció

EEE Kutatólaboratórium MTA-SZTAKI Magyar Tudományos Akadémia

SZEMLÉLETES RÉSZINFORMÁCIÓK INTEGRÁCIÓS PROBLÉMÁINAK VIZSGÁLATA A VIRTUÁLIS VALÓSÁGOT TEREMTŐ SZIMULÁTOROK ALAPJÁN

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

CARE. Biztonságos. otthonok idős embereknek CARE. Biztonságos otthonok idős embereknek Dr. Vajda Ferenc Egyetemi docens

Méréselmélet MI BSc 1

FIATAL MŰSZAKIAK TUDOMÁNYOS ÜLÉSSZAKA

Neurális hálózatok bemutató

A modern e-learning lehetőségei a tűzoltók oktatásának fejlesztésében. Dicse Jenő üzletfejlesztési igazgató

Grafikonok automatikus elemzése

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Mérés és modellezés Méréstechnika VM, GM, MM 1

Önálló labor beszámoló Képek szegmentálása textúra analízis segítségével. MAJF21 Eisenberger András május 22. Konzulens: Dr.

Cloud computing. Cloud computing. Dr. Bakonyi Péter.

Forgalmi modellezés BMEKOKUM209

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Statisztikai eljárások a mintafelismerésben és a gépi tanulásban

Mérés és modellezés 1

TECHNIKAI RENDSZEREK ÁLLAPOTLEÍRÁSÁNAK KÉRDÉSEI QUESTIONS REGARDING THE DESCRIPTION OF THE STATE OF TECHNICAL SYSTEMS

Hibadetektáló rendszer légtechnikai berendezések számára

Cloud computing Dr. Bakonyi Péter.

Láthatósági kérdések

A CAN mint ipari kommunikációs protokoll CAN as industrial communication protocol

Váz. Látás-nyelv-emlékezet Látás 2. A szemtől az agykéregig. Három fő lépés:

Közúti forgalomszámlálás e_sensor rendszerrel Budapest dugódíj projekt (sajtóanyag)

Az informatika kulcsfogalmai

Miről lesz szó? Videó tartalom elemzés (VCA) leegyszerűsített működése Kültéri védelem Közúthálózat megfigyelés Emberszámlálás

Szimuláció RICHARD M. KARP és AVI WIGDERSON. (Készítette: Domoszlai László)

Teljesítmény Mérés. Tóth Zsolt. Miskolci Egyetem. Tóth Zsolt (Miskolci Egyetem) Teljesítmény Mérés / 20

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Útjelzések, akadályok felismerése valós időben

Rendszer szekvencia diagram

Gépi tanulás a Rapidminer programmal. Stubendek Attila

A Margit híd pillérszobrának 3D-s digitális alakzatrekonstrukciója Nagy Zoltán 1 Túri Zoltán 2

Using the CW-Net in a user defined IP network

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

CHARACTERIZATION OF PEOPLE

A hálózattervezés alapvető ismeretei

Vasúti kocsik vázszerkezetének a felhasználhatósága kisebb nyílások áthidalására helyi érdek8 közúti utakon

Az ErdaGIS térinformatikai keretrendszer

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

ELTE SAP Excellence Center Oktatóanyag 1

Modellezés és szimuláció. Szatmári József SZTE Természeti Földrajzi és Geoinformatikai Tanszék

DR. SZABÓ LÁSZLÓ 1 DOBOS GÁBOR 2

Multimédiás adatbázisok

Laborsegédlet 3. Labor

I. LABOR -Mesterséges neuron

Üdv. a 21 napos Hallás utáni szövegértés online tréning 2. napján!

Alter Róbert Báró Csaba Sensor Technologies Kft

Kognitív Infokommunikáció: egy ébredő interdiszciplína. Baranyi Péter DSc

Széchenyi István Egyetem

MIKOVINY SÁMUEL TÉRINFORMATIKAI EMLÉKVERSENY

A Riemann-Siegel zeta függvény kiugró értékeinek keresése. A matematikai egyik legnehezebb problémája, avagy a prímszámok misztériuma

Adatelemzés SAS Enterprise Guide használatával. Soltész Gábor solteszgabee[at]gmail.com

Karbantartás. Az ESZR Karbantartás menüjébentudjuk elvégezni az alábbiakat:

Számítógépes döntéstámogatás. Genetikus algoritmusok

Construction of a cube given with its centre and a sideline

8.3. Az Információs és Kommunikációs Technológia és az olvasás-szövegértési készség

Osztott algoritmusok

A szerzõrõl... xi Bevezetés... xiii

Karbantartás. Az ESZR Karbantartás menüjébentudjuk elvégezni az alábbiakat:

1. számú ábra. Kísérleti kályha járattal

Városi tömegközlekedés és utastájékoztatás szoftver támogatása

KONVOLÚCIÓS NEURONHÁLÓK. A tananyag az EFOP pályázat támogatásával készült.

Adatmodellezés. 1. Fogalmi modell

Mechatronika segédlet 10. gyakorlat

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Osztott jáva programok automatikus tesztelése. Matkó Imre BBTE, Kolozsvár Informatika szak, IV. Év 2007 január

Cluster Analysis. Potyó László

Gépi tanulás a gyakorlatban. Bevezetés

Searching in an Unsorted Database

PC kártya és a szoftver telepítése, indítása után ( ID, jelszó : admin, admin)

ENELFA PROJEKT. (Entrepreneurship by E-Learning For Adults) Dr. PUCSEK JÓZSEF BGF Tanszékvezető-helyettes

Tömbök kezelése. Példa: Vonalkód ellenőrzőjegyének kiszámítása

A 3D mozgáselemző rendszer és alkalmazásának lehetőségei. Dr. Béres Sándor PhD főiskolai docens SZTE JGYPK TSTI

Lakóház tervezés ADT 3.3-al. Segédlet

ADATBÁZISKEZELÉS ADATBÁZIS

INTELLIGENT ENERGY EUROPE PROGRAMME BUILD UP SKILLS TRAINBUD. Quality label system

Szakmai zárójelentés

Kinek szól a könyv? A könyv témája A könyv felépítése Mire van szükség a könyv használatához? A könyvben használt jelölések. 1. Mi a programozás?

M-Fájlok létrehozása MATLAB-ban

Piri Dávid. Mérőállomás célkövető üzemmódjának pontossági vizsgálata

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Napfotók (webkamerás felvételek) képfeldolgozása

KÖZIGAZGATÁSI ADATBÁZISOK ÖSSZEKAPCSOLÁSÁNAK BIZTONSÁGI KÉRDÉSEI

HALLGATÓI KÉRDŐÍV ÉS TESZT ÉRTÉKELÉSE

Fuzzy rendszerek és neurális hálózatok alkalmazása a diagnosztikában

Automatizált Térfigyelő Rendszer. Sensor Technologies Kft

Szegedi Tudományegyetem Informatikai Tanszékcsoport SZAKDOLGOZAT. Fertői Ferenc

8. Pontmegfeleltetések

Web Services. (webszolgáltatások): egy osztott alkalmazásfejlesztési plattform

OSI-ISO modell. Az OSI rétegek feladatai: Adatkapcsolati réteg (data link layer) Hálózati réteg (network layer)

A BDF website elemzése SPSS CLEMENTINE WEB MINING segítségével. Zsiros Péter

Érintő képernyős megjelenítés és vezérlés új lehetőségei az MDT készülékeivel.

IT KOCKÁZATOK, ELEMZÉSÜK, KEZELÉSÜK

Az INTRO projekt. Troposzféra modellek integritásvizsgálata. Rédey szeminárium Ambrus Bence

Rendszámfelismerő rendszerek

Vezetői információs rendszerek

Átírás:

Diplomamunka Figyelmi algoritmusokkal vezérelt helyszínanalízis Persa György Témavezető: Karacs Kristóf Pázmány Péter Katolikus Egyetem Információs Technológiai Kar Budapest 2009

2 Figyelmi algoritmusokkal vezérelt helyszínanalízis Diplomaterv témabejelentő 2

3 Figyelmi algoritmusokkal vezérelt helyszínanalízis Diplomatervezői nyilatkozat Alulírott Persa György, a Pázmány Péter Katolikus Egyetem Információs Technológiai Karának hallgatója kijelentem, hogy ezt a diplomatervet meg nem engedett segítség nélkül, saját magam készítettem, és a diplomamunkában csak a megadott forrásokat használtam fel. Minden olyan részt, melyet szó szerint, vagy azonos értelemben, de átfogalmazva más forrásból átvettem, egyértelműen a forrás megadásával megjelöltem. Ezt a Diplomamunkát más szakon még nem nyújtottam be... 3

4 Figyelmi algoritmusokkal vezérelt helyszínanalízis Tartalomjegyzék DIPLOMATERV TÉMABEJELENTŐ... 2 DIPLOMATERVEZŐI NYILATKOZAT... 3 TARTALOMJEGYZÉK... 4 TARTALMI ÁTTEKINTÉS... 5 ABSTRACT... 7 FELADATSPECIFIKÁCIÓ... 9 A BIONIKUS SZEMÜVEG... 10 HELYSZÍNKLASSZIFIKÁCIÓ AZ IRODALOMBAN... 12 FIGYELMI MODELL... 13 A MODELL JELENTŐSÉGE... 13 A MODELL FELÉPÍTÉSE... 15 A FELTŰNŐSÉGI TÉRKÉP... 17 FIGYELMI ALGORITMUSOK... 18 RENDSZERFEJLESZTÉS LÉPÉSEI... 23 EGYSZERŰ FIGYELMI ALGORITMUSOK MEGVALÓSÍTÁSA... 23 FELTŰNŐSÉGI TÉRKÉPEK ELEMZÉSE... 24 RÉSZLETES MEGJELENÍTŐ ESZKÖZÖK... 26 FELTŰNŐ TERÜLETEK KÖVETÉSE... 28 A tracking jelentősége... 28 Az algoritmus megvalósítása... 29 Felmerülő problémák... 32 Felhasználói felület... 36 FIGYELMI PARAMÉTEREK ELŐÁLLÍTÁSA... 39 Statikus paraméterek... 39 Dinamikus paraméterek... 41 Osztályok meghatározása... 44 HELYSZÍNEK OSZTÁLYOZÁSA A KINYERT PARAMÉTEREK ALAPJÁN... 45 Felügyelt tanulás... 45 Dinamikus paraméterek... 51 Klasszifikációs teljesítmény... 53 EREDMÉNYEK... 55 ÖSSZEFOGLALÁS... 55 FELHASZNÁLHATÓSÁG... 56 KÖSZÖNETNYILVÁNÍTÁS... 58 HIVATKOZÁSOK... 59 FÜGGELÉK... 60 4

5 Figyelmi algoritmusokkal vezérelt helyszínanalízis Tartalmi áttekintés Jelen munka egy mozgóképekkel dolgozó, képfeldolgozási feladatokat ellátó rendszer fejlesztését mutatja be. A munkában, és a kifejlesztett rendszerben sok különböző tudományterület találkozik, és mindegyik területen végzett feladat fontos elemét képzi a végső eredménynek. Az alapvetően képfeldolgozási feladatok mellett adatbányászati, és néhány robotikában használatos alkalmazás is jelentős szerepet kap. A rendszer alapvető funkciója helyszínek, illetve szituációk elemzése és osztályozása, amely legfőképp személyi navigációs módszerek területén kap fontos szerepet. A feladatot a bionikus szemüveg projekt keretei közt valósítottam meg, amely egy vakoknak és gyengénlátóknak készülő személyi navigációs eszköz. Ez segítséget nyújt számokra olyan hétköznapi élethelyzetekben, amelyekben valamely kizárólag vizuálisan elérhető információhoz szeretnének hozzájutni. A különböző környezetekben, helyszíneken lezajló események általánosságban eltérő feladatokat kívánnak meg a személyi navigációs rendszerektől. Az ilyen rendszerek funkciói közül egyesek bizonyos helyszíneken nem használhatók hatékonyan, míg mások jelentősége esetleg épp az adott környezetben a legnagyobb. Ezért a használható funkciók különböző mértékű hasznosításának alapjai között jelentős szerep jut a környezetnek és szituációnak. Egy olyan rendszer, amely nem pusztán csak a látótér vizuális információhalmazára támaszkodhat, hanem információval rendelkezik a látótérben lezajló események helyszínéről, hatékony megoldást jelenthet. Ezen túlmenően a helyszínek azonosítása más rendszerekben is hasznos lehet, mint például autonóm robotok intelligenciájának megvalósításához. A szituációk azonosítása emberek esetén egy magas szintű kognitív folyamat, ezért a mesterséges rendszerekben is a vezérlés felsőbb szintjeire kerülhet beépítésre. A szituáció ismeretével pontosabban megválaszthatók a hierarchiában alacsonyabban elhelyezkedő folyamatok működési paraméterei és használati módja. De konkrét alkalmazási lehetőségeket is magában hordoz az, ha általános, áttekintő információk is rendelkezésre állnak a helyszínről. Ezek a lehetőségek, és alkalmazási megfontolások minden esetben egy olyan mobilizálható rendszer kifejlesztését segítik elő, amely nem csak egy adott feladat megoldására alkalmas. Ellenkező esetben ugyanis a helyszínek azonosítása gyakorlatilag haszontalan, hiszen a környezet adott. Különböző szituációkban, több feladat 5

6 Figyelmi algoritmusokkal vezérelt helyszínanalízis megoldására életre hívott rendszerek esetén azonban a helyszínek elemzése elősegítheti az ideális működést. Munkámban a helyszínek ilyen megkülönböztetését figyelmi algoritmusok segítségével valósítom meg. A figyelmi algoritmus kifejezés arra utal, hogy egy olyan modellt használok fel a helyszínklasszifikációt végző algoritmusok kifejlesztéséhez, amely az emberi figyelem működésének biológiailag hiteles leírása. Ez azt jelenti, hogy a képfolyam minden képére a modellből származó információkat használom fel a helyszínanalízishez. A figyelmi modell által nyújtott információk úgy nevezett feltűnőségi (vagy saliency) értékek formájában jelennek meg. Ez a mérőszám utal arra a tényre, hogy egy kép pontja, vagy egy, a képen található objektum mennyire vonzza magára az ember tekintetét a modell alapján. Ezen feltűnőségi értékek eloszlása, mozgása, és értéke a legfőbb szempontok, amelyek alapján a figyelmi információ egyéb alkalmazások, és következtetések alapjául szolgálhat. A figyelmi modellről, a bionikus szemüveg projektről, és a kifejlesztett rendszer megalkotásának lépéseiről részletesebben a nekik szentelt fejezetben számolok be. Minden témakörben alapvetően a lépések szükségszerűségére, megvalósítására és a levonható következtetésekre helyeztem a hangsúlyt. Ennek megfelelően a figyelmi modellről szóló fejezet értelmezi az emberi figyelem működésének, és modellezésének alapjait, a megismert modell felépítését, a használat során levont tapasztalatokat és az ezekre épülő algoritmusok tulajdonságait. A bionikus szemüveg fejezet bemutatja a projekt alapvető célkitűzéseit, és részletezi a kidolgozott feladat szerepét a fejlesztésben. A rendszerfejlesztést leíró fejezetben a figyelmi modellből előállított saját alkalmazások továbbfejlesztését, és használhatóságát vizsgálom, minden fontos lépést, és algoritmusfejlesztési folyamatot részletesen ismertetve. Megkülönböztetett jelentőséggel bír az alkalmazott követő algoritmus kifejlesztése, eredményeinek elemzése, és az így előállított klasszifikációra alkalmas paraméterek leírása. A kifejlesztett alkalmazások alapján végül a klasszifikációs működés megvalósítását ismertetem, és ezzel zárul le a rendszerfejlesztés ismertetése. Az utolsó fejezetben a kifejlesztett rendszer eredményességéről, és teljesítményéről adok értékelést. 6

7 Figyelmi algoritmusokkal vezérelt helyszínanalízis Abstract Present work gives a report about the development of a system for an image processing task using video flows. In this work and in the developed system several fields of knowledge are used, and results received on different fields give important elements for the solution. Besides principal image processing tasks an important role is given for application in data mining and some kinds of robotics. The main function of the system consists of the analysis and classification of scenes and situations, which has an important role in personal navigation systems. My solution of the problem is realized in the framework of the bionic eyeglass project that aims to create a personal navigation device for blind and low vision persons. This device helps them in everyday situations where they are in need of some special visual information. Events in different surroundings and scenes require different tasks from the personal navigation system. While some functions of such a system are inapplicable on specific scenes, values from other functions are very important in the given situation. Therefore the scene and the situation have an important role in the appropriate application of different functions. A system that relies not only on visual information but also on the type of scene may provide a much more effective solution. Furthermore the identification of scenes can be useful in other systems too, for example in realization of the intelligence of autonomous robots. Identification of the situations represents in human beings a high level of cognitive process thus in artificial systems this process should be applied at a high level of the control mechanisms. Information about the situation may help to specify more properly the parameters of the operation and application scheme in lower levels of the processing hierarchy. General and clearly arranged information given about the scenes allows for several application areas. Such possibilities and ideas of application greatly contribute to the development of a portable system to be used for multiple tasks. Otherwise the identification of scenes is practically unnecessary because the situation is given. Considering systems of complex functionality, an analysis of scenes can result ideal operation. In my work the differentiation of scenes is realized through so called saliency algorithms. The expression saliency algorithm refers to the application of a model in algorithm development for scene-classification, which is a biologically authentic description for the process of human attention. This means that for analysing the scene the information 7

8 Figyelmi algoritmusokkal vezérelt helyszínanalízis received from the attention model is applied for every frame of the video flow. Information given by the attention model appears in a form of so-called saliency values. This value measures the strength a point in a picture or an object in it captures the attention of a person according to the model. Distribution, movement and measure of these saliency values are the most important aspects, based on which the attention information may be used for further processing and/or reasoning. The corresponding chapters give a report about the attention model, the bionic eyeglass project and steps for realization of the developed system. In each area I emphasize the necessity of basic steps, their actual realization and consequences that can be drawn. According to this the section describing the attention model explains the way how attention works, the basics of modelling, the structure of the applied model, experiences from its application and the properties of the algorithms developed. The chapter about the bionic eyeglass presents the basic aims of the project and gives details about the place of my work in the research project. In the section about system development I analysed the development and usability of my applications based on the attention model with the details of every important step and process in the development of the algorithms. The elaboration of the used tracking algorithm, the analysis of its results and the description of parameters for classification are also emphasized. Finally the realization of classification operation is described based on the developed application and this closes the description of system development. In the last chapter I give an evaluation about the efficacy and performance of the developed system. 8

9 Figyelmi algoritmusokkal vezérelt helyszínanalízis Feladatspecifikáció A figyelmi algoritmusokkal vezérelt helyszínanalízist megvalósító rendszer tehát a neuromorf figyelmi modellből nyert mozgóképeket dolgoz fel, és a felvett jelenet feltűnőségi elemzése alapján analizálja, klasszifikálja a helyszíneket, szituációkat. A feladat kidolgozásának célja a bionikus szemüveg projektben szereplő alkalmazások hatékonyságának növelése. Ez a projekt egy személyi navigációs rendszer fejlesztésének munkálatait dolgozza ki vakok és gyengénlátók részére. A bionikus szemüveggel, és a figyelmi algoritmusokkal vezérelt helyszínanalízis projektben betöltött szerepével a vonatkozó fejezet foglalkozik részletesebben. Az videó adatbázis elkészítéséhez mobiltelefon kamerát használtam, QVGA, azaz 640*480 pixelfelbontású minőségben. A felvétel minősége ettől természetesen eltérhet, de nagy tömörítésű felvételeknél problémák merülhetnek fel. Az ehhez vonatkozó meglátásokról a Feltűnőségi térképek elemzése részben térek ki részletesebben. Az elkészült felvételek tipikus, körülbelül 8-10 másodperces jeleneteket tartalmaznak az osztályozandó szituációkról. Természeti, beltéri, utcai, és forgalmi jelenetek szerepelnek közöttük (1. ábra). A felvételeket a figyelmi modell által megkövetelt formára hozva, és a kapott eredményt videóba importálva Matlab környezetben dolgoztam ki a feltűnőségi elemzéshez szükséges algoritmusokat. A függvények megvalósításánál többnyire a programnyelv képfeldolgozó kiegészítőjében (Image Processing Toolbox) található, és beépített alkalmazásokat használtam fel. Az rendszerfejlesztés lépéseiként a figyelmi modellből származó eredmények naiv vizsgálatához szükséges egyszerű algoritmusok kidolgozása, részletes megjelenítő eszközök létrehozása, követő (tracking) algoritmus konstruálása, és tanító algoritmus segítségével a klasszifikáció megvalósítása szerepelnek. Mindegyikkel külön fejezetben foglalkozom részletesebben. 9

10 Figyelmi algoritmusokkal vezérelt helyszínanalízis a. b. c. d. 1. Ábra A négy eltérő típusú szituációt bemutató mintafelvételek a. beltér, b. természet, c. utca, d. forgalom A bionikus szemüveg A bionikus szemüveg projekt vakok és látássérültek számára kíván széleskörű segítséget nyújtani. Ez olyan alkalmazások kifejlesztését jelenti, amelyek a mindennapok vizuális információit számukra is érthető formában közvetíti. Egy mobiltelefon kameráját felhasználva olyan eszköz tervezése a cél, amely mindig kéznél tartható és a kritikus szituációkban segítséget képes nyújtani. Vakoktól és gyengénlátóktól származó vélemények, meggondolások alapján a következő helyszínek kapnak nagy hangsúlyt a munkában: otthon, munkahely, és a köztük levő út. Ennek megfelelő részfeladatok kidolgozása a cél. A projektben szereplő kidolgozott, és kidolgozás alatt lévő alkalmazások között a mindennapos tevékenységeket megkönnyítő modulok szerepelnek. Az otthoni környezetben használatosak között olyan alkalmazások születtek, amely a vakok otthoni életéhez szükséges eseményekben tudnak segítséget nyújtani. Az égő villany, vagy gáztűzhely problémája például számukra kifejezetten fontos feladat, de egyéb, komfort szempontjából fontos alkalmazások is szerephez jutottak a projekt keretein belül (például a ruhák színeit meghatározó alkalmazás). Az utcai környezet nyilvánvalóan a legnehezebb feladatokat veti fel egy ilyen rendszer kidolgozásában. Mivel azonban a vakok és gyengénlátók ezen a területen rendelkeznek a legtöbb tapasztalattal, ezért főleg olyan alkalmazások kifejlesztése a 10

11 Figyelmi algoritmusokkal vezérelt helyszínanalízis cél, amelyeket más módszerekkel nem lehet helyettesíteni. Ilyen feladatok például a közúti jelzések meghatározása, a mozgólépcső menetirányának közvetítése, vagy a tömegközlekedési eszközök menetszámainak leolvasása. Ezeken kívül számos általánosan használható alkalmazás is a rendszer részét képzi, mint például a papírpénzek címleteinek meghatározása. Az összes kifejlesztett alkalmazás a tervek szerint a felhasználó által aktiválható, vagyis egy számpanel, vagy egyéb beviteli eszköz segítségével kiválasztható lesz, ezért a rendszer testreszabása nagyban segíti az eszköz használhatóságát. A testreszabás, és az ideális működés eszközeként a helyszínek, szituációk osztályozás, és ismerete szolgálhat. A lényegesen eltérő helyszínek ugyanis, mint láttuk, lényegesen eltérő alkalmazások kifejlesztését szorgalmazzák. Ha a rendszer információval rendelkezik a látótérben lezajló események környezeti, vagy helyszínbeli vonatkozásairól, úgy az alkalmazott funkciók megválogatása, vagy automatikus felajánlása is lehetővé válhat. Egy otthoni környezet felismerése például szükségen kívül helyezhetné a közlekedésben használatos funkciók aktivitását, míg az utcai környezet meghatározásával bizonyos alkalmazások folyamatos készenlétbe lennének helyezhetők (például rendszeres átkelési lehetőségek, zebrák keresése az úton). Ez azt is jelenti, hogy a testreszabás a felhasználónak körülményekhez, és szituációkhoz alkalmazkodó profilok beállítását teszi lehetővé. Az összes alkalmazás aktiválási kódjának megjegyzése, vagy futásuknak felhasználói felügyelete ugyanis olyan feladatot jelenthet a felhasználónak, amely helyszínek alapján beállított profilok segítségével nagymértékben megkönnyíthető. Az automatikusan felajánlott funkciók lehetősége, az esetlegesen veszély esetén aktiválódó alkalmazások, vagy csak egyszerűen az aktivitási kódok számának lecsökkenése (egy aktivitási kód más-más alkalmazást futtat a környezet függvényében) kényelmesebbé teszik a rendszer használatát, és a belé vetett bizalmat. Ebben a vonatkozásban tehát a rendszer alkalmazásának megkönnyítése érdekében a helyszínek, szituációk elemzése, klasszifikálása a projektbe illő, megvalósítandó feladatként szerepel. 11

12 Figyelmi algoritmusokkal vezérelt helyszínanalízis Helyszínklasszifikáció az irodalomban Helyszínek klasszifikációjával sokan foglalkoztak az elmúlt években. A feladat legfőbb nehézsége abban a tényben rejlik, hogy ez a fajta felosztása a látótérnek emberi meggondolásokon alapszik. A képi információból egy olyan információ kinyerése a cél, amely valójában csak az ember számára értelmezhető. A legtöbb megoldás egy rendkívül bonyolult képfeldolgozási apparátus eredményeit használja fel, és ez alapján osztályozza a környezetet. A felosztás többnyire az emberi élőterekhez szorosan kapcsolódik. Utca, folyosó, természet, kültér, beltér, iroda, szabad tér szerepelnek a legtöbb esetben osztályokként. A képfeldolgozási algoritmusok között legtöbb esetben feltűnik a képi információ színekre bontása, hiszen ez alapján már bizonyos következtetések levonhatóak. A fény vertikális megváltozását, a vertikális szimmetriát, a lokális homogenitást felhasználva már klasszifikálni lehet a tipikusan kültéri, vagy beltéri helyszíneket [1]. Ezek után képfeldolgozási algoritmusok különböző sorrendje használható fel olyan adatok kinyerésére melyek akár már öt osztályba is képesek besorolni a helyszíneket, és ezek közötti megváltozást, vagy együttes jelenlétet is kezelni tudnak (erdei ösvény: utca és természet)[2]. A legtöbbször használt algoritmusok az éldetekció, a sarokdetekció, diszkrét Fourier transzformáció, Laplace, és Sobel filter. Az általam használt módszer ezektől lényegesen eltér abból a szempontból, hogy biológiai szempontból közelítem meg a témakört, és egy a biológia által motivált modell használatával nyerek ki hasonlóan releváns információkat a képből. Ezen kívül az osztályok száma is valószínűleg kisebbre tehető, mint a fent említett alkalmazásokban, hiszen a feladatomban e helyszíneket az alkalmazott bionikus szemüveg-béli funkciók szerint fogom csoportosítani, így akár egész más felosztás is szóba jöhet, ha az a projectben való használhatóság szempontjából előnyösebb. 12

13 Figyelmi algoritmusokkal vezérelt helyszínanalízis Figyelmi modell A modell jelentősége A látás, és az ehhez kapcsolódó emberi élmény mindenkiben magától értetődő, és automatikusan lezajló folyamatnak érzékelhető, annak ellenére, hogy mennyire összetett mechanizmusról van szó valójában. A látótérben levő objektumokról, eseményekről a szemünk által gyűjtött rengeteg információ azonban bonyolult folyamatokon megy keresztül, míg a vizuális hatást kifejti agyunkban. A látás élménye nem azonos a retinába beérkező fotonok által alkotott képpel, sok vizuális emlék, és szelekció után alakul ki az élmény, amit érzékelünk. A látás mechanizmusa pontosan olyan mértékben, és olyan intenzitással szerzi meg a környezetből származó információkat, hogy a kialakult látás érzete a lehető legtökéletesebben írja le a környezetünket, látóterünket. Ez azonban nem jelenti azt, hogy minden pillanatban információt szolgáltat a megfigyelhető objektumokról, vagy hogy minden látható tárgyat ugyanolyan prioritással kezelne. Annak ellenére, hogy a látás élményében úgy érezzük, mindenről tudomásunk van, ami a környezetünkben történik, valójában ez az érzés csak korlátozottan fedi a valóságot. Kísérletek igazolják, hogy a környezetben bekövetkező változások, ha nem elég gyorsan történnek, a látás élményében felismerhetetlenné válhatnak. Ha például egy szobában a fal színét megfelelően alacsony sebességgel változtatjuk meg, az emberi szemlélő nem lesz tisztában a változással, nem veszi észre azt. Ennek magyarázata éppen abban rejlik, hogy a látható kép nem minden részlete kerül bele a látási élménybe, az élményt kialakító mechanizmus tehát szelektál. A látótérből érkező rengeteg információ szelektálása a látási élmény kialakításában, és a maximális informáltság eléréséhez feleslegesnek mondható részek elhagyásával történik, amely így az agyi feldolgozás feladatainak mennyiségét csökkenti, tehát megkönnyíti a folyamatot. A látás élménye tehát inkább egyfajta reprezentációs módszer eredménye, mint konkrétan a látási mechanizmusé. Ezt a reprezentációs módszert nevezzük emberi figyelemnek, amely szelektálja a látótérben megfigyelhető objektumokat, és eseményeket annak függvényében, hogy mennyire releváns az adott pillanatban. A figyelem érzése tudatos, és reflexszerű folyamatokból egyaránt áll, és együttműködésük teszi lehetővé a szemből érkező információk olyan élménnyé alakítását, amely ugyanúgy képes a látótér apróbb részleteit észrevenni, mint a feleslegesnek ítélt dolgokat kívül helyezni a feldolgozási folyamaton, vagy veszélyeztetettség esetén reflexszerűen a fontos részleteket feldolgozni. 13

14 Figyelmi algoritmusokkal vezérelt helyszínanalízis A biológiai modellt alapul véve a szituációk, helyszínek megállapítása, rendszerezése az emberi agy számára szintén automatikusan működő feladat. A vizuális figyelem jelenségét alapvetően két különböző működési mechanizmus határozza meg, illetve ezek együttes működéséből jön létre a figyelem. Az egyik az agy felsőbb, szervezettebb részeiből induló mechanizmus, a tudatos figyelem, amely a látótér azon részére képes a figyelmet irányítani, amit egy adott feladat megkíván (top-down). Ez a mechanizmus alapvetően olyan szituációkban lép elő domináns működésként a figyelemben, amikor az agy valamely konkrét feladat megoldására tesz kísérletet. Ilyen helyzetek lehetnek egy kulcs keresése a lakásban, vagy egy piros ruhás alak felkutatása a tömegben. Az emberi figyelem ilyenkor tudatában van a keresett objektum alakjával, színével, vagy egyéb jellemzőivel, és ennek megfelelően szelektálja a látótér elemeit, és közvetett módon irányítja a figyelmet. A másik, a látókéreg kevésbé összetett részeitől a bonyolultabb látókérgi részek irányába induló folyamat az akaratlanos (bottom-up) figyelem. Ez a mechanizmus gyakorlatilag az ösztönös figyelem, tehát olyan működés, amely nem az agy feladatmegoldó működése alatt jelentkezik, hanem attól függetlenül. A látótérben észlelhető alapvetően feltűnő objektumokról van szó, azaz olyan jelenségekről, amelyek, még ha az agy egyéb figyelmi feladatot végez is, magukra vonják az ember figyelmét. Egy gyorsan mozgó, nagy objektum, egy, a látótérbe hirtelen belépő tárgy, vagy egy rikító színű, formájú alakzat mind olyan folyamatot indítanak el az emberi figyelmi mechanizmusban, amely mind összpontosításban, mind prioritásban átadja a figyelem központját ezeknek a jelenségeknek. A környezetükből kitűnő dolgok, az agy által veszélyesnek ítélt mozgások tehát e működés segítségével vonják magukra a figyelmet. E két párhuzamosan, és szervezetten működő mechanizmus teszi tehát lehetővé az emberi látáshoz tartozó felismerési, és analitikus folyamatokat, amelyek közé a helyszínek, szituációk felismerése, és ismerete is bele tartozik. A figyelmen kívül természetesen olyan összefüggések is valószínűleg fontos szerepet játszanak a szituációk felismerésének módjában, amelyek inkább az emlékképek, és tanult ismeretek tanulmányozásával fedhetők fel. Ennek ellenére a helyszínek felismerése, de legalábbis analízise a figyelmi mechanizmusok működése alapján is megoldható. 14

15 Figyelmi algoritmusokkal vezérelt helyszínanalízis A modell felépítése A program Borland C++ nyelven van megvalósítva, és alapvetően 176*144 pixelnagyságú, tömörítetlen videókkal dolgozik. Az eredeti képanyag első lépésben különböző retinacsatornákra bomlik szét. Az egyes retinacsatornákat kialakító konkrét paraméterek (diffúzió, időbeli lefutás, stb.) egy celluláris neurális hálózat (CNN) retinamodellből származnak. A retinamodellben minden sejtrétegnek (foto-receptorok, horizontális-, bipoláris-, amakrin és ganglion sejtek rétege) egy-egy CNN réteg felel meg, és a CNN template-ek és paraméterek úgy vannak beállítva, hogy leginkább közelítsék a különböző sejtrétegek tulajdonságait (dendritfák átlagos átmérője, a sejtválaszok időbeli lefutásai, stb.) és más sejtrétegekkel való kapcsolatait (serkentés/gátlás, időbeli késleltetés, diffúziós állandók, stb.). A retina időbeli tulajdonságainak modellezése egy súlyozott, cirkuláris memória segítségével történik. Minden újonnan feldolgozott képkocka mindig a legrégebbit írja felül, így a retinacsatorna kimenete a memória teljes tartalmának pixelérték szerinti, súlyozott összegzése révén jön létre. (2. ábra Multiscale low-level feature axtraction ). A retinacsatornák kialakítását követően a program feltűnőségi, saliency értékeket számol, ami annak a merőszáma, hogy egy bizonyos pixel a videó folyam egyes képein, a biológia mechanizmust figyelembe véve mennyire vonzza figyelmünket. Ezen értékek kiszámolása receptív mező modellek segítségével történik, vagyis egy csatorna kimenetének, és egy receptív mezőnek konvolúciójaként áll elő a feltűnőségi érték (2. ábra center-surround differences and spatial competition ). A különböző csatornákhoz tartozó leképezéseket különböző méretű receptív mezők (RF) alakítják ki. A receptív mezők a vizuális feldolgozás elején kör alakúak, majd egyre feljebb haladva az agyi hierarchiában, alakilag egyre összetettebbekké, méretileg pedig egyre nagyobbakká válnak. A csatornákból kialakított feltűnőségi térképek a biológiai mechanizmust alapul véve nem egyformán relevánsak az agyi feldolgozásban. Így utolsó lépésként a program egy master feltűnőségi térképet hoz létre, amelyben a különböző saliency térképek különböző, szabadon változtatható súllyal szerepelnek. (2. ábra feature combination ). Végül a program kiválasztja a leginkább feltűnő, vagyis a legnagyobb saliency értékkel rendelkező pontot minden képen és ezt adja vissza. [3] A biológiai működés modellezését más megvalósításokban további lépésekkel is kiegészítik, ugyanis a legfeltűnőbb pont kiválasztása nem mindig a maximális saliency érték alapján történik. Ha egy pont elegendő ideig volt a figyelem középpontjában, akkor annak feltűnősége idővel csökkenni kezd, és egy másik pont veszi át szerepét annak ellenére, hogy 15

16 Figyelmi algoritmusokkal vezérelt helyszínanalízis saliency értékeik alapján még mindig a korábbi pont lenne a legfeltűnőbb a winner take all mechanizmus alapján. Ennek az agyi működésnek köszönhető, hogy egy feltűnő pont megvizsgálása után szemünk átugrik a következő, második legfeltűnőbb pontra, és nem ragad meg az elsőnél. Ezt a folyamatot a visszatérés gátlásának nevezzük, és a szemmozgás számítógépes megvalósításával együtt néhány más figyelmi modellben több-kevesebb sikerrel implementálták is. [4] 2. Ábra A vizuális figyelmi modellek kialakításának általános lépései 16

17 Figyelmi algoritmusokkal vezérelt helyszínanalízis A feltűnőségi térkép A figyelmi modellben használt számítások eredményeképpen tehát egy olyan mátrix jön létre, amely egy adott kép minden képpontjára a meghatározott feltűnőségi értéket tartalmazza. Ezt a mátrixot nevezzük feltűnőségi térképnek. A figyelmi algoritmusok megalkotásának ez a térkép képzi a bázisát. Az ilyen jellegű algoritmusok fejlesztéséhez nélkülözhetetlen a feltűnőségi térkép tüzetesebb vizsgálata és az alapvető tulajdonságok, és viselkedések meghatározása. Mivel a rendszer humán biológiai mérések alapján lett megalkotva, ezért természetesnek vehetjük, hogy a modell eredményeként olyan értékeket, és viselkedési mintákat kapunk, amely az emberi figyelem akaratlanos vezérlésénél nap, mint nap megfigyelhető. Mindez láthatóvá válik a figyelmi térkép feltűnőségi értékeinek számszerű elemzésénél, vagy a magas értékkel rendelkező területek vizsgálatánál. A modell nagyon intenzíven reagál a mozgásokra, és ezek az objektumok általában jóval magasabb feltűnőségi értékkel rendelkeznek, mint a látótér többi eleme. Ezen túl azt az emberi figyelemnél megfigyelhető jelenséget is hűen visszakapjuk, hogy ezeknél a mozgásoknál a modell ugyanúgy, mint az emberi szem, csak kis késéssel irányítja a figyelmét a mozgó objektumra, és ad a vonatkozó képpontoknak magas feltűnőségi értéket. A mozgás további követésének lefolyását azonban valós élethelyzetekben már nem csak egyedül az akaratlanos mechanizmus határozza meg. Az emberi szem, és maga a humán figyelem a hirtelen mozgásokra csak a mozgás megjelenésekor reagál. Felméri a közeledő, vagy elhaladó objektum veszélyességét, fontosságát, és ezután csak akkor marad a tárgy a figyelem középpontjában, ha arról tudatos döntés születik (top down mechanizmus). A valóságban tehát több lejátszódó folyamat is részt vesz a figyelem akaratlanos észlelésen túli vezérlésében. Ebből adódóan az alkalmazott modell többnyire a való életszituációkban is megfigyelhető módon reagál, de a feltűnőségi értékek nem változnak más mechanizmusokat modellező algoritmusok hatására. Egy elhaladó, vagy magától értetődően feltűnő objektum tehát nem veszti el jelentőségét akkor sem, ha már régóta a látótérben szerepel. Valós esetben a figyelemnek ezen esetek többségében csökkennie kéne. Az alkalmazott modell tehát az emberi figyelem bonyolult, sok összetevős rendszerének egy kiragadott, és jelentős részét írja le, a többi mechanizmussal való együttműködés modellezése nélkül. A kapott eredmények ezért teljesen egyedi irányból közelítik meg a látótérből kinyert információhalmazt, és a feltűnőségi térképeket manipuláló feltűnőségi algoritmusok is egészen speciális oldalról közelítik meg a klasszikus képfeldolgozási és egyéb problémákat. 17

18 Figyelmi algoritmusokkal vezérelt helyszínanalízis Figyelmi algoritmusok A feltűnőségi térképek tehát már magukban is nagyon egyedi leírást adnak a látótérről. Az ilyen mátrixok értelmezett műveletek pedig lehetőséget biztosítanak arra, hogy ezt a speciális nézőpontot további elemzéseknek vessük alá. Az egyszerű megfigyeléseken túl alapvető függvények, és algoritmusok alkalmazhatóak ezekre a térképekre, amelyek a feltűnőségi információt egy magasabb szintre emelik, és további következtetések, és megfontolások alapját biztosítják. A legelső felmerülő kérdés a feltűnőségi térképek kezelése. A figyelmi modell a feltűnőségi értékeket egybegyűjtő mátrixot, mint változót használja, és állítja elő. A különböző csatornák súlyainak beállítását biológiai okok alapozzák meg, ezért ez csak indokolt esetben változtatható, de az előállítás folyamatában a legjelentősebb szerepet tölti be. Mivel ezek az előállított mátrixok a videó folyam minden képére definiálva vannak, ezért az egyszerű algoritmusok által módosított feltűnőségi térképek videóként is értelmezhetők, és importálhatók. Ez a művelet e munkában bemutatott rendszerben is fontos szerepet kap. Az algoritmusok alkalmazásához előkészített feltűnőségi térképeket egy videó folyamként értelmezzük, és mentjük el a figyelmi modell kimeneteként. Az elmentett videót később már az alkalmazott függvények bemeneteként értelmezhetjük, és használhatjuk a modelltől eltérő fejlesztői környezetekben. Ezt a paraméterátadást, vagyis a feltűnőségi térkép hordozhatóvá alakítását különböző nagyon egyszerű kódolási, vagy kimentési eljárásokkal valósíthatjuk meg. A képenkénti mátrix file-ba írása ugyanúgy megfelelő technika lehet, mint egy új videó létrehozása, képkockánként a feltűnőségi térkép valamilyen egyszerű ábrázolási módjával. Mivel a mátrix értékeinek változatlanul hagyása a legfontosabb cél, ezért minden olyan eszköz, amely a pontos adatokat továbbítja megfelelő. Az általam alkalmazott konstrukcióban a feltűnőségi értékeket egy, az eredeti kép folyammal megegyező képméretű videóban rögzítettem. A kódolás pedig helyi értékes, tehát a továbbított videó képeinek színértékei az adott pont feltűnőségi értékeinek felelnek meg, egy előre megválasztott kiolvasási sorrenddel. Jelen esetben a színek kék összetevői felelnek meg az egyes helyi értéknek, a zöldek a tízesnek, és pirosak a százasnak. Természetesen ez csak egy nagyon egyszerű példa, és eljárás az ilyen jellegű adatok kezelésére, akármilyen más módszer megfelelő. A továbbiakban alkalmazott legegyszerűbb algoritmusok között olyan függvénymegvalósítások találhatók, amelyek a feltűnőségi térképek értékeinek naiv megközelítésű vizsgálatait tartalmazzák. A kiolvasható értékek közti különbségek, a magas értékek számszerű értékei, és az egész képre vonatkoztatott átlaga mind olyan paraméterek, 18

19 Figyelmi algoritmusokkal vezérelt helyszínanalízis amelyek később is jelentős szerepet játszanak a további vizsgálatoknál. Ennek megfelelően az ilyen jellegű függvények közül minél több megvalósítása vezet a feltűnőségi térképek legteljesebb elemzéséhez. Az alkalmazott figyelmi modell is jelentős szerepet tulajdonít az egy képen található képpontok közül a legfeltűnőbbnek. Ennek megjelölése már a modell keretein belül is megvalósul. A mindenkori legfeltűnőbb pont azonban, a hordozott legmagasabb feltűnőségi értéken kívül, nem jelez sokat a vizsgált kép mögöttes tartalmáról. Ha mindig csak a legfeltűnőbb pontot vizsgáljuk, akkor a jelzett képpont feltűnőségi térképen elfoglalt pozíciója a legtöbb esetben nem mutat folytonosságot, vagy szabályszerű, néhány pont közti helyváltoztatást a képkockák között. Természetesen ebben a szabályszerűtlen ugrálásban is felfedezhető a mögöttes információ egy része, például, hogy egy jelenetet leíró videón hány objektum az, ami dominánsan magára vonja a figyelmet. Vannak olyan helyszínek és szituációk, ahol egy tárgy, vagy tárgyhalmaz annyira feltűnőbb a többinél, hogy a maximális feltűnőségi érték, és átvitt értelemben a figyelem központja, mindig azon az objektumon található meg. Azonban az ilyen konstrukciók messze állnak a valóságban fellelhető színterektől, hiszen az esetek többségében szemünk, és figyelmünk a látótér több objektumát is végigjárja, és a modell is ennek megfelelően cselekszik. A legfeltűnőbb pont kiválasztása tehát statisztikailag fontosnak tekinthető, de elhelyezkedésének nehéz kezelése miatt további egyszerű figyelmi algoritmusok alkalmazása szükséges. A legkézenfekvőbb megoldás, ha további maximális értékeket választunk ki a feltűnőségi térképről. Az ilyen módon vizsgált felvételeken a kiválasztott számú legfeltűnőbb ponttal azonos mennyiségű objektum detektálása lehetséges, amelyek magukra vonják az emberi figyelmet. Kettő, a többi objektumhoz képest kiemelkedően feltűnő objektum jelenléte a csak a legfeltűnőbb pont vizsgálatakor ugrálásokat, és kiszámíthatatlan viselkedést eredményez. Ha ebben az esetben a két legfeltűnőbb pontot számítjuk ki, a két objektumon is egy-egy legfeltűnőbb pont fog megjelenni, és ezek között csak az elsőség, és másodlagosság lesz az, ami változik. Ezen megfontolás alapján megválasztott több legfeltűnőbb pont már nem viselkedik kezelhetetlen módon, és még több információ kinyerésére alkalmas, mint az egyetlen maximum vizsgálata. Az így megvalósítható figyelmi algoritmusok már képesek a mögöttes tartalmi információk kis részének kinyerésére. Megfigyelések alapján például öt legfeltűnőbb pontot választva a vizsgálatok alapjául, a látótérben végbemenő jelentős mozgások már megfigyelhetőek (3. ábra). Az ilyen módon leírt mozgások útvonala pedig utalhat a helyszínen látható mozgó objektumok tulajdonságaira. A további elemzésekhez természetesen már összetettebb figyelmi algoritmusokra van szükség. További alapvető figyelmi algoritmusok foglalkoznak a feltűnőségi térképből kiolvasható értékek egyszerű elemzésével, és a jelentés vizsgálatával, úgy hogy az eredmény 19

20 Figyelmi algoritmusokkal vezérelt helyszínanalízis felhasználható legyen bonyolultabb feladatok véghezvitelénél is. Az értékek vizsgálatánál sem vehetjük figyelmen kívül a látótérben zajló mozgások jelentőségét. A feltűnőségi értékeket előállító összetevők közül ugyanis éppen a mozgás az, ami ilyen alacsony, és egyszerű szintű analízis esetén is mélyebb jelentőségű információk eléréséhez alkalmas. A képen megfigyelhető nagy kontrasztú elemek, a feltűnő színek, a tárgyak sarokpontjai, fényfelvillanások, vagy eltűnések mind olyan jellemzők, amelyek önmagukon túl főleg a mozgások leírásánál szerepelnek a figyelmi modellben. Ennek megfelelően az értékek vizsgálatakor alkalmazott figyelmi algoritmusok is a feltűnő pontok mozgásaira, és azok tulajdonságaira alkalmas eszköz. Az említett témakörű algoritmusok között jellemzően a videó minden képkockájára egy értéket kapunk eredményül, amely utána függvényként ábrázolható. A legegyszerűbb megközelítések alapján a feltűnőségi térkép átlagos értékét, az értékek átlagos szórását, és egyéb hasonló paraméterek kinyerését megvalósító algoritmusok alkalmazhatók. Az átlagos feltűnőségi értékek változása, és szórása megfigyelések alapján összefüggésben áll a kép folyamon megjelenő mozgások mennyiségével, vagyis a feltűnő pontok egész videóra vetített elhelyezkedésével. Ötven maximálisan feltűnő értéket kiválasztva ez az összefüggés már jól láthatóvá válik, és a látótérben végbemenő mozgások és a kiolvasható átlagos feltűnőségi értékek közti összefüggés meghatározható. Tapasztalatok alapján egy alacsonyabb átlagos feltűnőségi értékeket képviselő jelenet általában kevés mozgást tartalmaz, azaz a legfeltűnőbb pontok vizsgálatakor azok a képnek csak egy kis részét fedik le, míg a sok mozgást tartalmazó videók átlagos feltűnőségi értéke meghaladja a nyugalmi jelenetet ábrázoló videókét (4. ábra). A mozgások természetesen a látótér bonyolultságára is utalnak, hiszen jóval több kontrasztos elem, és színbeli eltérés keletkezik ilyen esetekben, és így egy mozgó színtér a figyelmet is jobban vonzza, mint egy nyugodt környezetet ábrázoló. A mozgás persze nem csak a látótérben tapasztalt mozgásokat jelenti. A kamera mozgása is ugyanazt a hatást váltja ki a feltűnőségi értékekben, és ugyanazok a megfontolások alkalmazhatóak ebben az esetben is, azonban a legfeltűnőbb pontok helyzetének vizsgálatakor a kameramozgás iránya is néhány esetben jól megfigyelhető. 20

21 Figyelmi algoritmusokkal vezérelt helyszínanalízis 3. Ábra Mozgó objektum lekövetése maximális feltűnőségi pontokkal. A maximális öt saliency érték a mozgó autó megjelenésével egy ponttá forrt össze, ami csak a közlekedési tábla elhagyása után változott meg. Itt szétvált az öt maximális érték pozíciója. 4/a. Ábra A maximális feltűnőségi értékek átlaga, és eloszlása mozgás nélküli videókon Az átlagos átlagérték 120, és 100 környékére esik, és a feltűnőségi pontok eloszlása kis területet foglal el, azaz a feltűnő pontok a videó során többnyire egy helyben maradtak 21

22 Figyelmi algoritmusokkal vezérelt helyszínanalízis 4/b. Ábra A maximális feltűnőségi értékek átlaga, és eloszlása mozgást tartalmazó videókon Az átlagos átlagérték 300, és 200 környékére esik, és a feltűnőségi pontok eloszlása nagy területet foglal el, azaz a feltűnő pontok a videó során sokszor pozíciót változtattak. A mozgások iránya is hozzávetőlegesen leolvasható az ábráról. 22

23 Figyelmi algoritmusokkal vezérelt helyszínanalízis Rendszerfejlesztés lépései Egyszerű figyelmi algoritmusok megvalósítása Az ismertetett figyelmi modellből tehát AVI formátumú videókat importáltam ki, amelyek a feltűnőségi térképek folyamát tartalmazták. A térképekre használt figyelmi algoritmusokat ezután Matlab programozási nyelven valósítottam meg. A Matlab mátrixok kezelésében sok kidolgozott, beépített funkcióval rendelkezik, ezért az így előállított figyelmi algoritmusok e programnyelv alatt voltak a leginkább elemezhetőek, és átláthatóak. Az átláthatóságra azért is van nagy szükség, mert már a rendszerfejlesztés első lépéseiben is nagy adathalmazokkal kellett dolgoznom. Minden videóra ugyanis egy [176*144*3*frame] nagyságú tömb képviselte a feltűnőségi térképek sorozatát, és erre az adatszerkezetre kellett kidolgozni az eljárásokat. Az egyszerű figyelmi algoritmusok megvalósítása többnyire beépített függvények segítségével teljesen kidolgozható volt, azonban a futási idő, és a felhasznált memória mértékét minden esetben ideális függvénymegvalósítással kellett alacsonyan tartani. Az importált videó beolvasásához a beépített aviread függvényt használtam, amit utána a figyelmi modellben használt kódolás alapján dekódoltam. Az alkalmazott videó beolvasás után egy 1*frame nagyságú struktúra áll elő, cdata és colormap nevű mezőkkel, amelyre a dekódoló eljárást function salmap = readsal (mov, frame) alakban valósítottam meg. Az így létrehozott, és belső változóként értelmezett mátrix a beolvasott figyelmi modellből származó videók egy képkockájához tartozó feltűnőségi értékeket tartalmazzák. Ez az alapvető lépés teszi lehetővé a feltűnőségi térképek további módosítását, és egyéb figyelmi algoritmusok fejlesztését. Az egyszerű maximumok kiválasztásához szintén beépített függvények állnak rendelkezésre, az általam megvalósított tetszőleges számú legfeltűnőbb pontokat kiválasztó függvény function topvector = topmaxsort (salmtx, topmax) alakban volt megvalósítható. Az ebből származó maximum értékek és egyéb jellemzők vizsgálatához megalkotott megjelenítő eszközök létrehozásánál alapvetően azt a gyakorlatot követtem, hogy az eredeti videó megfelelő pixeleit egy maszk segítségével színeztem át, és így elemeztem a legfeltűnőbb pontok helyzetét. Ennek megvalósításához a function out = imoverlay(in, mask, color) függyvényt használtam fel, amely egy bemeneti képmátrix logikai maszkban meghatározott pozícióit a megadott színűre változtatja. Ezek az egyszerű algoritmusok képzik tehát az alapvető megfigyelések, és a bonyolultabb figyelmi 23

24 Figyelmi algoritmusokkal vezérelt helyszínanalízis alkalmazások kidolgozásának alapját, és az összetettebb rendszerekben is többnyire megjelennek, mint alkalmazott, vagy alacsonyszintű függvények. Feltűnőségi térképek elemzése Az egyszerű figyelmi algoritmusokban létrehozott paraméterek, és a függvények kimenetei mind olyan megfontolásokhoz vezetnek, amelyek a fejlesztés későbbi lépéseinél fontos szerepet kapnak. A legegyszerűbb figyelmi algoritmusok használhatóságát már láttuk. Azonban a kapott eredmények jelentése sok szempontból közelíthető meg. Azon függvényeknél, amik az egész feltűnőségi térképből egy értéket számítanak ki, a jelentés például a videó által rögzített jelenet valamely tulajdonságára kell, hogy utaljon. A következtetések levonásánál azonban nem szabad egyből a környezetek, és szituációk közti különbségben keresni a legfőbb különbséget. Megfigyelések alapján a videókat elkészítő kamera felbontása, tömörítése, és képkockasebessége (fps) is jelentős szerepet játszik a feltűnőségi térkép értékeiben. Egy erősen tömörített videón a képtömörítés ablakának szélein fantom élek jelennek meg, ezzel megnövelve azokon a területeken a kontraszthatást. Mivel a figyelmi modell erre a jellemzőre is erős válasszal reagál, ezért az ilyen módon elkészített videók feltűnőségi térképe eltér a többitől. Ugyanez igaz a felbontásra, és a képkockasebességre. A kisebb felbontással, vagy magas képkockasebességgel készített videókon az a jelenség figyelhető meg, hogy a mozgások nagysága nem tükrözi a valóságot a feltűnőségi térképeken, hiszen vagy a képkockák közti időkülönbség lesz olyan kicsi, hogy a nagyobb elmozdulásokat is kicsinek értelmezze két képkocka között, vagy a képpontok lesznek olyan messze egymástól, hogy a kis mozgásokat is nagyobbként értelmezi a figyelmi modell. Az ilyen jellegű megfontolások miatt az elkészített videókat egységesíteni kell az említett szempontok alapján, mivel annak ellenére, hogy a feltűnőségi térkép értelmezésébe ugyan ezek a paraméterek nem kapnak fontos szerepet, de ha több felvétel elemzésével akarunk a videók közt különbséget, besorolást keresni, akkor az egységes kezdeti feltételek szükségessé válnak. Egy másik, a felvétel elkészítésének módjától már független megfontolás a feltűnőségi térképeknél tapasztalt kissé rendszertelen viselkedés köré épül. A maximális feltűnőségi értékek képkockákra levetített vizsgálatakor jelentkező probléma magyarázata a figyelmi modell egyfajta frissítési mechanizmusa, amelyek során a legfeltűnőbb területek feltűnőségének csökkenése bizonyos periódusonként újra kiértékelődik, és a maximális értékek megugranak. Ezen jelenség részletesebb vizsgálatához, és kezeléséhez megfelelő, és 24

25 Figyelmi algoritmusokkal vezérelt helyszínanalízis részletes megjelenítő eszközökre van szükség. A feltűnőségi térképek naiv kezelésekor alkalmazott megválasztott maximális érték vizsgálatának módszere itt már nem elégíti ki a feladatkezelés igényeit. Olyan megjelenítő eszközök kifejlesztésére volt szükség melyek a feltűnőségi térkép viselkedését több szempontból írja le. Az alapvetően alkalmazott módszer a normalizálás volt, vagyis a feltűnőségi térképek viselkedésének ilyen jellegű vizsgálatához minden képkockára egy azonos skálára vetített értéket jelenített meg az eszköz. Ez kétdimenziós alkalmazás esetén megszűnteti a feltűnőségi térképeken tapasztalt frissítési ugrálásokat, és háromdimenziós esetben pedig még átláthatóbbá teszi a problémát. A munkában ezek az esetek kerültek megvalósításra, és hogy az eredeti videó is követhető legyen a feltűnőségi térképek sorozata mellet, kétdimenziós esetben az eredeti képek élképét, míg háromdimenziós esetben magát az eredeti képet transzformált változatban használtam a megfigyelhetőség segítségére. E két módszer segítségével nyomon követhető volt az, hogy az eredeti videó képein szereplő objektumok között melyek azok, amik feltűnő területeket képeznek, és hogy mi történik ezen objektumok mozgása, vagy éppen nyugalmi állapota esetén. A megfigyelések azt mutatják, hogy itt nem alkalmazható a naiv megközelítésnél használt választott mennyiségű maximális feltűnőségi érték vizsgálata, ugyanis a vizsgálni kívánt feltűnő területek nyomon követése már nem pusztán a hordozott értékekkel kapcsolható össze. A kiválasztott maximális elemek számszerűsítése ilyen jellegű elemzésnél már nem szerencsés, hiszen például egyetlen nagyon feltűnő objektum jelenlétekor, ha az objektum képpontokban mért területe meghaladja a maximális értékeknél kiválasztott határt, akkor a feltűnőségi térkép tulajdonságai miatt, nagy értékvesztés után, olyan objektumokat és régiókat is ki fogunk választani a maximumok között, amelyek valójában nem tartoznak a képtér legfeltűnőbb területei közé. A feltűnőségi térképek ilyen, a valós jelentéshez inkább közelebb álló vizsgálataihoz tehát nem a szigorú értelemben vett statisztikus figyelmi algoritmusok a megfelelőek. A feltűnőségi térkép másfajta megközelítésével azonban megoldható az ilyen jellegű szempontok kielégítése. Ha a feltűnőségi értékeket tartalmazó mátrixok, mint háromdimenziós mátrix értelmezzünk, ahol két koordináta a kép szélességét, és magasságát jelenti, a harmadik pedig a feltűnőségi értéket, akkor a mátrix videó során végbemenő változásai, mint felületfüggvény értelmezhető. Ez a felületfüggvény valójában a feltűnőségi értékek által kifeszített domborzati térképhez hasonló síkot jelenti. Az ilyen értelemben vett csúcsértékek tehát már nem egy bizonyos mennyiségű maximális értéket jelentenek, hanem a domborzati térkép olyan elemeit, objektumait, amelyek felett értelmezett ilyen jellegű feltűnőségi térképen csúcsok láthatók. Ez a megoldás egyben a szomszédos képpontok közti feltűnőségi értékek nagy értékkülönbségét is moderálja, hiszen egy magas érték feletti csúcs szomszédos 25

26 Figyelmi algoritmusokkal vezérelt helyszínanalízis pontjaihoz lejtők vezetnek a függvényben. A legfeltűnőbb területek kiválasztása így egészen más szempontok alapján alkalmazható egyszerűen. A domborzati térkép maximális elemeinek kiválasztásához ugyanis elegendő egy megfelelő határérték kiválasztása, amely a függvényt két részre vágja szét, és a magasabb értékekkel rendelkező fél lesz a legfeltűnőbb területeket tartalmazó szelet. A munka során alkalmazott levágás mértéke a területek követéséhez alkalmazott további algoritmusok működéséből kapott eredmények alapján határozható meg. A ténylegesen feltűnő objektumok azonosítására, és mozgásuk vizsgálatára tehát az egyszerű figyelmi algoritmusok eredményei alapján a feltűnőségi térkép kis módosítása, és egy követő algoritmus alkalmazható, amelyek megvalósítását a vonatkozó fejezetekben tárgyaljuk. Részletes megjelenítő eszközök A feltűnőségi térképek elemzésekor levont következtetések tehát új megjelenítő eszközök kifejlesztését szorgalmazták. Az említett két- és háromdimenziós verziók megalkotásának alapját az elemzett domborzati képek adják. Matlab programozási nyelvben az ilyen típusú megközelítést a contour, és contour3 nevű beépített függvények támogatják (function contour(c); és function contour3(c, n); ahol n=kontúrvonalak száma). Ezek a függvények háromdimenziós tömböket kezelnek, és előre meghatározott számú kontúrvonalat számolnak ki a beérkező adathalmazra. A kiszámolt kontúrvonalak a háromdimenziós függvény harmadik dimenziós értékeinek minimumától maximumáig terjedő skálát osztják a meghatározott számú, ugyanakkora részekre. Eredményként egy olyan két soros mátrixot kapunk, amely tartalmazza a kontúrvonal által reprezentált magassági értéket, az adott magassághoz tartozó kontúrpontok számát, és a kontúrvonalak koordinátáit (5. ábra). A kontúrvonalakat tehát csak közvetett módon, kontúrpontok formájában kapjuk meg, amelyek közt szakaszokat húzva értelmezhetjük a kontúrvonalak vonalvezetését. A feltűnőségi térképek elemzését szolgáló részletes megjelenítő eszközöknél ezeket a függvényeket használtam fel a figyelmi modellből származó videókhoz. A kétdimenziós esetben értelemszerűen a contour függvény, és háromdimenziós esetben a contour3 függvény használatos. Az eredeti videó nyomon követéséhez használt élképet, és transzformált képet a Matlab Image Processing Toolboxhoz tartozó két vonatkozó függvénnyel valósítottam meg. Az élkép esetében minden képkockára szürkeárnyalatossá 26