Látás, érzékelés Werner Ágnes
Alapproblémák A kép- és alakzat-felismerés egyike azoknak a területeknek, amelyeken az ember sokkal tökéletesebb, mint a gép. A gépnek nagyon sok információra van szüksége: az alak pontjainak egymáshoz viszonyított helyzetére, viszonyára a környezetéhez, térbeli elhelyezkedésére stb. rengeteg pont koordinátáit kell megadni + színek, árnyalatok, megvilágítási értékek jellemzésére további adatok szükségesek
Nehézségek A legerősebb számítógépnek is nagyon sok időre van szüksége, hogy egyetlen statikus képet interpretáljon. A Neumann-elvű számítógépek képtelenek erre a teljesítményre. megoldás lehet Valós idejű képfeldolgozás igényihez szabott képprocesszor. Párhuzamos struktúrájú számítógépek. Kvantum számítógépek. Speciális eljárások, algoritmusok.
Mesterséges látás jelenleg gyakorlatilag azonos a számítógépes képfeldolgozással megvalósítás eszközei: elektronikai-számítástechnikai elemek (hardver), működtető felismerő programok (szoftver). kétdimenziós (síkbeli), statikus (időben változatlan) képek feldolgozása hangsúly eltolódik térbeli, mozgó képek feldolgozás
A kérdésnek több területen lehet jelentősége, például: 1. írásjelek optikai felismerése: gazdasági, pénzügyi területen Feladat: a számítógépnek egy nem ideális analóg képet kell ideális digitális képpé alakítania. (Az eredeti dokumentum lehet piszkos, sokszínű, az írásjelek íródhatnak a legkülönbözőbb eszközökkel, lehetnek vékonyak, halványak, összefolyók stb.) A számítógépnek el kell különítenie az egyes jeleket, végigpásztázva a felületet pontról pontra el kell döntenie, hogy az írásjelhez tartoznak-e vagy sem. (pl. 1 csekk méretének kb. 1 millió képpont) Az eredményt azután egybe kell vetni azokkal az a priori információkkal, amelyeket a számítógép memóriájában tároltak az írásjelekről.
Például: 2. Űrfényképezés: Nem a számítógépnek kell valós időben érzékelni a képet és döntést hozni, ezt a földi megfigyelőállomás szakemberei elvégzik. Feladat: az optikai berendezés által készített kép pontjainak bináris kódba való átírása és továbbítása a Földre.
Látás Jelenlegi képalkotó eszközeink többsége felületi információ felhasználásával működik és mi magunk is így látunk. Az objektumok belsejéből többnyire nem áll rendelkezésre adat. Ezért látáson eleve az objektumok felszínének érzékelését értjük.
Ez nem szükségszerű: Például: átlátszó ill. áttetsző testek estében a belső szerkezetet is láthatjuk. A mesterséges térbeli látás akár valódi térbeli látás is lehet. Megoldás lehet: több térbeli kamera együttes alkalmazása és jeleik együttes számítógépbe vitele szolgál a megfelelő rekonstrukciós algoritmus segítségével a térbeli képalkotásra.
Fő területek: Számítógépes képfeldolgozás Magyar vonatkozások: Recognita programrendszer Recoderm kriminalisztika (tenyér- és ujjlenyomat-alapú keresőrendszer) Célkitűzés: a szükségtelen információ kiszűrése és a lényegi információ elemzése útján a kép megértése azaz a látás automatizálása. A lényeges információt nem az egyes képpontok, hanem a képpontok bizonyos csoportjai hordozzák.
Fő területek: Számítógépes grafika Itt a cél nem a képi adatok feldolgozása, hanem azok előállítása. A képfeldolgozás és a grafika célkitűzései és módszerei eltérnek egymástól, de használnak azonos vagy igen hasonló eljárásokat is (pl. képleírás). Mindkét ágon meg lehet határozni a következő 3 szintet:
Fizikai szint A képet képpontok halmazaként kezeljük. A képi információt az egyes képpontokhoz rendelt számok (világosság, színesség-kódok) hordozzák. A feldolgozás során a bemenő képből kimenő képet állítanunk elő. eljárások, módszerek képátalakítás (pl. képkorrekció) szegmentálás (értékes képpontok háttértől való elválasztása)
Elemzési szint A sajátságaikkal leírható objektumok állnak a feldolgozás középpontjában. Az objektumokat vonalak, ill. felületek határolják. Meghatározható a helyük és helyzetük. Jellemző tulajdonságaik pl. alakjuk, színük. Célja: bemenő képből képleírást, grafika esetén leírásból kimenő képet készítsünk (az itt végzett feldolgozás a képosztályozás)
Értelmezési szint a képleírás és a képfelismerése közötti folyamatok megértése.
A mesterséges látás eszközei Speciális eszközök használatát igényli. Képbeviteli eszközök: feladatuk: valamely objektumról, térrészről azok képének megfelelő, számítógép által kezelhető formátumú adatok előállítása. Az adatok többnyire képpontok (pixelek, 3Dben voxelek), melyek többnyire raszteres szervezésben pl. sorról-sorra tartalmazzák a világosság, ill. színesség értékeket.
Képbeviteli eszközök 1. képérzékelők pl. kamerák 2. jelátalakítók (illesztők, kódolók) pl. képdigitalizáló kártyák 3. egyes készülékek az érzékelők és a jelátalakítókat együtt tartalmazzák pl. szkennerek (kézi szkenner, síkágyas lapolvasó, dob szkenner)
Felhasználási területek: Orvosi alkalmazások: számítógépes tomográfok (CT) mágneses rezonancia (MR) a nagyfelbontású képek rendkívül gyors kiértékelésére fejlesztették ki az analóg Celluláris Neurális Hálózat alapú rendszert (CNN) (SZTAKI és Országos Onkológiai Intézet)
Arcfelismerés Agyunk az arcokat, valamint az arckifejezéseket alakokról és mozgásokról szerzett információinak az összekapcsolásával ismeri fel. Egyre népszerűbb kutatási területnek számít a computeres arcfelismerés, 4 főbb aspektusra fókuszálnak: arcmodellezésre, arcfelderítésre és lokalizációra, személyek arckép alapján történő azonosítására, arckifejezés-felismerésre. Arc- és hangulatfelismerő számítógépes rendszerek létrehozása a kísérletek célja. Az arcfeldolgozás holisztikusan, és nem lokálisan történik. A személyenként különböző (boldog, haragos, üvöltő, semleges kifejezésű, változó fényviszonyok stb. mellett felvett) képek alapján létrehoztak egy arc-adatbázist.
Arcfelismerés - Gépi modell A modell az emberi képfeldolgozás egyszerűsített változatát írja le. Egy beépített modul az arcizommozgást méri különböző érzések kifejezésekor, valamint azt, hogy például örömnél/bánatnál mennyivel gyorsabb/lassabb a mozgás. Ezt a számítási tevékenységet valószínűleg a mi agyunk is elvégzi, azt eredményezve, hogy akárcsak a számítógép némi késéssel azonosít. A kevesebb mozgásból összeálló kifejezések azonosítása gépnek, embernek egyaránt könnyebben ment. Minél több volt a mozgás, annál nehezebben hajtották végre a feladatot.
Arcfelismerő számítógépek Az arcokat videokamera input alapján felismerő computer építését tervezik. Akkor se jön zavarba, ha több fotó esetén az illető más és más arckifejezéssel néz a nagyvilágba, különböző szögekből, eltérő megvilágításban kapták lencsevégre, vagy napszemüveget hord esetleg Az ideális arcfelismerő alkalmazása különböző (tudományos, oktatási, hétköznapi stb.) területeken várható az intelligens megfigyelőrendszerektől kezdve, eltűnt gyerekek, vagy körözött bűnözők azonosításáig. El tudják képzelni, amikor a computer azt mondja: zaklatottnak tűnsz, miben segíthetek?
Orr-egér A nose (orr) és mouse (egér) szavak összevonásával kreált nouse (hozzávetőleg: orr-egér) feltalálója. A computerek kéz nélküli használatát célzó eszközét az orr és a szemhéj kontrollálja. A mintafelismerésen és a gépi látáson alapuló fejlesztés webkamerákkal követi a felhasználó arcmozgását, az orr pedig hajszálpontosan rábök a képernyő bármelyik pixelére. Egér, joystick lesz belőle.
Gesztus-egér Olyan szoftvert fejlesztettek ki, mely egy egyszerű webkamera segítségével azonosít bizonyos kézmozdulatokat. A programot akár az egér helyett is használhatjuk, ablakokat helyezhetünk át vele, nagyíthatjuk, kicsinyíthetjük őket. Amikor hüvelyk és a mutatóujjunk összeér a mintázatfelismerő rendszer azonosítja, hogy egy nagyjából kör alakú zárt alakzat észlelhető a képen. Attól függően, hogy a billentyűzet fölött hol helyezkedik el a két összeérintett ujjunk a képernyő megfelelő pontja fölött kattintásnak felelteti meg gesztusunkat. A rendszer előnye, hogy egyszerre két kézzel is navigálhatunk, ami bizonyos műveleteket, például a képek vagy térképek nagyítását, kicsinyítését, vagy éppen forgatását lényegesen megkönnyíti. A gesztus-egér használatához ráadásul nem szükséges gépelés közben a billentyűzetről teljesen levenni a kezünket.
Ujjlenyomat-tömörítés, cipőtalp-azonosítás A forró nyomon járó rendőröknek szükségük van a tetthelyen talált bűnjelek gyors beazonosítására. Erre szolgál két újonnan kifejlesztett eljárás: az ujjlenyomatok, mint különleges képek hatékony továbbításához szükséges speciális tömörítő algoritmus, illetve egy cipőnyomokat felismerő szoftver.
Ujjlenyomat-tömörítés Digitális fényképet készítenek és megpróbálják azonosítani adatbázisukban a hozzájuk tartozó személyt. Mivel a képek mérete hatalmas, és általában rengeteg van belőlük, képtömörítő eljárást dolgoztak ki, melynek segítségével ezeket a képeket - a rendőri munka szempontjából lényegtelen adatveszteség mellett - olyan kicsire lehet tömöríteni, hogy akár a helyszínről is továbbíthatóak a központi számítógépes rendszerbe. Azonosítása eddig átlagos 4 napot vett igénybe. 30-60 másodpercre redukálódik és a beazonosítás is megtörténik egy órán belül.
Cipőtalp-azonosítás Az elkövetők gyakran gondoskodnak arról, hogy ne hagyjanak maguk után különösebb nyomokat, például kesztyűt húznak. Cipőt viszont mindig hordanak, általában találnak is az elkövetőkhöz tartozó cipőnyomokat. Ezek nem annyira egyedi azonosítók, mint a DNS, vagy az ujjlenyomat, mégis jó támpontot szolgáltathatnak a szóba jövő gyanúsítottak közti választás során. Készült mintázatfelismerő algoritmus, melynek segítségével a helyszínen lefényképezett nyomokból be tudják azonosítani a cipők típusát egy folyamatosan bővülő, egyelőre 12000 mintát tartalmazó cipőtalp adatbázisból. (A gyakorlatban szinte kivétel nélkül elegendő volt a cipő beazonosítására.)
Háromdimenziós élmények A színes kijelzők és a nagyfelbontású képek után a 3D ígérkezik a vizuális technológia következő nagy forradalmának. A nézőnek minden korábbinál gazdagabb, valósághoz közelibb látványban lehet része. Nincs szükség speciális, fejre teendő felszerelésre, és ugyanazt a 3D élményt több ember élvezheti egyszerre. 3DTV projekt
A holografikus kijelzők felé A tizenkilenc partnert konzorciumban tömörítő 3DTV projekt keretében el szeretnék érni, hogy a képeket ne csak lássuk, hanem interakciót is létesíthessünk velük. Szerintük azonban a dinamikus holografikus kijelzőkkel megjelenített holografikus mozgóképektől még mintegy évtizednyi messzeségben vagyunk.
A holografikus kijelzők felé Komoly eredményeket ért el a magyar Holografika Kft is. 3D holografikus megjelenítésre alkalmas HoloVisio kijelzőik ideális számítógép monitornak tűnnek. Jelenleg a huszonhat és harminckét colos kijelzők nagyméretű változatán dolgoznak.
Távjelenlét a virtuális tárgyalóban A Cisco készítette el a TelePresence nevű videokonferencia megoldását. Ez a rendszer a szemtől szembeni találkozás élményét kínáló nagyfelbontású kép- és hangátviteli technológiával segíti elő a felhasználók közötti kapcsolattartást és együttműködést.
Távjelenlét a virtuális tárgyalóban A kutatások szerint a személyes kommunikáció több mint 60 százaléka nem szavak útján történik. Ez a rendszer a részlet gazdag, nagy felbontású technológiának köszönhetően lehetőséget nyújt olyan interakciók közvetítésére, amelyek révén a beszélgető partnerek a távolságtól függetlenül a személyes találkozóval szinte egyenértékű élményben részesülnek. A kiváló képminőség és a térhatású hangzás révén a megoldás tökéletesen valósághű környezetet biztosít, így a résztvevőkben azt az érzést kelti, mintha mindannyian egy helyiségben tartózkodnának.
Távjelenlét a virtuális tárgyalóban A különböző érzékleti csatornák olyan hatást gyakorolnak a felhasználóra, hogy elfelejti, hogy egy mesterségesen előállított világban van, és hasonló módon kezd reagálni a virtuális környezetére, mint azt valódi körülmények között tenné.
Arcfelismerő fényképezőgép A Canon és a Fuji intelligens fényképezőgépei megpróbálják kitalálni a látvány alapján, hogy a kép mely részén van a fotó témája. Ezekre fókuszálnak, és a fényerőt is ezen területekhez igazodva választják ki. A legújabb gépek már az emberi arcokat is automatikusan azonosítják a keresőben.
Arcfelismerés A Canon és a Fuji digitális gépeik legújabb generációjába épített képfeldolgozó rendszerük valós időben meghatározza a látómezőben található emberi arcokat és azokra fókuszál. Több arc esetén megpróbálja "kitalálni", melyik arcot szeretnénk élesen látni. A Canon rendszere 9 arcot tud megkülönböztetni egy képen, míg a Fuji akár 10-et is felismer. További újdonság, hogy a fotók visszanézésénél a gép megjelöli az arcokat a kijelzőn.
Vízbefúlókat ment a rendszer Az egyik francia uszodában majdnem vízbe fulladt egy úszó. Poseidon, a medencékre szakosodott számítógépes megfigyelő-rendszer időben jelezte az esetet, és sikerült megmenteni a fiatalembert.
Vízbefúlókat ment a rendszer Kifejlesztették (a görög mitológia tengeristenéről elnevezett), gépi látáson alapuló, kifejezetten úszómedencékre specializált számítógépes megfigyelő rendszert. A víz alatti és a felszínen észlelhető szerkezeteket, (súly)tömegeket és mozgásokat észleli/ismeri fel. Úszómesterek harmadik szemé - nek tekintik.