Sűrű illesztési módszerek széles bázistávolságú 3D rekonstrukcióhoz Megyesi Zoltán Doktori értekezés tézisei Témavezető: Dr. Csetverikov Dmitrij Eötvös Loránd Tudományegyetem Informatikai Doktori Iskola Vezető: Dr. Demetrovics János Számítástechnikai és Automatizálási Kutató Intézet Magyar Tudományos Akadémia Gépipari és Automatizálási Műszaki Főiskolai Kar Kecskeméti Főiskola Budapest 2009
1. Bevezetés A disszertáció témája 3D rekonstrukció, ami a Számítógépes Látás egy gyorsan fejlődő ága. Ez a probléma a 3D folyamatok első lépése, a célja 3D adat szerzés színterek és objektumok megmérésével. A mért adat a szintér pontjainak megfeleltethető 3D ponthalmaz, ezért a rekonstrukciót sokszor passzív vizuális 3D letapogatásnak is nevezik. A rekonstrukció más 3D szkennerekhez képest kiemelkedik azzal, hogy kizárólag látvány információt használ. Ennek köszönheti sokoldalú felhasználását is, hisz ez az információ könnyen érzékelhető és bőséges mennyiségben rendelkezésünkre áll. A látványt használó 3D rekonstrukciót alkalmazzák a régészettől a szórakoztatóiparig. Különösen olyan alkalmazásokhoz hasznos, ahol a valós 3D adatok megjelenítése fontos szerepet játszik. A rekonstrukció bemeneti adatai képek, amelyek különböző nézőpontból készültek. 3D információ azon pixelekből nyerhető, amelyek ugyanazon szintérbeli 3D pont vetületei a különböző képeken. A folyamat első lépése megismerni a kamerák és a képsíkok geometriáját. Ez a geometria felhasználható a sűrű illesztéshez, vagyis ahhoz a feladathoz, ami megpróbál minden látható pixelhez egy neki megfelelő pontpárt illeszteni a különböző képeken. Pontos kamera információ ismeretében az illesztett pixel pár halmaz átformálható 3D ponthalmazzá háromszögelés segítségével. A folyamat lépései az alábbi ábrán láthatók. 1
A disszertációban áttekintjük a teljes rekonstrukciós folyamatot, de elsősorban képelemzési problémákra és a sűrű illesztésre koncentrálunk. A legnagyobb hangsúlyt széles bázistávolság kamerák speciális esetére helyezzük. Ennek az esetnek az előnye a nagyobb pontosság, viszont a megnövekedett nézetek közötti torzulás megnehezíti az illesztést. 2
2. A disszertáció felépitése Az 1. fejezetben található bevezetés után a 2. fejezetben egy áttekintést adunk a rekonstrukció problémáról, beleértve a különböző rekonstrukciós eseteket, színtereket, elvárásokat, továbbá vázolunk egy általános több lépéses megoldást. A 3. fejezetben részletesebben tárgyaljuk a sűrű illesztés problémáját. Ebben a fejezetben áttekintjük a hasonlósági függvényeket, a keresési teret korlátozó megszorításokat, valamint a használt sűrű illesztési módszer családokat. A fejezet végén egy pszeudo kódot is közlünk, ami egy vázat ad területnövesztés alapú sűrű illesztési eljárásokhoz. A széles bázistávolságú rekonstrukció tulajdonságait a 4. fejezetben tárgyaljuk, valamint bemutatjuk a Sűrű Affin Illesztés módszerét. Ez a sűrű illesztési módszer alkalmas széles bázistávolsággal készült képek illesztésére. Az 5. fejezetben módszert adunk a szintér felületi normálisainak számítására a fellépő képi torzulás alapján, valamint ismertetjük a Normálissal Javított Illesztést. A 6. fejezetben egy teljes és működőképes rekonstrukciós szoftvert ismertetünk. A 7. fejezetben bemutatjuk a tesztelésre használt adathalmazokat, valamint valós képeken végrehajtott kísérletek eredményeit ismertetjük. A 8. fejezetben egy sűrű illesztési eljárások mérésére és számszerű összehasonlítására alkalmas kiértékelési módszert mutatunk be, valamint az ismertetett új módszerek értékelését közöljük. Következtetéseket, további javítási lehetőségeket, a disszertáció új e- redményeinek bemutatását és a szerző publikációit a 9. fejezetben találhatjuk. 3
3. A disszertációban tárgyalt új eredmények összefoglalása Ebben a disszertációban újszerű hozzáállással tárgyalom a sűrű illesztési módszerek tulajdonságait. A sűrű illesztés legfontosabb tulajdonsága, hogy milyen megszorítást alkalmaz a keresési tér korlátozására. Létrehoztam egy olyan területnövesztésen alapuló sűrű illesztési algoritmus vázat, ami számos megszorítást és összehasonlító függvényt képes alkalmazni (beleértve az disszertációban bemutatottakat is). Az algoritmus vázat és megszorítás megfogalmazásokat a disszertációban a 3. fejezetben tárgyalom. A bemutatott eredményeket [1, 3]-ban valamint [6]-ban közöltem. A széles bázistávolságú képekkel folytatott kísérletek során megfigyeltem, hogy az illesztési hiba legjelentősebb forrása az ilyen esetekre jellemző erős képi torzulás. Terveztem egy illesztési függvényt, amely kompenzálja a torzulást. A függvény segítségével új megszorításokat alkottam és elkészítettem egy új sűrű illesztési eljárást (Sűrű Affin Illesztés, Dense Affine Matching, DAM). Az algoritmust teszteltem valós és mesterséges teszt adatokon és értékeltem az eredményt. A módszert egy hatékony klasszikus sűrű illesztési eljáráshoz hasonlítottam. Az új algoritmus jobbnak bizonyult pontosság, sűrűség és megbízhatóság szempontjából is. A disszertációban a Sűrű Affine Illesztést a 4. fejezetben, az eredményeket a 8. fejezetben tárgyalom. A bemutatott módszert [3, 6, 7]-ben közöltem. Megvizsgáltam a kapcsolatot a képi torzulás és a felület orientáció között, és találtam egy módot arra hogy kamera adatok segítségével a 4
torzulás affin közelítéséből meghatározzam a felületi normálisokat. A felület normálisokat arra használtam, hogy geometriailag helytállóbb megszorításokat fogalmazzak meg, amiket egy új sűrű illesztési eljárásban, a Normálissal Javított Illesztésben (Normal Aided Matching, NAM) használtam. Ezzel találtam egy új módot arra, hogy kalibrációs adatokat használjak fel a sűrű illesztés során. Ezt az eljárást is teszteltem valós és szintetikus adatokon és az eredményt kiértékeltem. Az új módszert összehasonlítottam a DAM és egy hatékony klasszikus módszerrel. Az új módszer jobbnak bizonyult pontosságban és megbízhatóságban mindkettőhöz képest. A disszertációban a Normálissal Javított Illesztést az 5. fejezetben, az eredményeket a 8. fejezetben tárgyalom. A bemutatott módszert [8, 9]-ben közöltem, valamint felhasználtam [11, 13]-ban. A sűrű illesztési eljárások kiértékelése nem megoldott probléma. Nehéz megfelelő teszt adathalmazt és megbízható kiértékelési eszközöket találni, amelyek széles bázistávolságú képekre is alkalmazhatók. Hogy mérni tudjam az új módszerek hatékonyságát létrehoztam egy kiértékelési sémát, amellyel sűrű illesztési módszerek (akár széles bázistávolságú módszerek is) számszerűen összehasonlíthatók. Az értékelés egy referencia modellt használ arra, hogy csoportosítsa a már rekonstruált 3D pontokat helyesen rekonstruált és kiugró pontokra LMedS segítségével. A kiértékelésben használt legfontosabb értékek a helyesen rekonstruált pontok távolsága a referenciától valamint a kiugró pontok száma. A kiértékelési módszert a 8. fejezetben ismertetem. Ez a módszer először [7]-ben volt publikálva, de használva volt [8, 9]-ben is. Összegyűjtöttem és létrehoztam egy 3D tesztelési adathalmazt. Az 5
adathalmaz minden eleme tartalmaz egy referencia modellt, több nézőpontból készült képeket, és pontos kalibrációs adatokat. Eredetileg csak félig-szintetikus adatokat használtam (melyek Jankó és társai által használt fotó-realisztikus módszerrel voltak texturálva), de van lehetőség valódi nézeti képek használatára is a teszt adathalmazban. Az adathalmazt arra használtam, hogy kiértékeljem a disszertációban bemutatott módszereket. Az adathalmaz elemeit kiegészitve valós életből vett adatokkal a 7. fejezetben mutatom be. Ezek az adathalmazok és a rajtuk mért eredmények több publikációban megjelennek. Megterveztem és megvalósítottam egy szoftver rendszert (SceneRec), amely a rekonstrukció teljes folyamatát átfogja. A rendszert modulárisra terveztem, a nagyobb rugalmasság érdekében, és hogy alkalmas legyen kutatási és oktatási célokra. A rendszer moduljai a disszertációban tárgyalt rekonstrukciós lépéseket követik. A megvalósítás során számos eszközt és programozási nyelvet igénybe vettem. A rendszernek van egy átfogó felülete, amely grafikus elemekből és egy szkript könyvtárból áll. A különböző modulok jól átlátható képekből és szöveges meta-adatokból álló felületeken kommunikálnak. A rendszert arra használtam, hogy teszteljem a bemutatott sűrű illesztési módszereket és hogy 3D rekonstrukciós problémákat oldjak meg. A rendszer moduljainak leírását a 6. fejezetben tárgyalom, és a rendszer által adott eredményeket a 7. fejezetben találhatjuk. A szerző minden kapcsolódó publikációjában ez a rendszer szolgáltatta az eredményeket. 6
4. Új tudományos eredmények Ebben a fejezetben az új tudományos eredményeket összegezzük három tézisbe szedve. Tézis 1 Moduláris rekonstrukciós szoftver rendszer és kiértékelési környezet Kifejlesztettem egy moduláris szoftver rendszert a rekonstrukciós eljárás minden lépésének megvalósítására. A rendszer a sűrű illesztési módszereket meghatározó megszorításokat alkalmaz. A rendszer magában foglal egy kiértékelési környezetet, amely teszt adathalmazból és egy olyan új kiértékelési eljárásból áll, amely alkalmas sűrű illesztési módszerek összehasonlítására. 1.1 Kifejlesztettem egy szoftver rendszert (SceneRec), amely a rekonstrukciós eljárás összes lépését tartalmazza. A rendszer moduláris, rugalmasan kicserélhető komponenseket tartalmaz, hogy alkalmazható legyen számos mérési környezetben. A rendszer rendelkezik egy egyszerű grafikus felülettel és szkript könyvtárral. A modulok közti kommunikációs felületet jól átlátható (képekből és szövegfájlokból áll). A fejlesztés során több programnyelvet és eszközt felhasználtam. A rendszer végeredményként szabványos és jól felhasználható 3D modell formátumot produkál. 1.2 Bevezettem egy új megfogalmazást a sűrű illesztési módszerek legfontosabb tulajdonságára, vagyis arra, hogyan korlátozzák a keresési teret. A korlátozásokat megszorítások formájában 7
tárgyalom, és ezt használom az illesztési eljárások jellemzésére. 1.3 Létrehoztam egy területnövesztés alapú sűrű illesztési algoritmus vázat, ami képes számos illesztési eljárás használatára. Megmutattam, hogy az algoritmus váz számos megszorítás alkalmazására képes. 1.4 Létrehoztam egy valós hatású félig szintetikus teszt adathalmazt a rekonstrukciós és sűrű illesztési eljárások tesztelésére. Az adathalmaz elemei referencia modellekből virtuális nézeti képekből és pontos kalibrációs adatokból áll. Az adathalmazt használtam a vizsgált és bemutatott módszerek tesztelésére. 1.5 Bevezettem egy kiértékelési eljárást, amely kalibrációs adatokat és referencia modellt használ. A eljárás a rekonstrukció végeredményét értékeli ki azáltal, hogy a rekonstruált 3D pontokat hasznos és kiugró pontokra csoportosítja a Legkisebb Négyzetek Módszerével. Az összehasonlításra a kiugró elemek számát és a hasznos pontok pontosságát használja. Tézis 2 Sűrű Affin illesztés Megterveztem, megvalósítottam és teszteltem egy új terület alapú sűrű illesztési eljárást, amely kompenzálja a széles bázistávolságú képeken látszó torzulást. 2.1 Létrehoztam egy új mintaillesztési eljárást, amely kiterjeszti a keresést a torzulást leíró affin paraméterekre, és így használható jelentős torzulás esetén is. Az affin kompenzálás egyszerre csökkenti az illesztés hibáját, és meghatározza a torzulást legjobban közelítő affin transzformációt is. Ez a mintaillesztési eljárás kiválóan alkalmas széles bázistávolságú képekre, ahol a képi torzulás tipikusan magas. 8
2.2 Megfigyelve a torzulást közelítő affin transzformáció paramétereinek viselkedését, új illesztési megszorításokat fogalmaztam meg. 2.3 Kifejlesztettem egy új területnövesztés alapú sűrű illesztési módszert (Sűrű Affin Illesztés), ami kiterjeszti a klasszikus mintaillesztési módszereket, és affin megszorításokat is használ. A területnövesztés terjesztési és megállási szabályait is az affin megszorítások befolyásolják. Az eredmény széles bázistávolságú képek esetén simább, sűrűbb és megbízhatóbb rekonstruált pontfelhő. 2.4 Teszteltem a Sűrű Affin Illesztést valós színtereken és egy számszerű kiértékelés módszerrel is. A módszer jobbnak bizonyult a klasszikus Hirschmüller és társainak módszerénél pontosságban, sűrűségben, megbízhatóságban. Tézis 3 Normálissal Javított Illesztés Bevezettem egy új módot arra, hogy a sűrű illesztés során kalibrációs adatokat használjunk. Kihasználva a kapcsolatot a torzulás és a felület orientáció között, kifejlesztettem egy új sűrű illesztési eljárást, ami felületi normálisokat használ. 3.1 Formalizáltam a kapcsolatot a képi torzulást legjobban közelítő affin transzformáció és a felületi normális között. Egy színtérbeli felületdarab felületi normálisa meghatározható bizonyos kamera paraméterek ismeretével a különböző képek közötti torzulás alapján. A módszer alkalmazható lineáris rektifikációs transzformáció alatt. 9
3.2 A felületi normálisok segítségével új megszorításokat fogalmaztam meg, amelyeket sűrű illesztési eljárásokban keresési tér csökkentésre lehet használni. Ezek a megszorítások a felületek fizikai geometriájával állnak kapcsolatban és nem torzulnak a nézőpont vagy a felületi orientáció változásával. 3.3 Kifejlesztettem egy új területnövesztésen alapuló sűrű illesztési eljárást (Normálissal Javított Illesztés), amely a felületi normálisokból származó megszorításokat használ a terjesztési és megállási szabályokhoz. Ez az illesztés jobban kihasználja a kamera kalibrációs adatokat mint más módszerek. 3.4 Teszteltem a Normálissal Javított Illesztést valós színtereken és egy számszerű kiértékelés módszerrel is. A módszer jobbnak bizonyult mind a Sűrű Affin Illesztésnél, mind a klasszikus Hirschmüller és társainak módszerénél pontosságban és megbízhatóságban. 10
A szerző disszertációhoz kapcsolódó publikációi [1] Zoltán Megyesi. Sztereó látásban használt képillesztési algoritmusok. In Proc. Képfeldolgozók és Alakfelismerők III. Konferenciája (NJSZT-KÉPAF), pages 21 30, 2002. [2] D. Chetverikov, Z. Megyesi, Z. S. Janko, and J. Matas. Using periodic texture as a tool for wide-baseline stereo. In Proc. 26th Workshop of the Austrian Association for Pattern Recognition, pages 37 44, 2002. [3] Z. Megyesi and D. Chetverikov. Affine dense matching for wide baseline stereo. In Proc. Grafika 2003, pages 109 114, 2003. [4] N. Novák and Z. Megyesi. Building 3D models using calibrated stereo and structured light. In Proc. Képfeldolgozók és Alakfelismerők IV. Konferenciája (NJSZT-KÉPAF), pages 213 220, 2004. [5] Dmitry Chetverikov, Zoltan Megyesi, and Zsolt Janko. Finding region correspondences for wide baseline stereo. In ICPR 04: Proceedings of the Pattern Recognition, 17th International Conference on (ICPR 04) Volume 4, pages 276 279, Washington, DC, USA, 2004. IEEE Computer Society. [6] Zoltan Megyesi and Dmitry Chetverikov. Affine propagation for surface reconstruction in wide baseline stereo. In ICPR 04: Proceedings of the Pattern Recognition, 17th International Conference on (ICPR 04) Volume 4, pages 76 79, Washington, DC, USA, 2004. IEEE Computer Society. [7] Z. Megyesi and D. Chetverikov. Enhanced surface reconstruction from wide baseline images. In 3D Data Processing, Visualization 11
and Transmission, 2004. 3DPVT 2004. Proceedings. 2nd International Symposium on, pages 463 469, 2004. [8] Z. Megyesi, G. Kós, and D. Chetverikov. Surface normal aided dense reconstruction from images. In Proc. Computer Vision Winter Workshop, pages 64 69, 2006. [9] Zoltán Megyesi, Géza Kós, and Dmitry Chetverikov. Dense 3D reconstruction from images by normal aided matching. Machine GRAPHICS & VISION, 15(1):3 28, 2006. [10] Zoltán Megyesi. Kép alapú 3D modellalkotás forgóasztalhoz kapcsolt kamera rendszerrel. In AGTEDU 2008, volume 1, pages 248 253, 2008. [11] Zoltán Megyesi and Gábor Kátai-Urbán. Kép alapú 3D modellalkotás forgóasztal és felületi normálissal javított illesztés használatával. In Proc. Képfeldolgozók és Alakfelismerők VII. Konferenciája (NJSZT-KÉPAF), 2009. [12] P. Kovács, Z. Gaal, A. Barsi and Z. Megyesi. Real time natural 3D contentdisplaying with holovizio displays. In 29th International Display Research Conference, EuroDisplay 2009, September 2009. megjelenés alatt. [13] Zoltán Megyesi. Kép alapú 3D felület rekonstrukció széles bázistávolságú képek esetén, felületi normális meghatározásával. GÉP, A Gépipari Tudományos Egyesület Országos Műszaki Folyóirata, 2009. megjelenés alatt. 12
A szerző egyéb publikációi [14] D. Chetverikov, Z. Megyesi, and Z. S. Janko. An overview of research activities of image and pattern analysis group of mta sztaki. In Proc. International Workshop East-West Vision 2002, pages 35 40, 2002. [15] T. Balogh, P. Kovács, and Z. Megyesi. Holovizio 3D display system. In Proc. First International Conference on Immersive Telecommunications (IMMERSCOM 2007), 2007. [16] Tomas Rodriguez, Adolfo C. de Leon, Bruno Uzzan, Nicolas Livet, Edmond Boyer, Florian Geffray, Tibor Balogh, Zoltan Megyesi, and Attila Barsi. Holographic and action capture techniques. In SIGGRAPH 07: ACM SIGGRAPH 2007 emerging technologies, New York, NY, USA, 2007. ACM. [17] Tibor Balogh, Peter T. Kovacs, Zoltan Megyesi, and Attila Barsi. Holovizio true 3D display system. In NEM Summit 2008, 2008. [18] Z. Megyesi, A. Barsi, and T. Balogh. 3D video visualization on the holovizio system. In 3DTV Conference: The True Vision - Capture, Transmission and Display of 3D Video, 2008, pages 269 272, 2008. 13