Emulált digitális CNN-UM architektúra megvalósítása újrakonfigurálható áramkörökön és alkalmazásai

Hasonló dokumentumok
Emulált-digitális CNN-UM architektúrák vizsgálata: Retina Modell és Celluláris Hullámszámítógép implementációja FPGA-n

CNN-alapú képfeldolgozó és adaptív optikai rendszer FPGA-s implementációi

Adatfolyam alapú RACER tömbprocesszor és algoritmus implementációs módszerek valamint azok alkalmazásai parallel, heterogén számítási architektúrákra

LOGIKAI TERVEZÉS. Előadó: Dr. Oniga István Egytemi docens

Tapintásérzékelés és. Analogikai Algoritmusok

PROGRAMOZHATÓ LOGIKAI ESZKÖZÖK. Elıadó: Dr. Oniga István Egytemi docens

PROTOTÍPUSKÉSZÍTÉS. Előadó: Dr. Oniga István

EMLŐS RETINA MODELLEZÉSE ÉS

Pázmány Péter Katolikus Egyetem Információs Technológiai Kar Interdiszciplináris Műszaki Tudományok Doktori Iskola Képzési Terve

Megemlékezés. Énekeljetek elmétekkel Emlékezés Roska Tamásra

Előadó: Nagy István (A65)

Útjelzések, akadályok felismerése valós időben

Parciális differenciálegyenleteken alapuló előfeldolgozási és immunválasz motivált algoritmusok implementációja CNN univerzális gépen

Irányítási struktúrák összehasonlító vizsgálata. Tóth László Richárd. Pannon Egyetem Vegyészmérnöki és Anyagtudományok Doktori Iskola

VIII. BERENDEZÉSORIENTÁLT DIGITÁLIS INTEGRÁLT ÁRAMKÖRÖK (ASIC)

Mérnök informatikus mesterszak mintatanterve (GE-MI) nappali tagozat/ MSc in, full time Érvényes: 2011/2012. tanév 1. félévétől, felmenő rendszerben

A KUTATÁS EREDMÉNYEI ZÁRÓJELENTÉS

ROBOT IRÁNYÍTÁS INFRAVÖRÖS LED TÖMBBEL

Programozás és digitális technika II. Logikai áramkörök. Pógár István Debrecen, 2016

Számítógép felépítése

P-gráf alapú workflow modellezés fuzzy kiterjesztéssel

Publikációs lista. Gódor Győző július 14. Cikk szerkesztett könyvben Külföldön megjelent idegen nyelvű folyóiratcikk...

Autópálya forgalomszabályozás felhajtókorlátozás és változtatható sebességkorlátozás összehangolásával és fejlesztési lehetőségei

Publikációs lista. Dr. Molnárka-Miletics Edit Széchenyi István Egyetem Matematika és Számítástudományi Tanszék

A Xilinx FPGA-k. A programozható logikákr. Az FPGA fejlesztés s menete. BMF KVK MAI, Molnár Zsolt, 2008.

ICT ÉS BP RENDSZEREK HATÉKONY TELJESÍTMÉNY SZIMULÁCIÓJA DR. MUKA LÁSZLÓ

egy szisztolikus példa

Szűrő architektúrák FPGA realizációjának vizsgálata

őszi kezdés ETF I. félév ősz II. félév tavasz III. félév ősz IV. félév tavasz ea gy k kr ea gy k kr ea gy k kr ea gy k kr Alapozó ismeretek

Celluláris neurális/nemlineáris hálózatok alkalmazása a. Ercsey-Ravasz Mária-Magdolna. Tudományos vezetők: Dr. Roska Tamás, az MTA rendes tagja

Digitális eszközök típusai

Kétdimenziós mesterséges festési eljárások. Hatások és alkalmazások

Módszer köztes tárolókat nem tartalmazó szakaszos működésű rendszerek ütemezésére

AUTOMATIKUS KÉPFELDOLGOZÁS A HADITECHNIKÁBAN A CELLULÁRIS NEURÁLIS HÁLÓZAT

TEMPLATE KÖNYVTÁR AZ OPTIKAI ANALOGIKAI

Roska Tamás ( )

I. A DIGITÁLIS ÁRAMKÖRÖK ELMÉLETI ALAPJAI

Ph. D. értekezés tézisei

Műszertechnikai és Automatizálási Intézet

Analogikai celluláris számítógépek egy új paradigma a számítástechnikában Analogic Cellular Computers A New Computational Paradigm

DOKTORI (PhD) ÉRTEKEZÉS KINCSES ZOLTÁN. Veszprém

Matematika és Számítástudomány Tanszék

A megerosítéses tanulás és a szimulált hutés kombinált használata: algoritmusok és alkalmazások

VI. Magyar Földrajzi Konferencia

Süle Zoltán publikációs listája

ÁRAMKÖRÖK SZIMULÁCIÓJA

VALÓS HULLÁMFRONT ELŐÁLLÍTÁSA A SZÁMÍTÓGÉPES ÉS A DIGITÁLIS HOLOGRÁFIÁBAN PhD tézisfüzet

A számítási pontosság és robosztusság elemzése analogikai CNN algorítmusok néhány osztályában (42942)

BIOMORF IDŐBELI HIPERPONTOSSÁG ÉS FUNCTION IN LAYOUT VLSI TERVEZÉS

Témakiírások 2014/15. őszi félévben

Mikrorendszerek tervezése

1. DIGITÁLIS TERVEZÉS PROGRAMOZHATÓ LOGIKAI ÁRAMKÖRÖKKEL (PLD)

Matematika MSc záróvizsgák (2015. június )

és alkalmazások, MSc tézis, JATE TTK, Szeged, Témavezető: Dr. Hajnal Péter

Drótposta: ; ; Honlapom:

Rendszertervezés FPGA eszközökkel

Integrált áramkörök/5 ASIC áramkörök

Dinamikus programozás alapú szivattyú üzemvitel optimalizálási technikák (főként) kombinatorikus vízműhálózatokra

5-6. ea Created by mrjrm & Pogácsa, frissítette: Félix

Beszámoló OTKA T Nanoelektronikia kvantum-eszközök tér-idő dinamikájának szimulációja környezeti hatások figyelembevételével

Gingl Zoltán, Szeged, :14 Elektronika - Alapok

Kristályosítók modell prediktív szabályozása

Villamosmérnöki mesterszak mintatanterve (GE-MVL) levelező tagozat/ MSc in Electrical Engineering, part time

Programmable Chip. System on a Chip. Lazányi János. Tartalom. A hagyományos technológia SoC / PSoC SoPC Fejlesztés menete Mi van az FPGA-ban?

TERMINOLÓGIA. Magyar nyelvű szakelőadások a es tanévben

Mintavételes szabályozás mikrovezérlő segítségével

Neurális hálózatok bemutató

LOGIKAI TERVEZÉS. Előadó: Dr. Oniga István

III.5 KILOPROCESSZOROS RENDSZEREK LOGISZTIKAI ALKALMAZÁSA (SZOLGAY PÉTER)

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

A CAN mint ipari kommunikációs protokoll CAN as industrial communication protocol

A PET-adatgy informatikai háttereh. Nagy Ferenc Elektronikai osztály, ATOMKI

SZTE Nyílt Forrású Szoftverfejlesztő és Minősítő Kompetencia Központ

Rendszermodernizációs lehetőségek a HANA-val Poszeidon. Groma István PhD SDA DMS Zrt.

III.5 KILOPROCESSZOROSRENDSZE REK LOGISZTIKAI ALKALMAZÁSA (SZOLGAYPÉTER)

Párhuzamos programozási platformok

5. KOMBINÁCIÓS HÁLÓZATOK LEÍRÁSÁNAK SZABÁLYAI

Multi-20 modul. Felhasználói dokumentáció 1.1. Készítette: Parrag László. Jóváhagyta: Rubin Informatikai Zrt.

MINTA Írásbeli Záróvizsga Mechatronikai mérnök MSc. Debrecen,

Informatika a valós világban: a számítógépek és környezetünk kapcsolódási lehetőségei

GÉPI ÉS EMBERI POZICIONÁLÁSI, ÉRINTÉSI MŰVELETEK DINAMIKÁJA

Elosztott rendszer architektúrák

1. A VHDL mint rendszertervező eszköz

Párhuzamos programozási platformok

oklevél száma: P-1086/2003 (summa cum laude) A disszertáció címe: Integrálegyenletek és integrálegyenl½otlenségek mértékterekben

Quadkopter szimulációja LabVIEW környezetben Simulation of a Quadcopter with LabVIEW

UNIX / Linux rendszeradminisztráció

SAT probléma kielégíthetőségének vizsgálata. masszív parallel. mesterséges neurális hálózat alkalmazásával

Programozható optoelektronikus tömbprocesszorok (POAC) és alkalmazásaik

AKTUÁTOR MODELLEK KIVÁLASZTÁSA ÉS OBJEKTÍV ÖSSZEHASONLÍTÁSA

PANNON EGYETEM Villamosmérn

Differenciálegyenletek numerikus integrálása április 9.

ÉPÜLETEK TŰZVÉDELME A TERVEZÉSTŐL A BEAVATKOZÁSIG TUDOMÁNYOS KONFERENCIA A BIM és a tűzvédelem The BIM and the fire protection

Napjainkban a korábbiaknál is nagyobb szükségünk van arra, hogy eszközeink rugalmasak legyenek és gyorsan igazodjanak a változó környezethez.

List of Publications (Pánovics János)

HDL tervezés. Gábor Bata FPGA Developer Microwave Networks Ericsson Hungary Ltd.

Zárójelentés a "Mikro-kontinuumok képlékeny alakváltozása" című OTKA kutatási témához

OTKA nyilvántartási szám: T ZÁRÓJELENTÉS

Roska Tamás Műszaki és Természettudományi Doktori Iskola a PPKE Információs Technológiai és Bionikai Karán

Kvantumszámítógép a munkára fogott kvantummechanika

Átírás:

Emulált digitális CNN-UM architektúra megvalósítása újrakonfigurálható áramkörökön és alkalmazásai DOKTORI (PhD) ÉRTEKEZÉS TÉZISEI Nagy Zoltán Témavezető: Dr. Szolgay Péter Pannon Egyetem Informatikai Tudományok Doktori Iskola Veszprém, 2007

Bevezetés Habár a scaling-down hatás megoldani látszik a növekvő számítási igények problémáját, vannak olyan feladatok, amelyeket nehezen lehet megoldani a hagyományos digitális számítógépeken. Tipikusan ilyen feladatok az alakzat-felismerés, adatbányászat és a parciális differenciál egyenletek megoldása. A neurális hálózatok sokkal hatékonyabbak ezekben az alkalmazásokban, mint a digitális számítógépek de nem terjedtek el széleskörűen az ipari felhasználásban a neurális hardverek hiányosságai miatt. Az általános neurális hálózatok legnagyobb hátránya hogy gyors újraprogramozásuk nem lehetséges, ami felhasználhatóságukat specifikus alkalmazásokra szűkíti. Továbbá teljesen összekötött neurális hálózatot feltétezve az áramköri komplexitás exponenciálisan nő a processzorok számának függvényében, ami a megvalósítás legfőbb akadálya. A celluláris neurális hálózatok (Cellular Neural Networks - CNN) esetén a műveletvégző elemek egy szabályos négyzetrácson helyezkednek el és csak a szomszédos cellákkal vannak összekötve amely megoldást ad az előbbi problémára. Ez a megközelítés lehetővé teszi több ezer analóg műveletvégző egység egy chip-en történő integrálását. A CNN igen hatékonynak bizonyult valósidejű kép és jelfeldolgozási feladatokban, ahol a számításokat valamilyen téridőbeli dinamika végzi el. Azonban a jelenlegi analóg VLSI CNN chip-ek pontossága nem elegendő parciális differenciál egyenletek olyan pontosságú megoldásához, ami lehetővé tenné az eredmények felhasználását mérnöki alkalmazásokban. Ezek a hátrányok megoldhatóak, ha emulált digitális architektúrát használunk a CNN dinamika emulálására, azonban ezek a megoldások egy nagyságrenddel lassabbak analóg megfelelőiknél. Egy full custom digitális VLSI architektúra megtervezése azonban nagyon idő és költségigényes főleg kis mennyiségű chip gyártása esetén. Az emulált digitális CNN architektúra fejlesztési költségeit jelentősen csökkenteni lehet, ha a megvalósításra programozható logikai eszközöket használunk. Az újrakonfigurálható eszközök legfőbb előnye hogy a gyártási technológia ismerete nélkül is lehetővé teszik digitális architektúrák megvalósítását. Ezen kívül a technológiaváltás is egyszerűsödik, mivel megtervezett áramkörnek csak kis részeit kell újratervezni esetleg egyáltalán nincs szükség újratervezésre. További előny hogy egymástól jelentősen különböző architektúrákat valósíthatunk meg a hardver környezet megváltoztatása nélkül. Elvégzett vizsgálatok, alkalmazott módszerek Kutatásaim során megvizsgáltam hogyan valósítható meg egy emulált digitális CNN-UM architektúra újrakonfigurálható FPGA áramkörökön. A vizsgálatok során nagy figyelmet fordítottam olyan tervezési technikák kifejlesztésére és használatára melyek segítségével változtatható számítási pontosságú emulált digitális CNN-UM architektúrát hozhattam létre. Az elkészült egyszerű CNN-UM architektúra képességeit kibővítettem lehetővé téve tetszőleges szomszédosságú és rétegszámú CNN cellatömb emulálását. Az elkészült architektúrákat sebesség és felület szerint optimalizáltam. A kísérletek során a különböző emulált digitális CNN-UM architektúrák szimulációihoz a ModelSim VHDL szimulátort az FPGA-s megvalósításhoz a Foundation ISE fejlesztőrendszert használtam. Az elkészült CNN-UM processzorokat a XESS cég XSV-300- as típusú prototípus kártyáján teszteltem. Kutatásaim során megvizsgáltam hogy mekkora számítási pontosság szükséges különböző parciális differenciálegyenletek emulált digitális CNN-UM architektúrán történő megoldásához. A parciális differenciálegyenletek megoldása során több különböző, a véges differenciák módszerén alapuló, numerikus módszert használtam. A parciális 2

differenciálegyenletek hagyományos szoftveres megoldásait saját fejlesztésű programokkal készítettem el. A parciális differenciálegyenlet megoldó CNN-UM architektúrák FPGA-n történő megvalósítására a C alapú Handel-C magas-szintű hardverleíró nyelvet és a DK fejlesztő környezetet használtam. A DK fejlesztő környezet használatával a Handel-C-ben leírt viselkedési modellek közvetlenül szintetizálhatók, ami a hagyományos RTL szintű VHDL leíráson alapuló tervezési módszerekkel szemben nagyobb flexibilitást és rövidebb tervezési időt tett lehetővé. Az elkészült, parciális differenciálegyenletek megoldására specializált, emulált digitális processzorokat a Celoxica cég RC-200-as fejlesztőkártyáján valósítottam meg. Új tudományos eredmények 1. Téziscsoport: Emulált digitális CNN-UM processzorok megvalósíthatósága újrakonfigurálható FPGA áramkörökön. A SZTAKI-ban tervezett CASTLE emulált digitális CNN-UM architektúra lehetővé teszi a CNN dinamika emulációját különböző számábrázolási pontosság (1, 6 és 12 bit) felhasználásával. A számítási pontosság csökkentésével a számítási teljesítmény jelentősen növelhető, a csökkentett pontosságú üzemmódok esetén azonban a chip jelentős része nem vesz részt a dinamika számításában. Noha a beállítható számítási pontosságok általános képfeldolgozási feladatok esetén megfelelőek, de sok esetben, pl. biológiai rendszerek modellezése, parciális differenciál egyenletek megoldása, nagyobb pontosságra van szükségünk. A jelenlegi analóg és emulált digitális VLSI CNN-UM implementációk csak 3 3-as esetleg 5 5-ös méretű template-ek alkalmazását teszik lehetővé. Nagyobb méretű template-ek csak 3 3-as template-ekre történő dekompozícióval futtathatók azonban nem minden CNN template dekomponálható. Ezekben az esetekben a CNN dinamika csak szoftver szimulációval vizsgálható azonban a megnövekedett template méret miatt a számítási teljesítmény lényegesen lecsökken. Bonyolult biológiai és fizikai rendszerek jól modellezhetők többrétegű CNN hálózatokkal. Azonban az analóg CNN megvalósítások vagy nem teszik lehetővé többrétegű CNN modellek használatát vagy a megoldások nem megfelelő pontosságúak. Ezért a többrétegű CNN dinamika vizsgálatához szoftveres szimulációt kellett alkalmazni, amely nagy méretű hálózat vagy eltérő időállandójú rétegek szimulációjánál nagyon lassú. A fent említett problémák megoldására létrehoztam egy új Falcon-nak nevezett emulált digitális CNN-UM architektúra családot. Megmutattam, hogy egy FPGA-n megvalósított Falcon emulált digitális CNN-UM processzor egy 3,0GHz-es Pentium 4 processzoron futtatott szoftver szimulációnál nagyságrendekkel nagyobb számítási teljesítményű azonos pontosság és flexibilitás mellett. Kibővítettem a Falcon emulált digitális CNN-UM architektúra képességeit lehetővé téve tetszőleges szomszédságú CNN template-ek használatát és többrétegű CNN hálózatok emulálását. 1.1. Tézis: Konfigurálható digitálisan emulált CNN-UM processzor megvalósítása és optimalizálása Xilinx FPGA áramkörökön A SZTAKI-ban tervezett CASTLE emulált digitális CNN-UM architektúra alapjait felhasználva kidolgoztam, és FPGA áramkörökre optimalizáltam egy új konfigurálható emulált digitális CNN-UM processzort, amely lehetővé teszi különböző méretű CNN tömbök emulációját különböző számítási pontosság mellett. A Falcon-nak elnevezett új architektúra szintetizálható RTL leírásban beállíthatók a processzorok főbb paraméterei 3

úgymint a cellatömb szélessége, a cella állapotának, bemenetének és a felhasznált template-ek számábrázolási pontossága, a felhasznált tér-variáns template-ek száma valamint az architektúrán belüli processzormagok száma és elrendezése. A felsorolt paraméterek változtatásával a Falcon architektúra mérete és sebessége az aktuális alkalmazáshoz optimalizálható. Megmutattam, hogy a Xilinx Virtex-II FPGA-n megvalósított Falcon architektúra órajel-frekvenciája a számítási pontosságtól függően 147-429MHz. Egy cella új állapotának kiszámítása 3 órajel-ciklust igényel, ennek megfelelően egy processzor teljesítménye 49-143 millió cella iteráció/s. Megmutattam, hogy ez a számítási teljesítmény 3,5-10,4-szeresen múlja felül egy 3,0GHz-es Pentium 4 processzor teljesítményét. Több Falcon processzor használatával a számítási teljesítmény a processzorok számával arányosan tovább növelhető, az egy chip-en megvalósítható processzorok száma pontosságtól függően 11-185db lehet a legnagyobb Virtex-IIPro 125- ös FPGA-n. 1.2. Tézis: Tetszőleges szomszédságú template-eket használó CNN-UM megvalósítása Kidolgoztam egy új eljárást, amellyel tetszőleges szomszédságú template-ek futtathatók emulált digitális architektúrákon. Megterveztem egy olyan emulált digitális architektúrát, amelyen a template-ek mérete beállítható. Az RTL leírásban szereplő konfigurációs paramétereknek megfelelően változik a processzoron belüli műveletvégző egységek (összeadók, szorzók) száma ennek megfelelően n n-es template méret esetén n szorzóra van szükség, amelyekkel n órajel-ciklus alatt számítható ki egy cella új értéke. A változó hosszúságú cella-iterációs ciklus miatt a processzor vezérlőegysége is automatikusan a template mérethez idomul. Megmutattam, hogy a műveletvégző egységek nagyobb száma lényegesen nem befolyásolja a működési sebességet, így Virtex-IIPro FPGA-k használatával, template mérettől függetlenül elérhető a 147-429MHz-es órajel-frekvencia. A hosszabb cella iterációs ciklus miatt a Falcon architektúra teljesítménye 5 5-ös template-ek esetén 29-85 millió cella iteráció/s-ra csökken. Megmutattam, hogy ez a számítási teljesítmény 3,3-9,8-szeresen múlja felül egy 3,0GHz-es Pentium 4 processzor teljesítményét. A műveletvégző egységek számának növekedése miatt az egy chip-en megvalósítható processzorok száma, Virtex-IIPro 125-ös FPGA és 5 5-ös template méret esetén, pontosságtól függően 6-111db. 1.3. Tézis: Többrétegű CNN-UM megvalósítása Kibővítettem a Falcon emulált digitális CNN-UM architektúra képességeit lehetővé téve tetszőleges rétegszámú CNN cellatömb emulációját. Az új architektúra egy teljesen összekötött többrétegű CNN hálózatot emulál tehát minden réteg, globálisan beállítható méretű template-ekkel, kapcsolódik az összes többi réteghez. A többrétegű Falcon architektúra az egyrétegű processzor főbb elemeiből áll, r réteg esetén r darab memória egység és rétegenként r darab összekapcsolt aritmetikai egység (összesen r r) szükséges. Egy cella új értékének kiszámításához szükséges órajelek száma független a rétegszámtól és csak a template mérettől függ. A többrétegű processzor megvalósításához szükséges felület a sok rétegközi kapcsolat miatt jelentősen megnő, három rétegű hálózat és 3 3-as template-ek használatánál a Virtex-IIPro 125-ös FPGA-n megvalósítható processzorok száma 1-20 darabra csökken. Megmutattam, hogy a működési sebességet ez lényegesen nem befolyásolja, így ebben az esetben is elérhető a 147-429MHz-es órajel-frekvencia. Három rétegű hálózat és 3 3-as template-ek használatánál egy többrétegű Falcon processzor 49-143-szor gyorsabb, mint egy 3,0GHz-es Pentium 4 processzor. 4

1.4. Tézis: Elosztott aritmetikai (distributed arithmetic) egység alkalmazása a Falcon emulált digitális CNN-UM architektúra aritmetikai egységének FPGA-ra történő optimalizálására. Kidolgoztam a Falcon emulált digitális CNN-UM architektúra aritmetikai egységének soros aritmetikát használó területre optimalizált változatát, amely térinvariáns template-ek futtatását teszi lehetővé. Megmutattam, hogy az optimalizált aritmetikai egység, az alkalmazott template és állapot változó számábrázolási pontosságának függvényében, akár 40%-kal kisebb területet is igényelhet, változatlan számítási teljesítmény mellett. Az új aritmetikai egység további előnye hogy teljesítménye jobban skálázható a hagyományos szorzókból felépített aritmetikai egységnél. A szorzókból felépített aritmetikai egységben n n-es template méret esetén 1, n és n 2 szorzó használata kézenfekvő ennek megfelelően egy cella új értéke n 2, n és 1 órajel alatt számítható ki. Megmutattam, hogy soros aritmetika alkalmazása esetén a ciklusidő az állapot változó számábrázolási pontosságától függ, pl. 12 bites esetben lehetséges 1, 2, 3, 4, 6 és 12 órajeles feldolgozási idejű aritmetikai egységek létrehozása. 2. Téziscsoport: Alkalmazás specifikus emulált digitális CNN-UM felhasználása parciális differenciál egyenletek megoldására. Parciális differenciál egyenletek megoldása a matematika egyik legfontosabb ága mivel ezek az egyenletek gyakran fordulnak elő a fizikában, műszaki tudományokban és más tudományterületeken. A CNN architektúra szabályos rácsban elhelyezett lokálisan összekötött analóg processzáló elemei kézenfekvő lehetőséget kínálnak parciális differenciál egyenletek véges differenciákkal való megoldására. A megoldáshoz szükséges CNN hálózat azonban a legtöbb esetben többrétegű és néhány fontos egyenlet pl. a Navier-Stokes egyenletek, esetén a cellák közötti interakciók nemlineárisak. A jelenlegi egyrétegű analóg VLSI CNN-UM chip-eken többrétegű hálózatok viselkedését csak közelíteni tudjuk, ezen kívül gondot okoz a nemlineáris interakciók megvalósítása is. További probléma hogy az analóg VLSI CNN-UM chip-ek 7-8 bites pontossága és 128 128-as cellatömb mérete nem elegendő a legtöbb mérnöki alkalmazásban. A Falcon emulált digitális CNN-UM architektúra alkalmazása esetén a cellatömb mérete és a rétegek száma nem jelent problémát. A megoldás pontosságát viszont más szemszögből kell vizsgálnunk: minimálisan mekkora számábrázolási pontosság szükséges ahhoz, hogy helyes eredményt kapjunk? A parciális differenciál egyenletek CNN-en történő megoldásakor kapott template-ek sok esetben szimmetrikusak, térinvariánsok vagy az értékek egymáshoz viszonyított aránya állandó. Ezek a tulajdonságok lehetővé teszik, hogy a Falcon emulált digitális CNN-UM architektúrát az adott parciális differenciálegyenlet megoldására specializáljuk. A specializált processzorok megvalósítása kisebb felületet igényel, valamint számítási teljesítményük is jelentősen növekedhet. Ebben az esetben a hagyományos RTL szintű VHDL leíráson alapuló tervezési módszer használata túlságosan időigényes így magas szintű szintézis módszereket kell használni a processzorok tervezése során. 2.1. Tézis: A számábrázolási pontosság hatása a megoldás pontosságára parciális differenciál egyenletek megoldása esetén Kidolgoztam két új heurisztikus eljárást, amelyek segítségével meghatározható parciális differenciál egyenletek és közönséges differenciálegyenlet rendszerek fixpontos megoldásához szükséges optimális számítási pontosság. Az eljárások hatékonyságát algoritmikus megfontolásokkal és kísérletekkel igazoltam. Az új heurisztikus eljárásokat parciális differenciál egyenletek és közönséges differenciálegyenlet rendszerek megoldása 5

során teszteltem. Kísérletileg igazoltam, hogy az új heurisztikus módszerek általánosan használhatóak. 2.2. Tézis: Magas szintű szintézis és gyors prototípus képző technikák alkalmazhatósága parciális differenciálegyenlet megoldó architektúrák tervezésére Megvizsgáltam két parciális differenciál egyenlet megoldását (nyomásérzékelő szenzor, óceán modell) és megterveztem egy új számítási architektúrát ezeknek az egyenleteknek a megoldására, amely jól illeszkedik az emulált digitális CNN architektúrák struktúrájához, valamint gyors és hatékony számítást tesz lehetővé. Kidolgoztam egy új eljárást, amellyel különböző parciális differenciál egyenletek megoldására specializált emulált digitális architektúrák hozhatók létre a hagyományos tervezési mód-szereknél jelentősen rövidebb idő alatt. Két parciális differenciál egyenlet megoldásán (nyomásérzékelő szenzor, óceán modell) keresztül megmutattam a módszer működését és hatékonyságát. Az architektúra lehetővé teszi tetszőleges karakterisztikájú, lokálisan összekötött cellatömbök emulációját. A karakterisztika megváltoztatásához csak az aritmetikai egység leírását kell módosítani ez azonban a magas szintű Handel-C hardver-leíró nyelv használata miatt egyszerűbben elvégezhető valamint tesztelése a hagyományos VHDL szimulációnál nagyságrendekkel gyorsabb. Az eredmények alkalmazási területei A Celluláris Neurális Hálózatok elméletének publikálása után rövid időn belül nagy számú analogikai algoritmust publikáltak a legkülönfélébb problémák megoldására. Azonban az eredmények gyakorlati alkalmazása nehézségekbe ütközött a megfelelő hardver platform hiánya miatt. Az első analóg VLSI CNN-UM chip-ek megjelenése újabb lökést adott a kutatásoknak és lehetővé tette az elméleti algoritmusok nagy részének gyakorlati megvalósítását. Annak ellenére, hogy az analóg CNN-UM chip-ek számítási teljesítménye igen jelentős bizonyos esetekben pontosságuk nem megfelelő ezen kívül érzékenyek a különböző zavarokra. Ezeknek a nehézségeknek a leküzdésére születtek meg az emulált digitális CNN-UM architektúrák. Ezek a megoldások valamivel lassabbak analóg megfelelőiknél. Mindkét megoldás hátránya azonban hogy csak egyes szomszédosságú template-ek használatát teszik lehetővé. A disszertációban bemutatott Falcon emulált digitális CNN-UM architektúra lehetővé teszi nagy pontosságot igénylő analogikai algoritmusok futtatását, az analóg VLSI megvalósításokkal összemérhető sebességgel. A változtatható számítási pontosság lehetővé teszi, hogy az analogikai algoritmusok futtatása során optimális mennyiségű erőforrást használjunk fel. A kibővített képességű Falcon architektúrán lehetőség nyílik tetszőleges szomszédosságú template-ek használatára, valamint többrétegű CNN cellatömb emulálására. A többrétegű CNN hálózatok felhasználhatók parciális differenciál egyenletek és bonyolult dinamikus rendszerek állapotegyenletének megoldására. Ilyen dinamikus rendszer lehet például egy kvalitatíve helyes retina modell. A Falcon emulált digitális CNN architektúra hatékonyságát parciális differenciálegyenletek megoldásán keresztül mutattam be. A bemutatott heurisztikus módszerek segítségével meghatározható az optimális számítási pontosság, amely lehetővé teszi az architektúra felületének, teljesítményének és I/O igényének csökkentését. A Falcon emulált digitális CNN-UM architektúra hatékonyan használható olyan feladatok megoldására, ahol a rendszer dinamikájának nagy pontosságú megoldására van szükség. 6

Publikációs lista Nemzetközi folyóirat [1] Z. Nagy, P. Szolgay Configurable Multi-Layer CNN-UM Emulator on FPGA IEEE Transactions on Circuits and Systems I: Fundamental Theory and Applications, Vol. 50, pp. 774-778, 2003 [2] Z. Nagy, P. Szolgay Fast and efficient multi-layer CNN-UM emulator using FPGA Periodica Polytechnica Electrical Engineering, Vol. 47, No. 1-2, pp. 57-70, 2003 [3] P. Kozma, Z. Nagy, P. Szolgay Seismic wave propagation modelling on emulated digital CNN-UM architecture Periodica Polytechnica Electrical Engineering, Vol. 49, No. 3-4, pp. 183-193, 2005 [4] Z. Nagy, P. Szolgay Solving Partial Differential Equations On Emulated Digital CNN- UM Architectures International Journal Functional Differential Equations, Vol. 13, No. 1, pp. 61-87, 2006, ISSN: 0793-1786 [5] Z. Nagy, Zs. Vörösházi, P. Szolgay Emulated digital CNN-UM solution of partial differential equations International Journal of Circuit Theory and Applications, Vo. 34, Issue 4, pp. 445-470, 2006, DOI: 10.1002/cta.363 Konferencia előadások [6] A. Katona, Z. Nagy, The functional test of a real-time image processor model Proceedings of INTCOM99, Budapest, Hungary, 1999 [7] A. Katona, Z. Nagy, The implementation of a real-time image processor on FPGA Proceedings of INTCOM2000, Veszprém, Hungary, 9-14 September, 2000 [8] Z. Nagy, P. Szolgay An emulated digital CNN-UM implementation on FPGA with programmable accuracy Proceedings of the 4 th IEEE DDECS Workshop, Győr, Hungary, April 18-20, 2001 [9] Z. Nagy, P. Szolgay Fast and efficient multi-layer CNN-UM emulator using FPGA Proceedings of the 3 rd Conference of PhD Students in Computer Science, Szeged, Hungary, July 1-4, 2002 [10] Z. Nagy, P. Szolgay Configurable Multi-Layer CNN-UM Emulator on FPGA Proceedings of the 7 th IEEE International Workshop on Cellular Neural Networks and their Applications, CNNA 2002, Frankfurt/Main, Germany, July 22-24, 2002 [11] Z. Nagy, P. Szolgay Configurable multi-layer CNN-UM emulator on FPGA using Distributed Arithmetic Proceedings of the 9 th IEEE International Conference on Electronics, Circuits and Systems, Dubrovnik, Croatia, September 15-18, 2002 [12] Z. Nagy, P. Szolgay Numerical solution of a class of PDEs by using emulated digital CNN-UM on FPGAs Proceedings of the 16 th European Conference on Circuits Theory and Design, Cracow, September 1-4, 2003 [13] Z. Nagy, Zs. Szolgay, P. Szolgay Tactile Sensor Modeling by Using Emulated Digital CNN-UM Proceedings of the 8 th IEEE International Workshop on Cellular Neural Networks and their Applications, CNNA 2004, Budapest, Hungary, July 22-24, 2004 [14] Z. Nagy, P. Szolgay Emulated Digital CNN-UM Implementation of a Barotropic Ocean Model Proceedings of the International Joint Conference on Neural Networks, IJCNN 2004, Budapest, Hungary, July 25-29, 2004 7

[15] L. Beke, Z. Nagy, P. Szolgay Low-cost CNN-UM global analogic programming unit implementation on FPGA Proceedings of the 8 th IEEE International Workshop on Cellular Neural Networks and their Applications, CNNA 2004, Budapest, Hungary, July 22-24, 2004 [16] Z. Nagy, Zs. Vörösházi, P. Szolgay An Emulated Digital Retina Model Implementation on FPGA Proceedings of the 9 th IEEE International Workshop on Cellular Neural Networks and their Applications, CNNA 2005, Hsin-chu, Taiwan, May 28-30, 2005 [17] Z. Nagy, P. Szolgay Emulated Digital CNN-UM Implementation of a 3-dimensional Ocean Model on FPGAs Proceedings of the 8 th Military and Aerospace Programmable Logic Devices International Conference, MAPLD2005, Wasgington DC., USA, September 7-9, 2005 http://klabs.org/mapld05/abstracts/153_nagy_a.html [18] Z. Nagy, Zs. Vörösházi, P. Szolgay, Mammalian retina model implementation on emulated digital FPGA, Joint Hungarian-Austrian Conference on Image Processing and Pattern Recognition, ISBN 3-85403-192-0, pp. 295-302, Veszprém, 2005 [19] Z. Nagy, Zs. Vörösházi, P. Szolgay An advanced emulated digital retina model on FPGA to implement a real-time test environment Proceedings of the 2006 IEEE International Symposium on Circuits and Systems, ISCAS2006, Island of Kos, Greece, May 21-24, 2006 [20] Z. Nagy, Zs. Vörösházi, and P. Szolgay A Real-time Mammalian Retina Model Implementation on FPGA, Proceedings of the 10 th IEEE International Workshop on Cellular Neural Networks and their Applications, CNNA2006, Istanbul, Turkey, August 28-30, 2006 [21] Zs. Vörösházi, Z. Nagy, A. Kiss, P. Szolgay An Embedded CNN-UM Global Analogic Programming Unit implementation on FPGA, Proceedings of the 10 th IEEE International Workshop on Cellular Neural Networks and their Applications, CNNA2006, Istanbul, Turkey, August 28-30, 2006 [22] Z. Kincses, Z. Nagy, P. Szolgay Implementation of Nonlinear Template Runner Emulated Digital CNN-UM on FPGA, Proceedings of the 10 th IEEE International Workshop on Cellular Neural Networks and their Applications, CNNA2006, Istanbul, Turkey, August 28-30, 2006 [23] S. Kocsárdi, Z. Nagy, S. Kostianev, P. Szolgay FPGA Based Implementation of Water Reinjection in Geothermal Structure, Proceedings of the 10 th IEEE International Workshop on Cellular Neural Networks and their Applications, CNNA2006, Istanbul, Turkey, August 28-30, 2006 [24] P. Sonkoly, P. Kozma, Z. Nagy, P. Szolgay Acoustic Wave Propagation Modeling on 3D CNN-UM Architecture, Proceedings of the 10 th IEEE International Workshop on Cellular Neural Networks and their Applications, CNNA2006, Istanbul, Turkey, August 28-30, 2006 [25] P. Szolgay, S. Kocsárdi; Z. Nagy, P. Sonkoly, Zs. Vörösházi, Complex computational problems in cellular architectures RSEE 2006. Proceedings of the 6 th international conference on renewable sources and environmental electro-technologies, pp: 111-115, Stana De Vele, 2006 8