Prezentare

INTEROB

4. PREZENTAREA ŞTIINŢIFICĂ ŞI TEHNICA A PROIECTULUI:

4.1. Definirea unui dicţionar de gesturi

Constituirea dicţionarului gestual presupune o serie de obiective, şi anume:

propunerea unui dicţionar gestual incluzând posturi ale mâinii, traiectorii gestuale şi mişcări ale capului

constituirea unui eşantion de utilizatori voluntari pentru colectarea de date gestuale

efectuarea de studii ergonomice privind capacitatea utilizatorilor de a interacţiona gestual cu un sistem informatic şi concluzionarea asupra complexităţii, naturaleţii, flexibilităţii şi eficienţei gesturilor considerate:

Considerând spre exemplu sistemele de realitate virtuală, putem identifica 3 tipuri de comenzi în ceea ce priveşte interacţiunea cu acestea:

comenzi generale ale aplicaţiei (comenzi de tipul da / nu / activarea meniurilor, etc.)
comenzi pentru interacţiunea cu obiectele virtuale (deplasare, rotaţie, scalare, tot ce ţine de interacţiunea directă cu obiectul virtual)
comenzi pentru navigarea în mediul virtual (schimarea punctului de vedere sau a poziţiei camerei, navigarea în cadrul scenei, operaţii de tip zoom, etc.)

Comenzile gestuale cu caracter general nu se adresează obiectelor sau spaţiului virtual ci aplicaţiei în general. Putem identifica în această categorie:

activarea / inactivarea interacţiunii gestuale – un gest necesar reprezentând decizia de a utiliza tehnologia de interacţiune gestuală, decizie care trebuie facută cunoscută sistemului

lucrul cu meniuri (o propunere de gesturi şi posturi în figura alăturată) – absolut necesar în cadrul metaforei existente WIMP (Windows, Icons, Menus, Point)

da / nu – din necesitatea pentru gesturi simple pentru a confirma sau nega în diferite etape ale interacţiunii (pentru a valida o acţiune, pentru a răspunde la o întrebare a sistemului, etc.)

undo / redo – gesturi simple pentru a anula sau pentru a permite refacerea unei operaţii.


Activarea unui menu	Selectarea unei opţiuni dintr-un meniu contextual ataşat unui obiect virtual	Dezactivarea meniului

Figura 1. Propunere de gesturi (posturi şi mişcări ale mâinii) pentru lucrul cu meniuri

Din cadrul comenzilor asociate obiectelor virtuale, putem identifica:

selecţia (selecţia simplă sau selecţia multiplă) care să permită indicarea ţintei tuturor acţiunilor viitoare (exemplu în figura de mai jos)

deplasarea unui obiect virtual în cadrul scenei

operaţia de rotaţie a unui obiect (rotaţie cu o singură mână sau cu două mâini ?)

dimensionarea unui obiect virtual

Figura 2. Propunere de gesturi pentru selecţia respectiv rotaţia unui obiect virtual

Comenzile pentru navigarea în spaţiul virtual includ (două exemple care exploateză mişcări naturale ale capului sunt prezentate în figura de mai jos):

schimbarea orientării curente a camerei

deplasarea într-o direcţie aleasă anterior (deplasare la viteză normală, viteză augmentată, etc.)

operaţii de tip zoom asupra scenei

Figura 3. Mişcări ale capului pentru schimbarea direcţiei de deplasare într-un mediu virtual

4.2. Achiziţia vizuală a gesturilor mâinii şi mişcărilor capului

Pentru detecţia mâinii şi achiziţia gesturilor efectuate cu mâna propunem o tehnică de segmentare a cadrelor video bazată pe informaţii complementare obţinute din:

caracteristici de culoare (engl. color based segmentation)

detecţia mişcării şi folosirea de modele adaptive ale fundalului (engl. motion detection)

caracteristici derivate (de exemplu comparaţii şi distanţe de similaritate definite între muchii, engl. edge detection ), pentru a discrimina între diferitele posturi incluse în dicţionarul de gesturi

Accentul va fi pus pe segmentarea bazată pe culoare şi pe construirea unui filtru adaptiv pentru detecţia culorii pielii (engl. skin color detection ) în spaţiul de culoare HSV (vezi figura alăturată). Astfel, imaginea va fi filtrată în funcţie de o condiţie de tipul: în cadrul căreia pragurile de filtrare pentru cele două componente hue / saturation vor fi determinate în mod dinamic şi adaptiv în funcţie de particularităţile cadrului video curent (luminozitate, apariţia / dispariţia unor obiecte pe fundal, etc.).

Figura 4. Trei cadre video consecutive şi histograma 2D hue / saturationasociată
(Vatavu et.al, Advances in Electrical and Computer Engineering, 1/2005)

Necesitatea unei asemenea soluţii poate fi observată din figura de mai sus care prezintă 3 cadre video consecutive. A se observa variaţia consistentă în ceea ce priveşte histogramele 2D hue / saturation pentru cele 3 cadre consecutive. Dreptunghiul mare suprapus histogramei reprezintă limitele maxime între care poate fi situată culoare pielii iar dreptunghiul mic limitele specifice fiecărui cadru. Se poate observa clar din dimensiunile diferite ale dreptunghiului mic necesitatea efectuării unei filtrări adaptive specifice fiecărui cadru video (în comparaţie cu abordări similare prezente în literatura domeniului, a se vedea capitolul 2 cuprinzând situaţia pe plan naţional şi internaţional).

Algoritmii de pre-procesare vizând detecţia culorii pielii vor fi dezvoltaţi iniţial pe sisteme tip desktop şi va fi cosiderată o eventuală implementare tip arhitectură hardware System on Chip totul pentru a reduce timpul total de procesare, degrevând sistemul principal de o analiza suplimentară şi realizând pre-procesările tip hardware. Astfel, vom avea în considerare o arhitectură SoC pentru un dispozitiv inglobat cu camera video cu următoarele funcţii:

achiziţia în timp real a imaginilor furnizate de camera video ataşată dispozitivului
prelucrarea în timp real a imaginilor vizând aplicarea metodelor de detecţie a culorii pielii şi de determinare a zonelor din scenă aflate în mişcare
transferul cu PC al parametrilor de funcţionare specifici: număr cadre/sec, rezoluţie imagini, tipul de compresie, parametri specifici algoritmilor de prelucrare a imaginilor, etc.
transferul pe PC a rezultatelor obţinute privind zonele de interes detectate (culoarea pielii respectiv zonele conţinând obiecte aflate în mişcare), cu scopul de a fi prelucrate în continuare pe PC

Scopul unei arhitecturi hardware este de a reduce procesarea necesară sistemului de recunoaştere a gesturilor prin realizarea unor operaţii de pre procesare (detecţia culorii pielii, detecţia zonelor aflate în mişcare) pe sisteme hardware specializate. Arhitectura presupune următoarea configuraţie: (1) microprocesor pe 32 biţi (Xilinx Microblaze); (2) interfaţă Ethernet, folosită pentru comunicarea datelor cu PC-ul; (3) interfaţă UART şi una JTAG folosite pentru debug; (4) interfaţă SDRAM/FLASH folosită pentru stocarea datelor şi a programelor; (5) interfaţă grafică VGA/LCD pentru afişarea rezultatelor; (6) interfaţă USB, folosită pentru comunicarea cu camera video. Dispozitivul ce va fi dezvoltat prezintă un grad ridicat de noutate atât din punctul de vedere al implementarii hardware cât şi din punctul de vedere al interfaţării software. Cu toate că cercetarile în domeniul recunoaşterii gesturilor se desfăşoară într-un ritm alert, referinţele bibliografice naţionale şi internaţionale nu marchează existenţa unui astfel de dispozitiv.

Pentru detecţia feţei, va fi perfectionat un algoritm pornind de la cercetarile din [Viola & Jones, 2001], având la bază caracteristici de tip Haar şi metode de antrenare de tip Ada Boost. Metodele de tip boosting au drept scop îmbunătăţirea performanţelor individuale a oricăror algoritmi de învăţare. Algoritmul are ca date de intrare un set de antrenare şi o serie de clasificatori, consideraţi slabi sau cu performanţe slabe. Scopul este de a combina aceşti clasificatori într-unul singur, puternic. Clasificatorii slabi care vor fi folosiţi sunt de tipul , unde reprezintă o caracteristică de tip Haar, un prag iar un indicator de paritate, indicând sensul inegalităţii; x reprezintă un exemplu din setul de antrenare.

4.3. Arhitectura sistemului de interacţiune gestuală

Pentru implementarea sistemului de interacţiune gestuală, modulele principale vor fi:

Modulul de captură video, implementat prin intermediul unui filtru DirectShow (VideoGrabber.ax)

Modulul de achiziţie a gesturilor mâinii, implementat sub forma unei librării DLL (folosind OpenCV)

Modulul de detecţie a feţei şi achiziţie a mişcărilor capului (DLL, folosind OpenCV)

Dicţionarul gestual

Figura 5. Arhitectura sistemului software

Modulele vor fi dezvoltate folosind: Microsoft Visual Studio .NET 7.0, Microsoft DirectX 9.0 SDK şi biblioteca de funcţii pentru procesarea imaginilor Intel OpenCV. Pentru a realiza aplicaţia în conformitate cu noile standarde impuse de Microsoft în ceea ce priveşte arhitectura media streaming pe platformele Windows, va fi utilizată componenta DirectShow din cadrul DirectX 9. DirectShow suportă captura video atât de la surse folosing WDM (Windows Driver Model) cât şi de la dispozitive folosind vechiul Video for Windows, precum şi detectarea automată a accelerării video hardware.

4.4. Validarea prin implementări ale sistemului de interacţiune gestuală

4.4.1. Lucrul în cadrul realităţii virtuale

Sistemul de interacţiune gestuală va fi implementat în cadrul unui mediu de lucru virtual în manieră colaborativă Spin3D dezvoltat în cadrul LIFL Laboratoire d'Informatique Fondamentale de Lille. Scopul este de a asigura o manipulare naturală a obiectelor virtuale (operaţiile considerate sunt: translaţii, rotaţii, scalări ale obiectelor, modificări ale proprietăţilor şi comportamentului acestora) folosind gesturi similare cu cele propuse în paragraful 4.1. referitor la dicţionarul gestual. Trebuie menţionat faptul că interacţiunea gestuală cu obiecte virtuale face obiectul unei teze de doctorat condusă în cotutelă în parteneriatul dintre Universitatea Suceava şi LIFL din cadrul Universităţii de Ştiinţe şi Tehnologie din Lille.

4.4.2. Lucrul în cadrul realităţii augmentate

Aplicaţia de tip realitate augmentată presupune folosirea unui dispozitiv tip proiector video pentru a realiza proiecţii ale unor obiecte virtuale (a se vedea figura alăturată) pe suprafaţa unei mese (reale) de lucru, masă care poate conţine şi alte obiecte din lumea reală. Lucrul se realizează simultan atât cu obiectele reale cât şi cu cele virtuale, de o manieră similară deci folosind aceleaşi categorii de gesturi (a se vedea specificaţiile pentru dicţionarul gestual ca parte deosebit de importantă a propunerii).

Figura 6. Lucrul cu obiecte virtuale în cadrul unei aplicaţii de realitate augmentată.
Proiecţia video are loc pe suprafaţa une mese (reale) de lucru

4.4.3. Interfaţa cu un sistem robotic static tip braţ

Robotul Hercules din cadrul Universităţii Suceava, folosit în cadrul sistemului de viziune artificială, este de tip braţ cu cleşte permiţând executarea de comenzi într-o sferă de acţiune cu o rază de 501 mm. Braţul robot este comandat de un sistem de prelucrare a imaginilor dezvoltat în cadrul Universităţii Suceava. Sistemul cuprinde o componentă de analiză vizuală centrată spre procesarea obiectelor din zona sa de lucru pentru operaţii de tipul: identificări de obiecte ţintă, apucări optime ale obiectelor, deplasări ale obiectelor, etc. Interfaţa gestuală vizează gesturi specifice operaţiilor executate de acesta.

4.4.4. Interfaţa cu un sistem robotic mobil

Robotul mobil autonom Centaure va fi rezultatul unei colaborari între Universitatea Suceava şi Polytech'Lille, Universite des Sciences et Technologies de Lille. Robotul este capabil să patruleze un perimetru bine definit şi să adune informaţii din mediul inconjurator. Specificaţiile robotului Centaure includ: şasiul tip baza dreptunghiulara 70 cm x 40 cm; roţile sunt plasate în interior cu tracţiunea pe spate: două roţi de 20 cm si două roţi mici de tip jockey; controller de viteza pentru motoare de 12/24V; microcontroller OOPic-R; senzor de poziţie; senzor de contact; senzori infraroşu; borne infraroşu pentru zona de patrulare; cameră video. Interfaţa gestuală vizează gesturi specifice (direcţia de deplasare, lansare de comenzi, atragerea atenţiei robotului, etc.).

4.5. Gradul de noutate şi complexitate ale propunerii sunt conferite de:

realizarea unui dicţionar gestual care să asigure un standard al interfeţei de tip gestual, din punct de vedere al ergonomicităţii, naturaleţii, flexibilităţii, uşurinţei în rememorare a gesturilor . Trebuie remarcat faptul că există în literatură propuneri de gesturi pentru acţiuni specifice însă nu în ceea priveşte realizarea unui standard interacţional comun în condiţiile criteriilor amintite mai sus

realizarea unei analize a traiectoriilor gestuale prin corelarea informaţiilor oferite de două camere video . Există încercări şi diferite abordări ale viziunii şi analizei stereoscopice însă centrate pe activităţi simple şi specifice. Propunerea urmăreşte înglobarea în cadrul aceleiaşi analize a urmăririi traiectoriilor gestuale ale mâinii şi mişcărilor capului într-un model fiabil şi cu cerinţele unei interfeţe de interacţiune, situandu-se în trendul cel mai actual al procesării în domeniul viziunii artificiale

experimentarea şi validarea sistemului de interacţiune prin implementarea acestuia în 4 scenarii diferite (în cadrul unui sistem de realitate virtuală pentru manipularea a obiectelor virtuale, în cadrul unui sistem de realitate augmentată, pentru comanda unui robot static Hercules respectiv pentru comanda unui robot mobil Centaure, sceanarii pentru care nu se cunosc solutii)


	[Proiect] [Situatie] [Obiective] [Prezentare] [Justificare] [Schema] [Rezultate] [Impact] [Management] [Resurse] [Echipa] [Raport final] [Diseminare]