INTEROB

Proiect
Situatie
Obiective
Prezentare
Justificare
Schema
Rezultate
Impact
Management
Resurse
Echipa
Raport final
Diseminare

2. SITUATIA PE PLAN NATIONAL SI INTERNATIONAL LA NIVELUL DOMENIULUI SI A TEMATICII PROPUSE:

Interactiunea om - calculator (Human-Computer Interaction, HCI) are drept scop proiectarea, evaluarea și implementarea sistemelor de calcul interactive destinate uzului uman și cu studiul fenomenelor importante existente în acest context. Propunerea de proiect centrează nivelul de interacțiune pe o comunicare gestuală, cu o caracteristică profund naturală. Obiectivul este nu numai de a depista mișcarea umană, ci de a o interpreta, descompune și de a identifica semantic gesturi semnificative. În cadrul proiectului, tehnologia de achiziție este dată de informația vizuală provenind de la camere video.

Problemă de cercetare complexă, recunoașterea gesturilor include o serie de demersuri și aspecte specifice:

    § studii psiholingvistice
    § achiziția gesturilor (diferențe apar la nivel tehnologic – echipamente magnetice, mecanice, acustice, inerțiale, camere video, echipamente hibride, etc.)
    § recunoașterea posturii în cadrul domeniilor recunoaștere formelor și învățarea automată (postura reprezintă gestul static, fără traiectorie, constând de exemplu în anumite poziții ale mâinilor)
    § analiza și recunoașterea traiectoriei (gestul este analizat în dinamica sa 2D/3D)

2.1. Aspecte psiholingvistice asupra gesturilor umane

Gesturile reprezintă mișcări ale mâinii, capului, brațelor care exprimă o idee, un sentiment, o intenție, înlocuind uneori vorbele sau dând mai multă expresivitate vorbirii [DEX'98]. Gesturile transmit informație și sunt însoțite de semnificații și conținut. Diferite studii de natură psiholingvistică au fost realizate în scopul înțelegerii comunicării de natură gestuală, studii care asigură un excelent material pentru domeniul interacțiunii om – sistem informatic [Kendon 86, Cadoz, 1994, McNeill 1992, etc.]. Astfel, [Cadoz, 1994] folosește termenul de canal de comunicare gestual, identificând 3 tipuri de gesturi (3 roluri funcționale diferite asociate gesturilor) deci o clasificare după funcția îndeplinită:

    § gestul ergotic acționează asupra mediului, derivând din noțiunea de a modela lumea fizică. Este gestul ce poate fi utilizat pentru interacțiunea cu obiectele unui sistem de realitate virtuală.
    § gestul epistemic oferă informații cu privire la temperatură, presiune, calitatea suprafeței unui obiect, formă, orientare, greutate (simțul tactil). Descoperirea mediului este realizată prin experiență tactilă.
    § gestul semiotic produce un mesaj informațional pentru mediu, cu rolul de a comunica informație. Este tipul de gest pentru operații de tip da/nu, afirmare/negare, etc. într-un dialog cu un sistem informatic.

Continuând studiile de natură psiholingvistică, în cadrul gesticulației = gesturi spontane, asociate vorbirii, [McNeill 1992] a definit 4 tipuri de gesturi:

    § gestul iconic care reproduce o serie de caracteristici ale obiectului, acțiunii sau evenimentului descris
    § gestul metaforic reprezintă o metaforă comună decât un obiect sau un eveniment în manieră directă
    § gestul brusc, scurt (din engl. beat) ades asociat cu accentuarea cuvintelor
    § gestul deictic cu rol indicator referindu-se la obiecte sau evenimente în spațiu sau timp

Trebuie remarcat faptul, deosebit de important pentru interacțiunea om – sistem informatic, aceste tipuri de gesturi spontane (gesticulația) reprezintă aproximativ 90% din gesturile umane.

Studii realizate asupra gesturilor iconice, metaforice și deictice arată divizarea acestora 3 faze [Kendon, Cassell, Wilson], aspect foarte important din punctul de vedere al achiziției gestului de către un sistem informatic: trecerea din starea de repaus în spațiul gesturilor prin intermediul stării de tranziție, mișcare de durată scurtă (engl. stroke) și trecerea înapoi în starea de repaus prin starea de tranziție – faza de retragere.

2.2. Tehnologii existente în interacțiunea gestuală. Raportarea la recunoașterea vizuală a gesturilor

O scurtă trecere în revistă a tehnologiilor de interacțiune existente, în special pentru imersiunea în mediile virtuale, include: dispozitive magnetice (Ascension's Flock of Birds), mecanice (Fakespace's BOOM Tracker), acustice (Logitech's Fly Mouse), inerțiale (InterSense IS300), capture video (camere video eventual cu markere colorate adiționale care se atașează pe obiectul ce va fi monitorizat) sau dispozitive hibride (InterSense IS600).

Prin comparație cu alte tehnologii folosite pentru achiziția gesturilor umane, informațiile video prezintă avantajul major al lipsei de intruziune, respectiv utilizatorul nu este obligat să folosească sau să poarte anumite echipamente (spre exemplu mănușile cu senzori), ceea ce creeaza impresia de interacțiune naturală. Recunoașterea vizuală a gesturilor apare astfel ca o tehnologia ideală pentru interacțiunea om-mașină care vine să înlăture inconvenientele prezentate de alte metode (inoportunitatea tastaturii sau mouse-ului în interacțiunea cu mediile virtuale, utilizarea manușilor cu senzori de tip Sensor/Data Gloves, etc.)

Totodată, trebuie menționate o serie de limitări ale sistemelor de procesare vizuală în ceea ce privește achitiția gesturile mâinii, cum ar fi: rezoluția camerelor video nu este suficientă pentru a surprinde atât mișcarea fină a degetelor cât și cadrul mai larg al mișcării efectuate în același timp de braț; 30 cadre pe secundă în cadrul tehnologiei video convenționale sunt deseori insuficiente pentru a captura o mișcare rapidă a mâinii (engl. hand is quicker than the eye ); segmentarea degetelor poate deveni dificilă datorită ocluziei, degetele putându-se acoperi în mișcarea lor.

2.3. Privire de ansamblu asupra recunoașterii vizuale a gesturilor

În cadrul recunoașterii vizuale a gesturilor, cercetări au fost efectuate în două mari sub-domenii: (1) achiziția vizuală a gesturilor (folosind tehnici specifice procesării video, procesării imaginilor și inteligenței artificiale) și (2) recunoașterea gesturilor (folosind tehnici specifice recunoașterii formelor)

2.3.1. Achiziția vizuală a gesturilor

Achiziția gesturilor presupune în primul rând detecția și urmărirea în timp real a unui obiect de interes (mâna cu degetele pentru gesturi și posturi mâinii, fața și ochii pentru mișcări ale capului, etc.). Tehnicile de detecție includ segmentări ale cadrelor video în funcție de caracateristici de culoare(engl. color based segmentation), mișcare (engl. motion detection, background subtraction), caracteristici derivate (de exemplu comparații și distanțe de similaritate definite între muchii, engl. edge detection), etc. Urmărirea (engl. tracking) [Chen et al. 2003] reprezintă procesul prin care o serie de caracteristici ale unui obiect aflat în mișcare (de exemplu poziția, orientarea, etc.) sunt urmărite de la un cadru video la altul. Există o serie de criterii care definesc cerințele unui sistem de urmărire (tracking) în ceea ce privește acuratețea sau eroarea înregistrată dintre locația reală și cea măsurată, numărul de grade de libertate, domeniul, respectiv maximul ariei de lucru în cadrul căreia sistemul poate opera, etc.

O direcție de cercetare importantă este centrată pe detecția măinilor respectiv a feței folosind considerente legate de culoarea pielii pentru algoritmii de detecție [Caetano et al. 2001, 2003].

Detecția feței a beneficiat deasemenea un interes ridicat în ultima perioada, numeroase abordări fiind propuse [Starovoitov et. al 2002, Lienhart et al. 2002, Li et. al 2002]. Trebuie remarcată contribuția importantă [Viola & Jones 2001] care, folosind seturi de caracteristici de tip Haar a condus la prima implementare în timp real a detecției feței funcționând la 15fps pe un sistem desktop obișnuit (și disponibilă într-un format open source în cadrul proiectului Open CV al Intel).

2.3.2. Tehnici de recunoaștere a gesturilor

În cadrul recunoașterii gesturilor, modelele Markov [Starner, 1995] au primit o atenție deosebită. Folosirea acestora este motivată de o serie de observații cu privire la natura gesturilor, și anume: gesturile variază în funcție de locație, timp și factori sociali; gesturile au asociate înțelesuri, semnificații; prezintă o serie de regularități, ceea ce le face abordabile din punct de vedere al metodelor lingvistice. Ideea din spatele folosirii modelelor Markov ascunse este de a utiliza modele multi-dimensionale reprezentând gesturi definite. Parametrii modelului sunt determinați cu ajutorul datelor de antrenare.

Modelele Markov au fost folosite de [Starner, 1995] pentru recunoașterea semnelor din ASL – American Sign Language.  Sistemul folosește o cameră color pentru detecția mâinilor cu mănuși de o anumită culoare.

[Hong, Turk et al.] descriu o modalitate de recunoaștere 2D a gesturilor în cadrul căreia fiecare gest este modelat cu ajutorul unei mașini cu stări finite, FMS, în spațiul spațio-temporal. Dispunând de informația continuă privind gestul – mișcarea, aceasta este împărțită în fraze folosind doar informația de natură spațial㠖 segmentarea traiectoriei gestului.

Pentru [James William Davis, MIT] punctul de plecare este motivat de faptul că un observator uman poate imediat recunoaște gesturile fără mare efort în imagini de rezoluție foarte scăzută fără informații de natură 3D asupra scenei. O regiune de mișcare binară (Binary Motion Region, BMR) imagine este calculată pentru a acționa ca un index într-o biblioteca de gesturi. BMR descrie distribuția spațială a mișcării pentru un anumit unghi și un anumit gest.

2.4 Organizații și grupuri de interes cu preocupări în domeniu, pe plan național și internațional

Pe plan național poate fi remarcat grupul local al ACM SIGCHI din România înființat în anul 2000 cu obiectivul este de a constitui un forum interdisciplinar pentru schimbul de idei și experiență în domeniul interacțiunii om-calculator (ACM SIGCHI Curricula for HCI). De remarcat Conferințele Naționale de Interacțiune Om-Calculator organizate la București, 2004 și 2005. Deasemenea, trebuie avute în vedere tutorialele produse de conferințele CHI și seria de volume "Interacțiune om-calculator" lansată de către RoCHI în anul 2003.

Pe plan internațional pot fi remarcate drept standarde în domeniu conferințele anuale ACM/CHI precum și workshop-urile tradiționale HCI: International conference on Intelligent User Interfaces, Conference on Human Computer Interaction, Human Work Interaction Design, annual conference on Human-Robot Interaction, IEEE symposium on 3D User Interfaces, etc.

2.5 Potențiali utilizatori

Sistemul ce va fi realizat ca urmare a dezvoltarilor teoretice si tehnologice, va permite o interacțtiune naturală cu sistemele informatice și robotice, prin intermediul gesturilor, fără a obliga utilizatorul să poarte dispozitive speciale. El va fi integrat cu siguranță în sistemele de realitate virtuala pentru facilitatile de interactiune aduse, dar si in sistemele de realitate augmentata. Cumulând categoriile de utilizatori (studenti, proiectanti, utilizatori casnici) ai acestor sisteme informatice si robotice, se poate observa că sistemul propus se va bucura de o cerere enormă pe piață, prin paradigma nou introdusă în interacțiunea om-calculator. Numărul mare de potentiali utilizatori a atras și compania Microsoft care are un grup ce desfașoară cercetări în acest domeniu [Hong et al.].

--------------------------------------- Bibliografie ---------------------------------------

[1] Claude Cadoz. Le geste canal de communication homme/machine. In Technique et Science Informatique, Vol. 13, No 1, pp. 31-61, 1994.

[2] Adam Kendon. Current issues in the study of gesture. In The Biological Foundation of Gestures: Motor and semiotic Aspects, pp. 23-47, Lawrence Erlbaum Associate, Hillsdale, NJ, 1986.

[3] David McNeill. Hand and mind: What gestures reveal about thought. University of Chicago Press, 1992.

[4] Andrew Wilson, Aaron Bobick, Justine Cassell. Recovering the temporal structure of natural gesture. In Proceedings of the 2nd International Conference on Automatic Face and Gesture Recognition, 1996

[5] Fakespace Labs, http://www.fakespacelabs.com ; Pegasus Technologies Ltd. http://www.pegatech.com; Ascension Technology Corporation http://www.ascension-tech.com/products/flockofbirds.php; Logitech Inc., www.logitech.com; Intersense, http://www.isense.com/products

[6] Chen, F.S, Fu, C.M., Huang, C.L., Hand gesture recognition using a real-time tracking method and hidden Markov models, IVC(21), No. 8, August 2003, pp. 745-758.

[7] T. S. Caetano, D. A. C. Barone, A probabilistic model for human skin color, IAP Conf. 2001, pp. 279-283

[8] V.V.Starovoitov, D.I.Samal, D.V.Briliuk, Three Approaches For Face Recognition, IPRAI Conf. 2002, Russia

[9] Paul Viola, Michael Jones, Rapid Object Detection using a Boosted Cascade of Simple Features, CVPR Conf. 2001

[10] R.Lienhart, J.Maydt, An Extended Set of Haar-like Features for Rapid Object Detection, Intel Labs,2002, Intel

[11] A.Mulder, Hand Gestures for HCI, Hand Centered Studies of Human Movement Project, TR 96-1, 1996

[12] James William Davis, Appearance-Based Motion Recognition of Human Actions, MIT Media Lab, TR 387, 1996

[13] P.Hong, M.Turk, T.S.Huang, Constructing Finite State Machines for Fast Gestures Recognition, Microsoft Reasearch

Starner T., Pentland A., Real time american sign language recognition from video using hidden Markov model, TR. 375, MIT Media Laboratory, 1995

[Proiect] [Situatie] [Obiective] [Prezentare] [Justificare] [Schema] [Rezultate] [Impact] [Management] [Resurse] [Echipa] [Raport final] [Diseminare]