Reconnaissance de la parole dans notre contexte robotique

Télécharger le fichier pdf d’un mémoire de fin d’études

État de l’art et positionnement de nos travaux

La robotique interactive est un défi majeur et relativement récent [Fong et al., 2003]. Ce type de robots, avant de sortir des laboratoires, doivent gagner en sociabilité afin de permettre une interaction directe avec un utilisateur non expert, que ce soit dans le champ domestique, public ou industriel. Un tel robot assistant requiert une intelligence dite « spatiale » aussi bien que « transactionnelle » :
– L’intelligence spatiale est basée sur les capacités de perception de son environnement par le robot. Il s’agit pour lui non seulement de comprendre et de naviguer dans cet espace mais aussi de manipuler des objets.
– L’intelligence transactionnelle est pour sa part basée sur les capacités du robot à percevoir l’homme et à communiquer avec lui.
Tandis que la première a fait l’objet de nombre de travaux par le passé, relativement peu de sys-tèmes robotiques sont aujourd’hui équipés d’une interface multimodale permettant de contrôler un robot par des moyens de communication naturels pour l’homme, tels que des sens tactiles (non abordés dans nos travaux), de la parole ou des gestes humains.

Reconnaissance et compréhension de la parole

La reconnaissance de parole est incontournable pour tout robot interactif. Citons les robots Godot [Theobalt et al., 2002], Coyote [Skubic et al., 2004] et Maggie [Gorostiza et al., 2006] qui ne disposent que de cette composante pour communiquer avec leurs utilisateurs. Pour sa part, BIRON [Maas et al., 2006] utilise un système de reconnaissance de parole performant, mais déporté, et détecte des personnes grâce à différentes modalités (détection sonore, visuelle et la-ser). L’importante présence de cette modalité s’explique d’une part par l’importance que nous, humains, accordons à ce moyen de communication, mais également par l’ancienneté du do-maine. En effet, cette dernière entraîne un grand nombre de solutions logicielles (commerciales ou libres) permettant de mettre sur pied relativement facilement un système de reconnaissance fonctionnel, bien qu’il faille aller plus loin pour le rendre performant et adapté à un contexte tel que celui de la robotique. Il est cependant à noter que, si la reconnaissance est très répandue parmi les plateformes robotiques, la compréhension de la parole y reste relativement margi-nale et peu décrite (un état de l’art détaillé est accessible dans le chapitre I), mais celle-ci sera abordée dans nos travaux.

Analyse et interprétation des mouvements de l’homme

L’interprétation des mouvements de l’homme à partir de capteurs embarqués est un point essentiel en IHR qu’on retrouve de plus en plus dans la littérature associée. D’une part, tout robot interactif doit maintenir une estimation de la cinématique de son utilisateur humain (et par conséquent son état) afin de prendre des décisions durant l’interaction. D’autre part, les mouvements du corps sont d’une importance fondamentale puisque 65% de l’information lors d’une interaction entre un homme et un robot est un acte non verbal [Davis, 1971], c’est-à-dire une position globale, un mouvement, un geste, etc.
Ces mouvements peuvent faire l’objet d’un suivi visuel dans le plan (2D) pour des robots équipés d’un système de vision monoculaire embarqué. C’est le cas des robots ALBERT [Ro-galla et al., 2004] et Pioneer [Yoshizaki et al., 2002], qui suivent une main dans le but d’en extraire la trajectoire. Mais, d’une manière générale, les approches 3D sont plus adaptées à l’es-timation des mouvements humains, puisque ceux-ci restent rarement fronto-parallèles. [Stiefel-hagen et al., 2004] (ARMAR), mais aussi [Hanafiah et al., 2004] ont ainsi équipé leurs robots respectifs d’un système de suivi visuel 3D de la tête et des deux mains. Ces derniers utilisent également un système de suivi de l’orientation de la tête, montrant l’intérêt d’une telle démarche pour l’interprétation de gestes déictiques.
Dans tous les cas, qu’il s’agisse d’une approche 2D ou 3D, le suivi du mouvement d’une ou de plusieurs extrémités du corps (et notamment des mains) ouvre la voix à une forme de re-connaissance de gestes. Cette dernière va d’une simple détection de position maintenue durant un certains laps de temps [Hanafiah et al., 2004], à la reconnaissance de gestes proprement dite pour ARMAR et ALBERT, en passant par la mise en correspondance de modèles statiques de forme (en anglais, « template matching ») pour Pioneer (en l’occurrence, une main). La recon-naissance de gestes est aujourd’hui un enjeu majeur dans la communauté Robotique. Les gestes visuels traduisent les pensées humaines, et complètent, accentuent et ajustent les informations verbales. L’interprétation visuelle de gestes est particulièrement adaptée à un environnement dans lequel la communication verbale peut être confuse ou noyée dans le bruit ambiant.
Une dernière observation concerne les hypothèses sous-jacentes communes à certains tra-vaux. D’une part, les gestes sont souvent supposés mono-manuel [Corradini and Gross, 2000, Siegwart et al., 2003, Skubic et al., 2004, Stiefelhagen et al., 2004, Yoshizaki et al., 2002] et/ou les extrémités du haut du corps sont souvent suivies séparément [Hasanuzzaman et al., 2007, Ni-ckel and Stiefelhagen, 2006, Park et al., 2005], ce qui induit inévitablement des erreurs de suivi et donc de reconnaissance lorsqu’elles s’occultent. À notre connaissance, peu d’analyse simul-tanée du mouvement de toutes les extrémités du haut du corps humain n’ont encore été intégrées sur un robot mobile alors qu’un suivi de gestes efficace est essentiel à une reconnaissance de gestes ultérieure. Ceci ouvrirait en effet un nombre grandissant de possibilité d’interactions, en particulier par la reconnaissance de gestes bi-manuels. Ces derniers font partie de nos travaux et nous décrivons une approche originale permettant de traiter ces problèmes de suivi multi-cibles.

Multimodalité pour une interaction homme-robot plus avancée

L’assistance mutuelle entre les capacités visuelles et sonores d’un robot permet à un utili-sateur d’introduire de manière robuste des références spatiales dans ses déclarations verbales. Combinée à un geste de pointage, ce type de commande ouvre la possibilité de désigner des objets ou des endroits de manière naturelle, par exemple faire changer le robot de position ou de direction, ou désigner un objet. Les techniques visuelles pour la perception de l’homme et le traitement du langage naturel ont été principalement étudiées indépendamment du fait qu’ils constituent chacun un domaine de recherche spécifique [Prodanov and Drygajlo, 2003b, Skubic et al., 2004, Triesch and Von der Malsburg, 2001, Waldherr et al., 2000]. Différents travaux visent à coupler ces deux canaux de communication et plusieurs robots sont aujourd’hui équi-pés d’interfaces multimodales combinant le geste et la parole à différents niveaux et suivant diverses stratégies. Dans ces travaux, la parole est le canal principal de la communication.
Ainsi, la stratégie la plus simple est celle développée par [Hanafiah et al., 2004] qui, n’ayant pas à sa disposition une véritable reconnaissance de gestes, part du principe que paroles et gestes sont parfaitement corrélés. [Yoshizaki et al., 2002] préfère pour sa part n’utiliser la vision qu’après que le besoin en soit exprimé par la parole, décorrélant de cette manière les deux canaux. [Rogalla et al., 2004] réalise la fusion d’événements (en provenance d’un canal ou de l’autre) associés pour définir les bonnes actions à mener, mais le système est handicapé par des aspects visuels trop peu avancés (suivi simpliste, reconnaissance de gestes 2D). Enfin, [Stiefelhagen et al., 2004] définit certainement l’interface la plus évoluée en fusionnant parole et gestes dans un cadre probabiliste. Néanmoins, leur interface multimodale n’a pas donné lieu, à notre connaissance, à une intégration et des évaluations poussées sur une plateforme robotique, contrairement aux objectifs de nos travaux.
Le tableau 1 synthétise nos propos en décrivant les capacités d’interaction des principaux robots de la littérature. La dernière ligne a pour but de situer les robots sur lesquels portent nos travaux parmi ces derniers. La figure 2 montre l’aspect physique de trois de ces robots.

Principes de la reconnaissance vocale

Prétraitements

Avant de pouvoir modéliser un signal, quel qu’il soit, une première étape indispensable consiste à effectuer divers prétraitements afin d’extraire du signal des vecteurs de données per-tinentes capables d’alimenter un algorithme de reconnaissance. La reconnaissance de parole ne fait pas exception à la règle : ces traitements standards en traitement de signaux sonores (échan-tillonnage, transformée de Fourrier rapide), puis plus spécifiques à la parole sont effectués afin d’obtenir une séquence de vecteurs acoustiques qui forment l’entrée de l’algorithme de recon-naissance. Ces vecteurs sont appelés MFCCs (pour « Mel Frequency Cepstrum Coefficient ») en référence à l’échelle de Mel qui est utilisée ici plutôt qu’une échelle fréquentielle classique car basée sur la perception humaine des sons (qui est non-linéaire) : mel(f ) = 2595.log(1 + f /700), avec f la fréquence en Hz[O′Shaughnessy, 1987].
De plus, dans le but de rendre la reconnaissance plus robuste, notamment au bruit, on rajoute souvent au vecteur la vitesse Δ voire l’accélération Δ2 de ces MFCCs (c’est-à-dire les dérivées et dérivées seconde du vecteur). On peut également y rajouter un terme d’énergie E qui lui aussi sera dérivé autant que les MFCCs. Enfin, divers post-traitements des MFCCs sont possibles, tels une normalisation de l’énergie, avec là encore comme but de supprimer ou rendre négligeable des bruits de fond inintéressant pour la reconnaissance.
Il est à noter que, bien que le calcul des MFCCs soit la méthode la plus répandue dans la communauté parole, il existe d’autres méthodes comme le calcul du LPC (pour Linear Predic-tion Coefficients) qui ne seront pas abordés dans ce manuscrit. Le lecteur intéressé est invité à consulter [Boite, 2000] pour de plus amples détails concernant l’ensemble de cette phase de prétraitements.

Modèles phonétiques et modélisation par HMM

Pour chaque signal traité, on obtient une séquence de vecteurs de paramètres. Imaginons que nous ayons deux jeux de donnés X et Y , composés chacun d’un certain nombre de ces séquences, et que nous voulions les classifier de manière automatique. Pour ce faire, il nous faut commencer par trouver un modèle dynamique (puisqu’il s’agit de séquences de données temporelles) adapté à cette tâche, c’est-à-dire capable de capter l’évolution des données d’une séquence de X, les similarités entre cette séquence et d’autres du même jeu, et capable de les distinguer des séquences de Y .
La modélisation la plus utilisée, car la plus efficace jusqu’à aujourd’hui, en reconnaissance de la parole est le modèle de Markov caché. Les HMMs sont utilisés pour modéliser les unités de base d’un système de reconnaissance. En reconnaissance de la parole [Jurafsky and Martin, 2000], ces unités peuvent être :
– des mots, pour des applications qui ne nécessitent qu’un vocabulaire très restreint (opéra-teurs de téléphonie par exemple),
– des phonèmes, pour des applications à vocabulaire de taille moyenne et au delà (dans la plupart des applications de communication homme-machine). Les phonèmes sont des unités phonétiques de base, la plus petite unité discrète que l’on puisse isoler par segmen-tation dans la chaîne parlée. Ils représentent les sons qui forment une langue.
– des N-phones, pour le même type d’applications que les phonèmes. Les N-phones (di-phones ou triphones le plus souvent) sont en réalité des suites de N phonèmes qui sont modélisés par un unique HMM. L’utilisation de phonèmes est en fait synonyme d’utilisa-tion de monophones. Une utilisation courante est celle de triphones car ceux-ci permettent la prise en compte du contexte gauche et droit, la prononciation d’un phonème étant dif-férente suivant les phonèmes qui le précède et le succède. Elle nécessite en général un plus grand corpus d’apprentissage que pour des monophones car l’ensemble des triplets sonores doivent y être suffisamment représentés, bien qu’il soit possible de générer par simulation des triphones à partir de monophones précédemment appris.
Dans notre cas, l’IRIT, par des travaux antérieurs (voir sous-section I.2.2), dispose d’un jeu de modèles acoustico-phonétiques de phonèmes que nous avons pu utiliser. Ne disposant pas de N-phones à l’heure actuelle, et la construction de tels modèles sortant du cadre de nos travaux, nous utilisons uniquement des monophones.
➢Définition
Un modèle de Markov caché (ou HMM, pour « Hidden Markov Model ») [Rabiner, 1989] est un modèle temporel constitué de nœuds cachés Sk et de nœuds d’observation xk . Nous dé-taillons ici à la fois le cas continu et discret, le premier ayant son application ici puisqu’on cherche à modéliser un signal continu, tandis que le second est souvent utilisé pour des appli-cations de type décision ou reconnaissance d’activité, mais sera également utilisé pour notre système de reconnaissance de geste (voir chapitre III). La figure I.2 représente un HMM sous sa forme déployée. Un nœud (ou variable) caché représente l’état interne du système à modé-liser, il n’est pas observable. Un nœud d’observation est une variable observable conséquence de cet état interne. Les liens causaux (ici symbolisés par des flèches) sont de nature probabiliste et représentent la probabilité d’avoir les valeurs de la variable d’arrivée sachant la variable de départ.

Implémentation sur nos plateformes

Nous allons maintenant décrire le système qui constitue la composante parole dédiée à notre application d’interaction homme-robot.

Paramétrisation et ressources linguistiques

La phase de traitement du signal et d’extraction des coefficients pertinents est représentée dans la partie gauche du synoptique donné en figure I.1. Elle est effectuée dans notre module par l’intermédiaire d’un outil de HTK [Young et al., 2006], une « boîte à outils » développée à l’université de Cambridge et consacrée à la construction et à l’utilisation des HMMs. Cette boîte à outils se veut générique, mais est tout de même très orientée vers la reconnaissance de la parole et nous fournit par conséquent tous les outils nécessaires au prétraitement des données (extraction des MFCCs) en plus des outils pour HMMs (création, apprentissage de HMMs, puis reconnaissance).
➢Paramétrisation
Les campagnes d’évaluation ESTER [Galliano et al., 2005], organisées conjointement par la Direction Générale à l’Armement (DGA), l’Association Francophone de la Communication Parlée (AFCP) et avec le concours de l’ELDA (Evaluations and langage resources Distribution Agency), visent à mesurer les performances actuelles de chacune des composantes d’un sys-tème d’indexation d’émissions radiophoniques. Dans ce but, des corpus sont construits sur la base de telles émissions et fournies aux laboratoires participants afin d’évaluer leurs systèmes de transcription automatique. Les transcriptions sont enrichies par un ensemble d’informations an-nexes, comme le découpage automatique en tours de paroles, le marquage des entités nommées, etc, qui permettent d’obtenir une transcription lisible d’une part et, d’autre part, une représen-tation structurée du document à des fins d’extraction d’informations. Les modèles phonétiques, sur lesquels est basé notre système de reconnaissance de la parole, ont été construits et appris lors de la participation de l’IRIT à l’une de ces campagnes. Les modèles phonétiques ont été construits suivant :
– un échantillonnage par des fenêtres de 16 ms avec un recouvrement 8 ms (avec fenêtrage de hamming),
– les vecteurs acoustiques sont constitués de 39 paramètres soit 12 MFCCs, l’énergie, leur vitesse et accélération,
– l’énergie est normalisée,
– les fréquences sont limitées à la bande de 300 à 8000 Hz.
Ces caractéristiques, utilisées lors de l’apprentissage doivent être les mêmes lors de la recon-naissance.
➢Modèles phonétiques
La modélisation acoustique a été réalisée en utilisant des HMMs gauche-droite. Cela signifie que tous les liens de probabilité d’un HMM (voir la figure I.2) ne peuvent aller que dans un seul sens : la matrice de transition A est donc définie par aij = P (qk+1 = Sj |qk = Si), avec 1 ≤ i ≤ N et i ≤ j ≤ N . Chaque état du HMM est décrit par un mélange de 32 gaussiennes (qui modélisent chacune des bj (k)). Ces HMMs ont été appris sur les 31 heures d’enregistrement radiophonique de la phase 1 de la campagne ESTER et modélisent l’ensemble des phonèmes constituant la langue française, dont la définition est donnée en annexe A. En réalité, nous disposons au final de 39 HMMs :
– 35 HMMs modélisent les phonèmes français tels que définis dans l’annexe A, mis à part le modèle de /a/ qui est fusionné avec /A/, et sont composés de 3 états chacun (sauf les consonnes plosives qui n’en ont que 2),
– 2 HMMs modélisent les silences, l’un court (3 états) et l’autre long (5 états), qui per-mettent notamment de modéliser les pauses entre deux mots, ainsi qu’en début et fin de phrase,
– 2 HMMs modélisent les pseudo-phonèmes (quasi-silences très courts) précédents les consonnes plosives (l’un pour les /b/ et /d/, l’autre pour les /k/, /p/ et /t/) et sont com-posés de 2 états chacun.
➢Lexique phonétique
Le lexique phonétique est un extrait de la base de données lexicale française BDLEX [Pé-rennou and de Calmès, 2000]. Cette base a été développée dans le cadre du groupe de recherche GDR-PRC (Communication Homme-Machine) à l’IRIT et contient environ 440 000 formes fléchies (issues de 50 000 formes canoniques). Les informations associées qui nous intéressent sont la graphie accentuée (c’est à dire l’orthographe des mots) et leurs prononciations, mais cette base en contient d’autres comme des attributs morphosyntaxiques (catégorie syntaxique, accords, …), la graphie du mot canonique et un indicateur de fréquence. Pour sa part, notre lexique contient les mots de notre vocabulaire en lien avec leurs prononciations (un exemple en est donné à travers le tableau I.2a). Il est à noter que la diversité des prononciations possibles dans notre cadre est grand, étant donné que notre système doit être indépendant du locuteur.

Choix d’une modélisation

Au vu de ces descriptions, force est de constater qu’il est quasiment impossible et extrême-ment lourd de représenter l’intégralité d’une langue par des règles, et ce d’autant plus que notre but est de comprendre le langage spontané, qui peut comprendre des hésitations, des répétitions ou des abus de langage. De plus, une représentation probabiliste du langage peut beaucoup plus facilement couvrir une grande partie des possibilités d’une langue sous réserve de disposer d’un corpus d’apprentissage adapté.
Mais dans le même temps, si l’on ne dispose pas d’un corpus suffisant et adapté à notre contexte, il sera impossible de construire une représentation assez satisfaisante pour faire de la reconnaissance. En effet, certains N -grammes peuvent ne pas apparaître ou peu dans le corpus d’apprentissage. Leurs probabilités après apprentissage seraient alors biaisées : nulle dans le premier cas, alors que le symbole peut apparaître lors d’une reconnaissance, ou trop approxi-mative dans le second cas. Dans tous les cas, sur un corpus d’apprentissage de taille trop faible, certains triplets seront sous- ou sur-représentés, biaisant leurs probabilités et par conséquent risquant d’entraîner de mauvaises reconnaissances. Bien qu’il existe des méthodes de lissage et de redistribution de probabilité, elles deviennent inutiles pour des corpus trop petits. D’autre part, une modélisation statistiques du langage permet de générer, dans certaines conditions, des suites de mots complètement incohérentes avec une forte probabilité, alors qu’une grammaire ne peut produire que des phrases correctes (ou du moins faisant partie de cette grammaire). En-fin, une modélisation probabiliste génère des phrases qui ne peuvent être prévues à l’avance, ce qui est une excellente chose pour la reconnaissance de parole, mais rend l’interprétation de ces phrases plus complexe que pour celles générées par une grammaire vu leur variabilité accrue.
Cette énumération des principaux avantages et désavantages de chacune de ces méthodes de modélisation du langage expliquent les cadres dans lesquels elles sont utilisées. Les modélisa-tions probabilistes sont utilisées dans toutes les applications à grand vocabulaire (LVCSR, pour « Large Vocabulary Continuous Speech Recognition ») où elles ont prouvé leur grande efficacité (mesurée en taux d’erreur sur les mots (W ER)). Les grammaires sont plus souvent utilisées dans des applications à petit vocabulaire où il est facile de modéliser l’ensemble des phrases possibles. Dans notre cas, bien que notre volonté de traiter la parole la plus naturelle possible puisse nous attirer vers les modèles probabilistes, les restrictions de notre cadre applicatif nous font choisir la modélisation par grammaire. Les raisons de notre choix sont les suivantes :
1 . Nous ne disposions au départ d’aucun corpus de textes dans le contexte de l’interac-tion homme-robot ou même homme-machine et la construction d’un tel corpus est assez longue. Les systèmes à grand vocabulaire utilisent souvent des tri-grammes appris à par-tir de journaux (écrits) pour des tâches de reconnaissance sur des journaux ou émissions télévisés ou radiophoniques. Notre contexte est très différent et de tels modèles n’auraient donc pas été adaptés et auraient mal orienté la reconnaissance. À long terme, nos corpus grandissant pourront peut-être permettre un apprentissage de tels modèles en remplace-ment de nos grammaires.
2 . Notre but étant uniquement de contrôler un robot et le nombre d’actions exécutables par le robot étant limité, il est possible de construire une grammaire assez complète limité à ce contexte.
3 . L’analyse sémantique de phrases issues d’une grammaire, et donc prévisibles, est plus aisée que l’analyse de phrases issues de N -grammes. Cela nous permet dans un premier temps de construire rapidement notre premier système de compréhension.
4 . Le temps de calcul, comme la place prise en mémoire, consommées par un système basé sur des N -grammes est en général bien plus important que pour un système basé sur une grammaire. Néanmoins, les optimisations utilisées par un moteur de reconnaissance tel que Julius (voir point suivant) ajoutées à une modélisation moins précise (et donc moins performante, mais plus rapide) pourraient venir à bout de cet argument.
Enfin, les tâches que nous envisageons sont suffisamment précises pour envisager de définir une grammaire pour chacune d’elles (salutations, guidage, manipulation d’objets, etc).

Moteur de reconnaissance

Afin de satisfaire aux exigences de notre plateforme robotique (ressources mémoire et pro-cesseur limités et partagés avec d’autres modules, quasi temps réel obligatoire), nous avons choisi d’utiliser un moteur de reconnaissance nommé Julius. Julius est un logiciel libre déve-loppé par le « Continuous Speech Recognition Consortium » [Lee et al., 2001] au Japon. Il est décliné en deux versions :
– Julius, qui utilise des N -grammes (représentation probabiliste) pour modèle de langage,
– Julian, qui utilise des grammaires (représentation par règles).
Julian, la version de Julius utilisant une reconnaissance par grammaire, utilise les ressources lexicales et grammaticales sous forme de deux fichiers dont la syntaxe suit l’exemple donné dans le tableau I.2. La grammaire (partie I.2b du tableau) respecte la définition d’une gram-maire hors contexte : « S » représente l’axiome, les expressions séparées par des « : » sont les règles de production et tous les mots ici en majuscules sont des symboles non-terminaux, égale-ment appelés catégories. Le lexique phonétique (partie I.2a du tableau) contient le vocabulaire utilisé par le moteur de reconnaissance et constitue la deuxième partie de la grammaire : les mots précédés par des « % » sont les catégories de plus bas niveau de la grammaire, les mots qui les suivent sont les symboles terminaux et les symboles qui suivent chaque mot forment leurs prononciations. Cette grammaire permet de générer les phrases suivantes : « Ceci est un bol. », « Ceci n’est pas un bol. », « Ça c’est pas de bol. », plus un certain nombre de phrases « para-sites » comme « Ça est un bol. ». Il est à noter que dans la réalité, les « c’ » et « n’ » ne seraient jamais insérés de cette manière dans un lexique : on préfère toujours utiliser des expressions entières (ici « c’est » et « n’est ») car les mots trop courts se laissent trop facilement insérer et génèrent trop d’incertitudes lors de la recherche dans le treillis de mots. De même, pour obte-nir un système de reconnaissance efficace, on évite les phrases parasites, quitte à complexifier l’écriture de la grammaire. Mais dans cet exemple, nous avons cherché à montrer comment une grammaire permet de combiner des mots, puis des expressions, même avec un vocabulaire et un nombre de phrases cibles très réduites, d’où ces incohérences.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Sommaire
Introduction générale
1 Contexte et objectifs de nos travaux
2 État de l’art et positionnement de nos travaux
3 Articulation et spécificités de nos travaux
4 Annonce du plan
I Composante parole pour l’IHR en langage naturel
I.1 État de l’art
I.2 Reconnaissance de la parole dans notre contexte robotique
I.3 Compréhension de la parole dans le contexte IHR
I.4 Intégration et améliorations
I.5 Évaluations
I.6 Conclusion
II Perception visuelle de l’homme : suivi de gestes et suivi du regard
II.1 État de l’art et positionnement de nos travaux sur le suivi
II.2 Formalisme du filtrage particulaire
II.3 Description de notre traqueur de gestes
II.4 Description de notre traqueur de visage
II.5 Conclusion
III Reconnaissance de gestes
III.1 État de l’art
III.2 Méthodes utilisées pour la reconnaissance de gestes
III.3 Implémentation
III.4 Mise en œuvre et expérimentations
III.5 Conclusion et perspectives
IV Fusion de données audio-visuelles et démonstrations robotiques
IV.1 État de l’art et positionnement de nos travaux
IV.2 Plateformes robotiques et scénarios associés
IV.3 Intégration et évaluations
IV.4 Conclusion
Conclusion et perspectives