Problématique de la reconnaissance du comportement humain
Dans les travaux de l’état de l’art pour la problématique de reconnaissance d’action, différents vocabulaires et terminologies ont été utilisées. Nagel (1988) a catégorisé le comportement en cinq niveaux : changement, événement, verbe, épisode et historique. Un changement est toute déviation dans un signal sensoriel qui diffère significativement du bruit. Un événement est tout changement qui a été défini a priori comme une primitive pour la construction de descriptions plus complexes. Un verbe décrit une activité ou l’absence explicite d’activité (se reposer par exemple). Une action est supposée être l’activité la plus élémentaire. Un épisode est une combinaison d’actions. Un historique est une série d’événements liés les uns aux autres par des relations de cause à effet. Dans les travaux de Bobick (1997), le comportement est classé en trois catégories : mouvement, activité et action. Afin de montrer la différence entre ces trois classes, un exemple autour du sport de Baseball est donné : la reconnaissance de trois différents comportements à savoir balancer la batte, lancer la balle et marquer un coureur. Balancer la batte consiste à déplacer la batte à une vitesse suffisante pour propulser la balle. Ce comportement est classé comme mouvement, car l’exécution est cohérente et facilement caractérisée par une trajectoire spatio-temporelle définie dans un espace de configuration (dans ce cas, la cinématique du corps humain). Lancer la balle implique beaucoup plus d’étapes que de frapper : généralement, ce comportement consiste à (1) rapprocher les bras devant le corps pour atteindre l’équilibre sur les deux pieds (2) balancer les bras en arrière (3) donner un coup de pied dans la jambe avant tout en se penchant en arrière (4) livrer la balle. Le comportement est classé comme activité (séquence de mouvements). La reconnaissance d’un tel comportement nécessite de connaître à la fois l’apparition de chaque mouvement et les propriétés statistiques de la séquence temporelle. Pour marquer un coureur, un joueur avec la balle fait entrer son gant en contact avec un coureur qui ne touche pas la balle à temps. Ce comportement est classé comme action, car il inclut les primitives sémantiques relatives au contexte du mouvement.
Moeslund et al. (2006) a utilisé la hiérarchie suivante pour définir un comportement : primitives d’action/moteur, actions et activités. La primitive action/moteur est un mouvement qui peut être décrit au niveau d’un membre, tel que le déplacement d’une jambe. Une action est une séquence de primitives d’action/moteur pouvant décrire un mouvement du corps entier, éventuellement cyclique, tel que la course. L’activité consiste en un ensemble d’actions qui donnent une interprétation de ce qui est exécuté (ce qui peut être décrit comme une compréhension de la situation), telle que jouer au football. Un exemple est donné sur le sport de tennis afin de montrer la différence entre les trois catégories de comportements citées. Dans ce sport, les mouvements “coup droit”, “revers”, “courir à gauche” et “courir à droite” pourraient être considérés comme primitives d’action. Le terme action est utilisé pour la séquence de primitives nécessaires pour retourner la balle. Une action particulière dépendra donc des primitives d’action requises (coup droit, un revers, un lob, une volée, etc.) pour pouvoir renvoyer la balle. Les activités sont des événements à plus grande échelle, dans cet exemple c’est “jouer au tennis”. Dans les travaux de la littérature pour la reconnaissance de mouvements avec des capteurs portables (accéléromètre par exemple), différents vocabulaires ont été employés par les chercheurs. Dans certains travaux, les mouvements de déambulation (marcher, courir, monter et descendre les escaliers, etc.) et les mouvements sédentaires (debout, assis et allongé) ont été considérés comme des “activités simples”. Un ensemble de ces activités forment une “activité complexe” (Shoaib, Bosch, O. Incel et al. 2016 ; Saguna et al. 2013 ; L. Liu, Peng et al. 2016). Nous pouvons citer comme exemple : regarder la télévision, faire le ménage, manger, etc. Dans d’autres travaux, les activités sont groupées en différents niveaux. Dans (Jindong Wang et al. 2019 ; K.-J. Kim et al. 2009 ; M. Zhang et al. 2012), les catégories de mouvements citées précédemment (activités simples et activités complexes) sont cette fois-ci classées en activités de bas niveau et activités de haut niveau.
Dans notre travail, les mouvements humains seront décomposés suivant la taxonomie proposée par Moeslund et al. (2006). Cette dernière est illustrée dans la figure 2-1. Les termes “activité”, “action” et “primitive action/moteur” seront donc utilisés afin de décrire un mouvement humain.
Solutions existantes pour la reconnaissance des mouvements humains
Afin de reconnaître les mouvements d’une personne, divers solutions existent utilisant différentes technologies de capteurs. Nous pouvons les regrouper en deux catégories suivant l’environnement visé : reconnaissance de mouvement dans un environnement intérieur, et sa reconnaissance dans un environnement extérieur.
Reconnaissance de mouvements dans un environnement intérieur
Les maisons intelligentes (smart homes en anglais) représentent une solution très utilisée pour la reconnaissance de mouvements humains ou d’activités humaines, plus particulièrement pour les personnes âgées. Ces maisons sont équipées de plusieurs capteurs afin de collecter des données sur le mouvement de la personne. Les principaux capteurs utilisés sont définis ci-dessous.
Caméras vidéo visibles
Les premiers systèmes de reconnaissance des mouvements humains utilisaient des caméras qui délivrent un flux d’images 2D couleur (RGB) ou en niveaux de gris. Des travaux qui regroupent les différentes approches proposées dans la littérature sont accessibles dans (Poppe 2010 ; Jake K Aggarwal et al. 2011). Les caméras fournissent des images très riches en informations. Cependant, elles présentent certaines contraintes notamment sur les conditions d’éclairage qui font que les résultats obtenus au laboratoire dans les conditions contrôlées ne sont pas les mêmes que dans le cas pratique. Outre ceci, le plus grand obstacle des caméras vidéo visibles est qu’elles sont très intrusives dans la vie privée des utilisateurs. Certains travaux (Ryoo et al. 2017 ; Dai et al. 2015 ; J. Chen et al. 2017) utilisent des images de basse résolution afin de réduire l’impact de ce problème. Néanmoins, beaucoup de chercheurs se sont tournés vers d’autres types de capteurs moins intrusifs afin de préserver au maximum la vie privée des personnes.
Caméras de profondeur
Afin de pallier les limites observées dans les caméras vidéo visibles et de proposer des systèmes plus respectueux à l’intimité de la personne, d’autres chercheurs se sont intéressés à d’autres catégories de caméra. La plus populaire, est la caméra de profondeur. Celle-ci utilise le spectre infrarouge : un émetteur (projecteur) émet des faisceaux lasers infrarouges et un récepteur récupère l’information réfléchie par les objets de la scène afin d’en calculer la profondeur. Plusieurs chercheurs ont utilisé les caméras de profondeur pour la reconnaissance des mouvements humains. Dans (C. Zhang et al. 2012), un système de reconnaissance de chute destiné aux personnes âgées est proposé. Cinq actions sont considérées : “debout”, “chute à partir de la position debout”, “chute à partir de la position assise”, “s’asseoir sur une chaise” et “s’asseoir sur le sol”. Les tests expérimentaux ont été menés suivant deux conditions : éclairage normal et sans éclairage. Les résultats montrent que les capteurs de profondeurs sont robustes aux conditions d’éclairage. Dans les travaux de (Jalal et al. 2014), un système de surveillance des activités des personnes âgées à l’intérieur d’un habitat est proposé. Chaque activité reconnue est stockée dans une base de données avec l’heure et la date. Pour la phase expérimentale, une caméra de profondeur a été fixée dans trois environnements différents : la maison, le bureau (espace de travail) et dans un hôpital. Six activités de la vie quotidienne sont considérées pour chaque environnement, comme, par exemple cuisiner, travailler sur un ordinateur ou s’allonger. Les résultats ont montré des performances satisfaisantes pour les trois environnements (des scores de classification supérieurs à 90%).
Capteurs audio
Les capteurs audio (microphones) sont parmi les capteurs les plus répandus. Ils permettent de capturer des informations à la fois sur une personne et sur son environnement ambiant, i.e., reconnaître ce que fait une personne (en conversation par exemple), où elle se trouve (signature audio d’une cafétéria en particulier). Dans les travaux de Lu et al. (2009), un système appelé “SoundSense” a été proposé afin de modéliser les évènements sonores. Il utilise une combinaison de techniques d’apprentissage supervisé et non supervisé pour classifier les types de son (musique ou voix par exemple) et découvrir de nouveaux événements sonores spécifiques à chaque utilisateur. La solution a été implémentée sur un Apple iPhone. Dans (Fleury et al. 2008), huit microphones ont été installés dans une maison de santé intelligente à Grenoble. Les différents sons enregistrés sont traités et analysés afin de reconnaître différents types d’évènements normaux tels que : frapper à la porte, appel téléphonique, faire la vaisselle, etc., et anormaux, comme par exemple : bris de verre, chute d’un objet, crier. Dans (Popescu et al. 2008), un ensemble de capteurs audio ont été exploités afin de détecter la chute d’une personne. Les auteurs se sont particulièrement intéressés à la réduction du taux de fausse alarme, ils exploitent pour cela la hauteur de la source sonore. Les résultats expérimentaux (sur un jeu de données très limités) ont montré un taux de détection de 100% avec cinq fausses alarmes. Comme c’est le cas pour les caméras visibles, les signaux audio sont des données très sensibles, ils peuvent contenir des communications et discussions privées. Par conséquent, les capteurs audio sont considérés comme trop intrusifs pour notre travail.
Capteurs de vibration
Les capteurs de vibration sont généralement utilisés pour détecter la chute d’une personne. Pour ce faire, les signaux de vibration du sol sont exploités. Dans (Alwan et al. 2006), un capteur piézoélectrique spécial couplé à la surface du sol est proposé. Ce dernier est associé à un système électronique alimenté par batterie afin d’évaluer les signaux de vibration du sol et générer une sortie de chute binaire. Un émetteur sans fil transmet par la suite l’alarme de la chute à travers une passerelle de communication. Dans les travaux de Zigel et al. (2009), l’objectif est de discriminer la chute des autres évènements. Un système basé sur les signaux vibratoires et sonores est alors présenté. Un accéléromètre et un microphone sont fixés au sol par des rubans adhésifs. Les signaux collectés sont mis à l’entrée d’un dispositif d’acquisition de données portable qui échantillonne les signaux et les transmet par la suite au PC. D’autres chercheurs ont utilisé les capteurs de vibration pour détecter les flux d’eau utilisés par les personnes dans leur domicile. En effet, la consommation d’eau est corrélée avec certaines activités quotidiennes comme cuisiner ou faire la lessive par exemple. Dans (L. Hu et al. 2013), un accéléromètre triaxial est accroché à la surface de la conduite d’eau principale de la maison. Le système proposé reçoit en entrée les signaux collectés afin de reconnaître quatre activités : prendre un bain, tirer la chasse d’eau, faire la lessive et cuisiner. Les résultats expérimentaux ont montré un score global de 70.37%.
Capteurs de pression
Afin de reconnaître des activités de la vie quotidienne, les chercheurs dans (Lim et al. 2008) ont installé des capteurs de pression sur les meubles et les sols de la maison. Les activités ciblées sont : manger, dormir, aller aux toilettes, sortir et repos (rester assis sur un canapé pendant un certain temps). Le système proposé par les auteurs a permis de repérer des comportements mauvais pour la santé comme le saut de repas par exemple. Dans (Foubert et al. 2012), trois tapis sensibles à la pression ont été placés côte à côte sur un cadre de lit d’hôpital et sous un matelas. L’objectif est de reconnaître trois actions : assis, allongé et transition posturale (allongé vers assis). Les tests expérimentaux ont été menés sur quatre catégories de personnes : jeunes en bonne santé, personnes âgées en bonne santé, personnes âgées en récupération post-AVC et personnes âgées en récupération d’une fracture de la hanche. Plusieurs algorithmes de classification ont été comparés. Les résultats ont montré des scores de précision élevés. Les capteurs de pression sont aussi exploités pour l’étude de la qualité du sommeil des personnes. Dans les travaux de Adami et al. (2006), afin de détecter un sommeil agité, les auteurs ont placé des capteurs de pression dans les coins du lit des sujets. Les mouvements effectués sont classés en deux catégories : mouvement faible ou élevé. La méthode proposée par les chercheurs a montré une faible erreur de classification (4%).
|
Table des matières
1 Introduction
1.1 Contexte sociétal
1.1.1 Vieillissement de la population
1.2 Dépendance et perte d’autonomie
1.3 Calcul de l’autonomie
1.3.1 L’échelle des activités de la vie quotidienne de Katz
1.3.2 L’échelle des activités instrumentales de la vie quotidienne
1.3.3 La grille AGGIR
2 Reconnaissance du comportement humain
2.1 Introduction
2.2 Problématique de la reconnaissance du comportement humain
2.3 Solutions existantes pour la reconnaissance des mouvements humains
2.3.1 Reconnaissance de mouvements dans un environnement intérieur
2.3.2 Reconnaissance de mouvements dans un environnement extérieur
2.4 Prévention de la perte d’autonomie
2.4.1 Nintendo Wii
2.4.2 Caméra EyeToy de Sony
2.4.3 Caméra Kinect de Microsoft
2.5 Objectifs des travaux de thèse
2.5.1 Reconnaissance des actions humaines et suivi sur le long terme
2.5.2 Prévention de la perte d’autonomie
2.5.3 Actions considérées dans notre travail
2.6 Contributions
2.6.1 Système de suivi des actions humaines
2.6.2 Système de prévention de la perte d’autonomie
2.7 Organisation
2.8 Conclusion
3 État de l’art : Choisir les paramètres et analyser le signal
3.1 Introduction
3.2 Système HAR à l’aide de capteurs inertiels
3.3 Collecte de données
3.4 Emplacement du smartphone
3.5 Segmentation
3.6 Pré-traitement
3.7 Extraction des attributs
3.8 Réduction de la dimensionnalité des attributs
3.9 Classification des actions humaines
3.10 Classification des transitions posturales
3.11 Évaluation des performances
3.12 Conclusion
4 Classification hiérarchique des actions humaines à l’aide d’un smartphone
4.1 Introduction
4.2 Conception de notre système HAR
4.2.1 Construction du vecteur d’attributs
4.2.2 Classification hiérarchique des actions humaines
4.2.3 Classification des transitions posturales
4.3 Validation expérimentale
4.3.1 Jeux de données
4.3.2 Estimation des performances
4.3.3 Résultats et comparaison avec les travaux de l’état de l’art
4.3.4 Temps de calcul
4.4 Suivi d’actions sur le long-terme
4.4.1 Résultats expérimentaux
4.5 Conclusion
5 Conclusion
Télécharger le rapport complet