Reconnaissance des sons de l’environnement dans un contexte domotique

L’intégration des nouvelles technologies à notre vie quotidienne a réalisé un saut spectaculaire au cours des trois dernières décennies. Il y a un peu plus de trente ans, le seul moyen pour une personne d’être reliée à un ordinateur passait par l’autorisation de se connecter à une machine installée dans un centre de calcul, qui se trouvait dans une université ou dans une grande entreprise.

Au fil des années, les ordinateurs ont connu d’importantes baisses de prix et de taille, avec, parallèlement, une puissance de calcul en constante croissance. L’apparition de la Micro-informatique ne les a pas seulement rendus accessibles aux foyers mais en a fait un équipement important au sein de chaque maison, voire dans chaque pièce de la maison. Par ailleurs, ces évolutions des ordinateurs en termes de taille, de coût et de performances, ont été un facteur déterminant pour le type d’applications qui pouvaient être développées. Un feu de signalisation ou un petit jouet pour enfants, par exemple, fonctionnent parfaitement avec un processeur embarqué de seulement 4 bits qui, de plus, ne coûte qu’une somme dérisoire de nos jours. Avec l’arrivée des machines plus puissantes, de nouvelles applications bien plus complexes et plus gourmandes en ressources (jeux vidéo, applications multimédia, etc.) ont vu le jour .

L’évolution des téléphones portables a pris un chemin comparable à celui des ordinateurs. Les fonctionnalités d’un téléphone portable de première génération, par exemple, se résumaient au fait de passer ou de recevoir des appels téléphoniques et, au mieux, en un réveil ou un simple jeu. Les téléphones portables d’aujourd’hui, appelés plus volontiers smartphones ou téléphones intelligents, disposent de performances comparables à celles d’un ordinateur de bureau des années 90, et sont munis d’un nombre foisonnant d’applications.

L’évolution des applications informatiques n’est pas seulement liée à la puissance des ordinateurs mais aussi aux besoins des usagers et aux avancées réalisées en télécommunications et en technologies de l’information. L’apparition d’ applications ayant trait à l’intelligence artificielle (reconnaissance de la parole, systèmes de dialogue homme-machine, etc.) a également contribué à l’intégration des ordinateurs et des smartphones dans notre vie quotidienne.

Maison Intelligente

Dans [Chan et al., 2009], une maison intelligente est définie comme une résidence équipée de technologies permettant de surveiller ses occupants, de contribuer à leur l’indépendance et de les maintenir en bonne santé. La définition donnée par l’Intertek est la suivante : un habitat équipé d’un réseau de communication permettant de connecter les équipements clés et les services, et offrant la possibilité d’y accéder, de les contrôler ou de les surveiller à distance. Dans [Yuan and Peng, 2012], une maison intelligente est une combinaison de plusieurs technologies avancées. Elle consiste à incorporer de très petites puces, qui possèdent des capacités de communication sans-fil, de perception et de traitement de l’information, dans les articles à usage quotidien. Le but étant de créer un environnement informatique transparent pour l’habitant. Pour être en mesure de fournir des services, le système doit être capable d’acquérir, de traiter, et de transmettre l’information à tout moment. Il doit également être capable de comprendre les besoins de l’usager et de contrôler les différents équipements de façon intelligente, afin de rendre l’environnement plus confortable. De plus il doit permettre de réduire la consommation d’énergie sans influencer les habitudes de l’habitant.

D’après [Spencer, 2000], une maison intelligente utilise des dispositifs basiques avec des capacités de communication pour construire un environnement où plusieurs opérations seront automatisées. Une communication efficace entre les différents dispositifs implique, pour un élément donné, la possibilité d’envoyer des requêtes à d’autres éléments, leur demandant d’exécuter certaines fonctions si un certain nombre de conditions sont réalisées. De cette façon, plusieurs dispositifs séparés peuvent être organisés et programmés pour exécuter, ensemble, des fonctions plus complexes .

Assistance aux personnes âgées

Depuis quelques années, de nombreux travaux de recherche s’intéressent à la conception de maisons intelligentes pour une population bien spécifique, celle des personnes âgées. Les individus de cette population vivent souvent seuls et soufrent de diverses pathologies liées à l’âge.

Le rapport qualité/prix de plusieurs types de capteurs (caméras, microphones, capteurs infra-rouge, etc.) et l’émergence des technologies de l’information ont rendu de plus en plus intéressante l’idée d’équiper les maisons des personnes âgées de capteurs et de dispositifs de communication afin de surveiller leur activité et de prévenir et signaler toute situation anormale nécessitant une intervention extérieure telle qu’une chute, une longue période d’inactivité ou un message de détresse. Cela permettrait également de réduire les coûts des soins et d’alléger la charge des personnes qui doivent intervenir en cas de danger (membres de la famille, infirmiers, médecins, etc.) en réduisant le nombre de déplacements inutiles. La plupart des projets de recherche existants se fixent ces éléments comme objectifs de base. D’autres projets, plus ambitieux, ont également pour objectifs d’offrir à la personne une vie sociale plus riche, en facilitant notamment la communication avec les membres de la famille, et en permettant à la personne d’interagir avec son environnement via des interfaces adaptées et ergonomiques. Ces solutions devraient être idéales pour les personnes âgées souffrant de différents niveaux d’handicap en [Spencer, 2000] :

— Surveillant l’environnement pour s’assurer de la sécurité de l’individu,
— Rendant automatiques certaines tâches de la vie quotidienne, difficiles ou impossibles à exécuter par la personne,
— Prévenant les proches en cas de danger,
— Maintenant l’individu dans un état actif (exercices cognitifs, communication, etc.),
— Facilitant la réhabilitation de la personne (incitations visuelles ou auditives).

En dépit de l’aspect pratique plus ou moins attrayant de ces solutions, deux problèmes importants se posent : le problème d’éthique et celui d’acceptabilité. En effet, beaucoup de personnes n’accepteraient pas d’être surveillées chez elles en permanence par des caméras ou simplement de mettre leur maison sous écoute. D’autres seraient également réticentes quant au port de dispositifs électroniques. Par ailleurs, ces systèmes peuvent facilement devenir très complexes dès que l’on se met à ajouter davantage de modalités, qui doivent, de surcroît, travailler en concert et interagir avec l’habitant. Enfin, diverses technologies, impliquant des compétences de plus d’un domaine (électronique, informatique, médecine, sciences sociales, ergonomie, etc.), sont nécessaires pour ce type de projets.

Contexte et motivations de ce travail

Projet SWEET-HOME

Cette thèse fait partie du projet de Recherche Industrielle VERSO SWEET-HOME, financé par l’Agence Nationale de la Recherche (ANR). Le projet a démarré en novembre 2009 et a pris fin en mai 2013. Les objectifs du projet sont les suivants :

— Permettre aux personnes âgées vivant seules d’interagir naturellement avec leur lieu de vie. L’interaction naturelle est réalisée par commande vocale et tactile.
— Augmenter leur sécurité par la détection de situations de détresse.

La partie la plus substantielle du projet est bâtie autour des technologies audio. Dans ce contexte, deux problématiques de recherche sont abordées :
1. Reconnaissance des sons de l’environnement dans une maison intelligente.
2. Reconnaissance de la parole pour personnes âgées.

Sons de l’environnement

Les sons intéressants pour un système de reconnaissance des événements acoustiques dépendent largement des applications. Chaque application est souvent conçue autour d’un nombre limité de sons et considère tout le reste comme du bruit. Il est indéniablement difficile d’établir une liste de tous les sons de l’environnement, mais VanDerveer [VanDerveer, 1979] propose une liste de quatre points permettant d’identifier un son de l’environnement :
1. Il est produit par des événements réels.
2. Il a un sens en vertu d’événements causals.
3. Il est plus compliqué que les sons purs générés en laboratoire.
4. Il ne fait pas partie d’un système de communication telle que la parole.

Cette définition fait bien la distinction entre la parole et les autres sons. De façon plus générale, elle exclut tout son faisant partie du système de communication humaine. Il y a certainement plus que la parole dans la communication humaine « sonore ». Un raclement de gorge, un sifflement ou encore un rire sont autant d’exemples de sons qui peuvent, dans certains cas, servir de moyen de communication. Dans ce travail nous considérons tous ces types de sons, y compris la parole, comme des sons de l’environnement. Même si notre objectif n’est pas de transcrire la parole mais d’en détecter la présence. Pour une meilleure lisibilité et compréhension du domaine étudié, il est également courant de définir les sons de l’environnement sous forme de taxonomie, en plaçant les sons dans des groupes ou des sous-groupes . David Gerhard [Gerhard, 2003] propose une taxonomie pour les sons de l’environnement regroupés de façon à se rapprocher d’une perspective humaine de la perception du
son (figure 2.1). La distinction est d’abord faite entre les sons audibles et ceux non audibles. Les sons audibles sont ensuite subdivisés en cinq catégories : bruit, son naturel, son artificiel, parole et musique. Selon l’auteur, il est difficile de donner une définition objective au bruit. Un genre musical apprécié par une personne peut être perçu comme un bruit par une autre personne. Un son naturel est tout son produit sans aucune influence humaine. Les sons artificiels sont caractérisés par leur source et leur « intention ». Un son artificiel peut ainsi être produit dans l’intention de transmettre un message (sonnerie de téléphone, sirène d’une ambulance, etc.) ; ce n’est pas le cas d’un marteau-piqueur par exemple. Enfin, la parole, qu’elle soit naturelle ou synthétisée, ainsi que la musique sont deux types de sons avec un nombre très important d’éléments de classification pour les humains. Elles sont placées dans deux catégories distinctes.

Cette taxonomie, certes intéressante, ne nous est pas d’une grande aide dans notre projet. Premièrement, elle inclut un nombre très considérable de sons naturels et artificiels qui, à l’exception d’une éventuelle provenance de la télévision ou de la radio, ne risquent pas de se produire régulièrement dans la maison de la personne âgée (chutes d’arbres dans les forêts tropicales ou bruit d’une tronçonneuse, par exemple). Deuxièmement, en vue de limiter notre ensemble de sons d’intérêt, beaucoup de sons seront considérés comme du bruit. Exemples de ces sons sont : bruit de la pluie qui bat contre les vitres de la maison, martèlement chez les voisins, insectes, etc. Troisièmement, elle n’aborde pas les caractéristiques physiques de bas niveau du signal, aspect important pour distinguer certains groupes de sons.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction
1.1 Maison Intelligente
1.2 Assistance aux personnes âgées
1.3 Contexte et motivations de ce travail
1.4 Organisation de la thèse
1.5 Conventions
2 Reconnaissance du Son
2.1 Introduction
2.2 Sons de l’environnement
2.3 Analyse de la scène auditive et reconnaissance du son
2.4 Coefficients acoustiques
2.5 Méthodes de classification
2.6 Sélection de caractéristiques
2.7 Exploiter les avancées dans les champs voisins : possibilités et limites
3 Travaux sur la Reconnaissance des Sons de l’Environnement
3.1 Approches fondées sur le système auditif humain
3.2 Approches fondées de la reconnaissance de la parole
3.3 Approches fondées sur la reconnaissance du locuteur
3.4 Approches fondées sur les techniques du traitement d’image
3.5 Conclusions
4 Méthodes Mises en Œuvre
4.1 Méthodes retenues
4.2 Description du noyau SVM-GSL
4.3 Bases de données
4.4 Résultats expérimentaux
4.5 Conclusions et Perspectives
5 Classification du Son avec Plusieurs Familles de Coefficients
5.1 Motivations de l’utilisation de plusieurs familles de coefficients
5.2 Approches pour utiliser plusieurs familles de coefficients ensemble
5.3 Résultats expérimentaux
5.4 Conclusions et Perspectives
6 Conclusions