Le signal de parole chez les adultes et le signal de cri chez les nouveau-nés
La complexité et la variété du cri d’un nouveau-né:
La complexité et la variabilité du signal de cri d’un nouveau-né ont rendu l’analyse de ce dernier difficile. D’une manière générale, le cri d’un nouveau-né est considéré comme le seul langage de communication avec le monde extérieur et reste encore incompréhensible. En effet, la plupart du temps, les parents ne peuvent pas savoir pour quelle raison leur bébé pleure. Les propriétés intrinsèques du signal de cri varient d’un nourrisson à un autre en fonction de son état de santé, de son état émotif et de son attitude (Manfredi, Tocchioni et Bocchi, 2006).
L’analyse acoustique des signaux des nouveau-nés est de grande importance (Manfredi, Tocchioni et Bocchi, 2006). Elle pourrait servir d’aide au diagnostic clinique. Cependant, les résultats de mesure de la fréquence fondamentale ne sont pas toujours fiables. En fait, le cri du nouveau-né se caractérise par une très grande plage de fréquence fondamentale F0, des changements brusques et des segments voisés / non voisées de très courtes durées (Manfredi, Tocchioni et Bocchi, 2006).
De plus, les fréquences de résonance du conduit vocal sont très différentes dans la plupart des cas. Elles ont besoin d’un suivi précis. En fait, l’analyse de leur évolution dans le temps et au cours des premiers mois de la vie du nouveau-né peut donner des informations utiles sur l’évolution de ses capacités phonatoires et les éventuels dysfonctionnements du système nerveux central (Manfredi, Tocchioni et Bocchi, 2006).
Description d’un signal de cri chez les nouveau-nés:
Un signal de cri est composé d’un mélange de sons tels que la toux, le hoquet, etc. Pour identifier la partie importante du signal, la procédure de segmentation est appliquée. La segmentation permet de déterminer les segments de cris trouvés dans l’ensemble d’un enregistrement donné. Cette étape est souvent appelée détection d’activité vocale (VAD). Dans l’étude réalisée par (Várallyay Jr, Illényi et Benyó, 2008), les auteurs ont introduit deux nouvelles méthodes avec modification de la fonction de la génération du spectre harmonique (HPS). Cette méthode peut être utilisée pour la segmentation des cris. Le résultat souhaité est le déploiement d’un algorithme capable de détecter automatiquement les segments de cris.
Les catégories de cris:
Le terme «cri» est traité le plus souvent en référence à la performance sonore. Les sons de cri, en particulier chez les nourrissons, sont utilisés par les médecins comme des critères supplémentaires pour l’évaluation de la fonction neurologique en général et spécifiquement de la fonction respiratoire. Le son de cri est évidemment très accessible à l’observation (Messaoud et Tadj, 2011). En tant qu’outil de clinique, certaines manifestations des cris ont souvent été utilisées pour tenter d’identifier diverses conditions pathologiques chez les nourrissons (Messaoud et Tadj, 2011).
La « dysphonation » est un type de cri de catégorie (c) facile à distinguer à partir du schéma d’histogramme en se basant sur les turbulences qui y apparaissent (Truby et Lind, 1965). C’est le résultat d’un effort extrême. L’intensité générale associée entraîne une surcharge au niveau du larynx le long du conduit vocal. Il est toujours typique de la réponse la plus bruyante à l’inconfort. En raison de la nature acoustique et de l’apparence de l’aberration proprement dite, les auteurs désignent habituellement la «dysphonation» comme une turbulence (Truby et Lind, 1965).
La dernière catégorie (b) représente un cri hyperphonique de fréquence fondamentale qui varie entre 1000-2000 Hz (Yasmina Kheddache, 2013). Dans ce type de cri, l’estimation de la fréquence fondamentale n’est pas semblable à celle de la parole des adultes à cause de l’élargissement de la structure harmonique et de la séparation de la contribution de l’excitation spectrale (Abdullah-Al-Mamun, Sarker et Muhammad, 2009).
Les problèmes de l’estimation de la fréquence fondamentale:
L’estimation fiable et précise de la fréquence fondamentale pour un signal de cri ou un signal de la parole s’est souvent révélée une tâche difficile. Premièrement, la forme d’onde de l’excitation glottale d’un signal de cri n’est pas un enchaînement des impulsions parfaitement périodique. Elle produit un signal non stationnaire dont la détection de la période et de la fréquence fondamentale sont complexes (Hui et al., 2006). Le deuxième problème, le plus difficile, est la difficulté de séparer les segments voisés des segments non voisés. Dans plusieurs cas, des segments voisés avec une énergie réduite ont été considérés comme des segments non voisés et, des segments non voisés avec une grande énergie ajoutée par le bruit comme des segments voisés (Rabiner et al., 1976) .Le troisième problème se manifeste lors de l’interaction entre le conduit vocal responsable de la production des formants et l’excitation glottale qui est à son tour responsable de la production de la fréquence fondamentale. En effet, les formants peuvent modifier la structure de la forme d’onde glottale de sorte que cette influence rend l’extraction de la fréquence fondamentale difficile (Hui et al., 2006). L’utilisation de l’algorithme de prédiction linéaire résiduel LPC «Linear Prediction Residual» est une solution qui permet d’éliminer l’information du conduit vocal et le bruit à haute-fréquence. Ceci améliore la précision de détection de la fréquence fondamentale dans une certaine mesure. Mais, le modèle du conduit vocal est semblable à un filtre passe-bas qui coupe les fréquences harmoniques les plus élevées. Par conséquent, la fréquence fondamentale souhaitée sera atténuée et difficile à détecter. Une solution a été proposée par (Hui et al., 2006) pour corriger et améliorer ce type de problème d’estimation de la fréquence atténuée sous forme d’une combinaison entre l’algorithme LPC «based Cepstrum» et l’algorithme HPS. Le quatrième problème est la difficulté à définir exactement le début et la fin d’une période durant un segment voisé du signal de cri. Cependant, il est souvent pratiqué un choix arbitraire pour fixer le début et la fin d’une période (Rabiner et al., 1976). À titre d’exemple, on peut citer le cas d’une onde acoustique, dont le choix du début et de la fin d’une période est basé sur les valeurs maximales successives ou sur le passage par zéro avant chaque maximum comme indiqué sur la Figure 1.7. La seule condition à une telle mesure est qu’elle soit conforme, période par période, afin pouvoir définir l’emplacement exact du début et de la fin de chaque période du pic.
IMPLÉMENTATION DES ALGORITHMES DE DÉTECTION DE LA FRÉQUENCE FONDAMENTALE:
Ce chapitre aborde essentiellement les algorithmes AMDF, ACF, HPS et le SIFT modifié. L’objectif est de simuler sous Matlab les algorithmes capables de détecter la fréquence fondamentale des signaux de cris. Dans un premier temps, nous présenterons dans la section 2.2 la structure générale d’un algorithme de détection de la fréquence fondamentale sous forme de blocs de traitement spécifique. Dans un second temps, nous donnerons une description détaillée du fonctionnement des algorithmes choisis pour réaliser cette étude .
Les quatre méthodes de détection de la fréquence fondamentale:
Les quatre méthodes AMDF, ACF, HPS et le SIFT modifié sont les algorithmes les plus utilisés dans la littérature pour la détection de la fréquence fondamentale des signaux musicaux et de parole. Leurs applications sur les signaux de cri des nouveau-nés restent encore un domaine d’exploration et de recherche. Cela nous a motivés pour les étudier et tester leurs performances sur les signaux de cris. Une description bien détaillée de leurs fonctionnements est présentée sous forme d’un schéma bloc.
La longueur d’un segment, cité dans la littérateur pour ce type de traitement, varie entre 20 ms et 30 ms, nous avons choisi la valeur de 20 ms (Kheddache et Tadj, 2013b). Le seuil de décision des segments voisés et non-voisés varie entre 0.3 et 0.4, nous l’avons fixé sur 0.4 (Lederman, 2010).
RÉALISATION DE L’ÉTUDE COMPARATIVE DES MÉTHODES D’EXTRACTION DE LA FRÉQUENCE FONDAMENTALE :
Ce chapitre présente une étude comparative des différentes techniques d’extraction de la fréquence fondamentale. Cette étude comparative est validée par des simulations sous Matlab. Le manque des valeurs réelles de la fréquence fondamentale de notre base de données nous a amené à utiliser le test statistique de la validation croisée afin de comparer les valeurs réelles avec celles estimées par les techniques étudiées (Preux, 2011).
Description de la méthode de comparaison:
Une base de données composée de cinquante signaux des cris chez des nouveau-nés est utilisée pour réaliser ce travail de comparaison. La durée des signaux utilisés varie entre 7 et 8 secondes. Les résultats d’exécution de la simulation des signaux utilisés sous PRAAT donnent des fréquences fondamentales variables selon les caractéristiques des segments d’un signal donné.
Segment non défini : représente les valeurs des fréquences fondamentales non définies par une technique de détection donnée.
Segment non voisé : représente les valeurs des fréquences fondamentales égales à 0 Hz (Kheddache et Tadj, 2013a).
Segment phonique : ce sont les valeurs des fréquences fondamentales inférieures à 750 Hz (Kheddache et Tadj, 2013a).
Segment haute-fréquence «High-pitch»: représente les valeurs des fréquences fondamentales qui varient entre 750 et 1000 Hz (Kheddache et Tadj, 2013a).
Segment hyperphonique : représente les fréquences fondamentales qui varient entre 1000 et 2000 Hz (Kheddache et Tadj, 2013a).
Analyse des résultats du logiciel Praat
La dernière partie d’analyse consiste à comparer la performance du logiciel Praat à identifier les segments d’un signal traité par rapport aux algorithmes : AMDF, HPS, ACF et SIFT modifié.
DÉVELOPPEMENT ET MISE EN ŒUVRE D’UN ALGORITHME HYBRIDE CAMDA POUR L’ESTIMATION DE LA FRÉQUENCE FONDAMENTALE :
L’étude comparative réalisée dans le troisième chapitre nous a permis de connaître les avantages et les inconvénients des algorithmes d’extraction de la fréquence fondamentale appliqués sur le signal de cri des nourrissons : AMDF, ACF, HPS et le SIFT modifié ainsi que le logiciel Praat. Nous avons remarqué que l’AMDF et le SIFT modifié sont les algorithmes les plus fiables pour détecter les segments : de haute-fréquence, hyperphoniques et non-voisés. Par contre, ils sont moins fiables à identifier les segments phoniques. L’idée principale est de minimiser l’erreur de la surestimation de la fréquence fondamentale de l’AMDF dans la zone des segments phoniques. Le SIFT modifié est un dérivé de l’ACF. Ce dernier fournit des informations complémentaires pour l’AMDF (Abdullah-Al-Mamun, Sarker et Muhammad, 2009). Cela nous a amenés à développer un nouvel algorithme permettant une combinaison entre le SIFT modifié et l’AMDF pour corriger l’erreur produite lors de la détection de la fréquence fondamentale des segments phoniques .
CONCLUSION:
La fréquence fondamentale est l’une des plus importantes caractéristiques utilisées pour distinguer les différents types de cris des bébés. Ses modèles atypiques révèlent des problèmes dans le système nerveux central. Ainsi, des mesures précises de cette fréquence et de ses variations dans le temps sont importantes pour obtenir des informations fiables sur l’état de santé des nouveaux-nés. Dans ce mémoire, nous nous sommes intéressés à l’analyse comparative de cinq techniques d’estimation de la fréquence fondamentale d’un signal cri chez les nouveau-nés. Pour réaliser ce travail, nous avons implémenté sur Matlab les algorithmes AMDF, ACF, HPS. Nous avons également utilisé le logiciel Praat et l’algorithme SIFT modifié. Nous avons comparé les résultats obtenus de chacune de ces techniques en terme de fréquence fondamentale par rapport aux autres méthodes afin d’identifier l’outil le plus fiable.
|
Table des matières
INTRODUCTION
CHAPITRE 1 ÉTAT DE L’ART
Le signal de parole chez les adultes et le signal de cri chez les nouveau-nés
Processus de production d’un signal de parole
Processus de production d’un signal de cri chez les nouveau-nés
Les points de différences entre le signal de parole et le cri
La complexité et la variété du cri d’un nouveau-né
Description d’un signal de cri chez les nouveau-nés
Les catégories de cris
Les problèmes de l’estimation de la fréquence fondamentale
Les algorithmes de détection de la fréquence fondamentale
Les algorithmes temporels d’extraction de la fréquence fondamentale
L’algorithme temporel AMDF
L’algorithme temporel ACF
L’algorithme temporel SIFT modifié
Les algorithmes spectraux d’extraction de la fréquence fondamentale
L’algorithme HPS
Les algorithmes hybrides d’extraction de la fréquence fondamentale
Les études comparatives des algorithmes d’estimation de
la fréquence fondamentale
Les paramètres utilisés pour l’évaluation de la performance des algorithmes
Le cas d’un signal de parole
Le cas d’un signal de cri chez les nouveau-nés
Conclusion
CHAPITRE 2 IMPLÉMENTATION DES ALGORITHMES DE DÉTECTION DE LA FRÉQUENCE FONDAMENTALE
Introduction
Schéma général d’un algorithme
Les quatre méthodes de détection de la fréquence fondamentale
Architecture de l’algorithme AMDF
Architecture de l’algorithme ACF
Architecture de l’algorithme HPS
Architecture de l’algorithme SIFT modifié
Conclusion
CHAPITRE 3 RÉALISATION DE L’ÉTUDE COMPARATIVE DES MÉTHODES D’EXTRACTION DE LA FRÉQUENCE FONDAMENTALE
Introduction
Description de la méthode de comparaison
Analyse des résultats expérimentaux
Analyse des résultats de l’AMDF
Analyse des résultats de l’ACF
Analyse des résultats de l’HPS
Analyse des résultats de SIFT modifié
Analyse des résultats du logiciel Praat
Conclusion
CHAPITRE 4 DÉVELOPPEMENT ET MISE EN ŒUVRE D’UN ALGORITHME HYBRIDE CAMDA POUR L’ESTIMATION DE LA FRÉQUENCE FONDAMENTALE
Introduction
Description de l’algorithme hybride CAMDA
Principe de fonctionnement de l’algorithme CAMDA
Discussion des résultats
conclusion
CONCLUSION
Télécharger le rapport complet