Indexation sonore
Un document sonore, c’est-à-dire la bande sonore d’un document multimédia ou enregistrement d’émission radiophonique, est un document particulièrement difficile à indexer, car l’extraction de l’information élémentaire se heurte à l’extrême diversité des sources acoustiques. Les segments acoustiques sont de nature très diverses de par leur production et leur enregistrement : l’environnement peut être propre ou plus ou moins bruité, la qualité de l’enregistrement peut être plus ou moins soignée et liée à des éléments extérieurs (canal téléphonique), la musique peut être traditionnelle ou synthétique, la présence de parole peut être observée en monologue ou en dialogue… Si aucune connaissance a priori n’est donnée et pour tenir compte de cette extrême variabilité, le signal acoustique doit subir un certain nombre de pré-traitements avant de pouvoir espérer extraire une quelconque information pertinente. Il peut être intéressant de rechercher des « bruits » ou des sons sémantiquement significatifs tels que les applaudissements, les rires ou les effets spéciaux (pistolets, explosions…), de repérer les passages musicaux pour les segmenter et les identifier, de détecter les locuteurs équivalents à des tours de parole dans un dialogue. Enfin la transcription du discours ou la recherche de mots clés (mots isolés, groupes de mots…) fournissent une information importante sur le contenu du message verbal, et permettent l’accès à la recherche d’information telle qu’elle est pratiquée dans des documents textuels. Si l’on se réfère à la norme MPEG7, indexer un document sonore signifie rechercher aussi bien des composantes de bas niveau dites primaires comme la parole, la musique, les sons clés (jingles, mots-clés…) que des descripteurs de plus haut niveau tels les locuteurs ou les thèmes.
Parole
Le signal de parole appartient à la classe des signaux acoustiques produits par des vibrations des couches d’air. Les variations de ce signal reflètent les fluctuations de la pression de l’air La parole est une suite de sons produits soit par des vibrations des cordes vocales (source quasi périodique de voisement), soit par une turbulence créée par l’air s’écoulant dans le conduit vocal, lors du relâchement d’une occlusion ou d’une forte constriction de ce conduit (sources de bruit non voisées) [Cal89]. La durée d’un son est de l’ordre de 60 à 100 ms (cf. spectrogramme de la figure 1.1). La parole est formée de phonèmes et de transitions entre ces phonèmes. Plusieurs types de phonèmes existent : les voyelles, les consonnes fricatives, les consonnes plosives, les nasales et les liquides. Les transitions acoustiques correspondent à des transitions dans l’appareil de production de l’état correspondant au premier phonème à l’état correspondant au suivant [Kor99]. Les voyelles, sons voisés par excellence, sont les « piliers » de la parole ; leur présence est révélée fréquentiellement par les formants qui correspondent aux fréquences de résonance du conduit vocal (cf. figure 1.1). La fréquence d’apparition des voyelles correspond au rythme syllabique.
Musique
Les particularités de la musique, qui la différencient de toutes autres sonorités, ne résident pas seulement dans des différences culturelles, mais dans des propriétés physiologiques très spécifiques du système auditif de l’homme. Ainsi, définir la musique est très difficile car celleci peut être produite et perçue de différentes manières. C’est pourquoi lorsqu’il s’agit d’extraire cette composante, de nombreux chercheurs se limitent à l’étude de la musique « instrumentale traditionnelle » dans le sens où elle est une composition de sons harmoniques (de notes au sens classique). Dans un cadre éventuellement polyphonique, le signal acoustique musical se caractérise par l’existence de(s) hauteur(s) ou fréquence(s) fondamentale(s) (cf. figure 1.2). Remarque : lorsque l’on parle d’un signal harmonique, il s’agit d’un signal composé d’une somme de sinusoïdes disposées sur un peigne harmonique.
Méthode de décision des k plus proches voisins (kppv)
La méthode nécessite de disposer en permanence d’un ensemble d’apprentissage pour chaque classe. Ces ensembles permettent, pour toute nouvelle observation y, d’estimer localement f(y|C) la densité conditionnelle relative à chaque classe. Cette estimation est réalisée en calculant le nombre relatif d’éléments d’apprentissage pour la classe donnée dans une boucle centrée sur y. Ce calcul nécessite de choisir une distance dans l’espace des observations ; une pondération de chaque élément est possible (noyau de Parzen). La méthode de décision dite des « kppv » consiste à définir la boule d’estimation autour de y comme étant la plus petite boule contenant exactement k échantillons, toutes classes confondues. La classe affectée à y est alors la classe majoritairement présente dans cette boule (cf. figure 1.12).
Corpus
Le corpus expérimental est formé à partir de documents audiovisuels appartenant à la base d’archivage de l’INA6 (Institut National de l’Audiovisuel). Ce corpus a fait l’objet d’un accord de confidentialité lors du projet RNRT AGIR. Il est composé d’une série télévisuelle « Chapeau melon et bottes de cuir » (corpus AIM), de journaux télévisés (le « 20 heures » de France2 et « SOIR3 »), de journaux sportifs (« Stade2 » et « Sport dimanche ») et d’un championnat du monde de patinage artistique. Le signal est échantillonné à 16 kHz et a l’avantage de présenter de longues périodes de parole comme de musique dites « pures » ainsi que des zones dites « mixtes » contenant de la parole et de la musique et/ou du bruit. La parole est présente sous diverses conditions, de pure à très bruitée (enregistrements en extérieur, foule, poursuites en voiture, parole téléphonique, deux locuteurs simultanés, cocktail party…). Pour la musique, des variétés, de la techno, du jazz et de la musique classique sont majoritairement présents : vents (surtout des cuivres), guitare électrique et batterie-percussions. Quelques autres instruments (harpe, piano…) sont également utilisés sporadiquement. La difficulté la plus importante du corpus correspond à la séquence de patinage artistique : pendant le passage sur la glace de chacun des candidats, le présentateur commente sur le fond musical. La superposition de la parole et de la musique dans ce cas là est problématique, il s’y ajoute le problème de deux canaux de transmission différents. Le corpus est divisé arbitrairement en deux parties. Pour l’apprentissage des MMG de ce système de base, nous avons utilisé environ 12 heures du corpus (1ère partie) et pour l’ensemble des tests, environ 6 heures (2ème partie).
|
Table des matières
Introduction générale
1 Indexation
2 Indexation sonore
3 Problématique
4 Organisation du mémoire
Partie I Classification Parole/Musique/Bruit
Chapitre 1 Définitions et état de l’art
1.1 Introduction
1.1.1 Parole
1.1.2 Musique
1.2 Paramètres (ou caractéristiques)
1.2.1 Les paramètres temporels
1.2.1.1 Le ZCR
1.2.1.2 L’énergie
1.2.2 Les paramètres fréquentiels
1.2.2.1 Le centroïde spectral
1.2.2.2 Le flux spectral
1.2.2.3 Le spectral rolloff point
1.2.3 Les paramètres mixtes
1.2.4 Les paramètres issus de modélisation : les MFCC
1.2.5 Mais encore
1.2.6 Conclusion
1.3 Méthodes de Classification
1.3.1 Approche statistique
1.3.1.1 Méthodes paramétriques
1.3.1.2 Méthodes non paramétriques
1.3.2 Méthode de décision fondée sur les réseaux de neurones
1.3.3 Support Vector Machines : SVM
1.3.3.1 Cas linéairement séparable
1.3.3.2 Cas non linéairement séparable
1.4 Les systèmes
1.4.1 IRCAM
1.4.2 LIMSI
1.5 Conclusion
Chapitre 2
Le système PMB de base
2.1 Introduction
2.2 Description du système
2.2.1 Pré-traitement acoustique
2.2.1.1 Analyse cepstrale
2.2.1.2 Analyse spectrale
2.2.2 Reconnaissance
2.3 Apprentissage des MMG
2.3.1 Etiquetage manuel
2.3.2 Initialisation des modèles
2.3.3 Optimisation des paramètres
2.3.4 Adaptation des modèles : critère MAP
2.4 Expériences et évaluation
2.4.1 Corpus
2.4.2 Élaboration des modèles
2.4.3 Évaluation
2.4.3.1 L’accuracy
2.4.3.2 Résultats
2.5 Conclusion
Chapitre 3
Le système de classification Parole/Musique/Bruit
3.1 Introduction
3.2 Le système global et ses paramètres
3.2.1 Le système global
3.2.2 Modulation de l’énergie à 4 Hertz
3.2.3 Modulation de l’entropie
3.2.4 Paramètres de segmentation
3.2.4.1 Segmentation automatique
3.2.4.2 Paramètres
3.2.5 Récapitulatif des échelles de temps du système
3.3 Étude des distributions des paramètres
3.3.1 Modulation de l’énergie à 4 Hertz
3.3.2 Modulation de l’entropie
3.3.3 Paramètres de segmentation
3.3.3.1 Nombre de segments
3.3.3.2 Durée des segments
3.4 Expériences et évaluation
3.4.1 Corpus
3.4.2 Étiquetage manuel
3.4.3 Évaluation
3.4.4 Comparaison avec le système référence
3.5 Fusion de données
3.5.1 Introduction
3.5.2 Théorie des probabilités
3.5.3 Théorie de l’évidence
3.5.4 Expériences
3.6 Conclusion
Partie II Les sons clés
Chapitre 4 Les jingles
4.1 Introduction
4.1.1 Problématique
4.1.2 Le jingle
4.2 Le système de détection de jingle
4.2.1 Pré-traitement acoustique
4.2.2 Détection
4.2.3 Identification
4.3 Expériences
4.3.1 Corpus
4.3.2 Apprentissage
4.3.3 Résultats
4.4 Conclusion
Chapitre 5 Les applaudissements, les rires et le locuteur cible
5.1 Introduction
5.1.1 Problématique
5.1.2 Les applaudissements et les rires
5.1.3 Le locuteur cible
5.2 Le système de base
5.2.1 Pré-traitement
5.2.2 Apprentissage et reconnaissance
5.3 Expériences et résultats
5.3.1 Corpus
5.3.2 Les applaudissements et les rires
5.3.2.1 Critère d’évaluation
5.3.2.2 Détection des applaudissements
5.3.2.3 Détection des rires
5.3.3 Le locuteur cible
5.4 Conclusion
Chapitre 6 Les mots clés
6.1 Introduction
6.1.1 Problématique
6.1.2 Bref historique
6.2 Le système de détection de mots clés
6.2.1 Pré-traitement acoustique
6.2.1.1 Analyse par codage prédictif linéaire (LPC)
6.2.1.2 Analyse par prédiction linéaire perceptuelle (PLP)
6.2.2 Les Modèles de Markov Cachés (MMC)
6.2.2.1 Présentation des MMC
6.2.2.2 La plate-forme HTK
6.2.2.3 Modélisation phonétique
6.2.3 Le modèle de mots clés
6.3 Expériences et résultats
6.3.1 Corpus
6.3.2 Mise en œuvre
6.3.3 Évaluation
6.4 Conclusion
Partie III Vers une structuration audiovisuelle
Chapitre 7 Réflexions sur une structuration audiovisuelle
7.1 Introduction
7.1.1 Structuration et indexation automatique
7.1.2 Analyse audio
7.1.3 Organisation
7.2 Structuration : nos apports
7.2.1 Détection de motif dans une collection d’émissions
7.2.2 Structuration d’un journal télévisé
7.3 Structuration : perspectives
7.3.1 Apports de la vidéo
7.3.1.1 Détection de logos
7.3.1.2 Extraction de texte
7.3.1.3 Reconnaissance de l’intervenant
7.3.2 Macrosegmentation automatique
7.4 Conclusion
Conclusion et perspectives
Télécharger le rapport complet