Classification des contours par quantification vectorielle

Calcul du spectrogramme

L’ensemble des mรฉthodes ut ilisรฉes daus cette รฉtude se basent sur la reprรฉsentatioll temps-frรฉquence du signal (spectrogramme) . La technique choisie ici est la t ransformรฉe de Fourier ร  fenรชtre glissante. Le signal acoustique รฉchantillonnรฉ, s[m], est multipliรฉ par une fenรชtre glissante w[m] de K รฉchantillons. La transformรฉe de Fourier de chaque segment, n , obtenu est calculรฉe. La fenรชtre glissante se dรฉplace avec un pas de L รฉchantillons (figure 2.:3). On peut dรฉfinir le spect rogramme, S[n, k], par le module des transformรฉes de Fouri er rapide (FFT) des diffรฉrentes fenรชtres pondรฉrรฉes du signal. On a alors 1 J( – 1 1 S[n, k] = ‘~O s[nL + m]w[m]e – j2;mk , (2.1) oรน n = 0, l , … ,N – 1 et k = 0, l , . . . ,NI – l , reprรฉsentent respectivement le temps et la frรฉquence. Le nombre de frรฉquences discrรจtes M (taill e de la FFT) doit รชtre supรฉrieur ou รฉgal au nombre d ‘รฉchantillons K de la fenรชtre w. Plusieurs fonctions de pondรฉration w[n] sont proposรฉes dans la littรฉrature; celles ut ilisรฉes dans ce travail sont reportรฉes en annexe A. Selon la nature du signal ร  analyser, il est possible de modifier la taille, K , et le pas d ‘avancement, L , de la fenรชtre glissante. Plus K est petit, plus la prรฉcision temporelle du spectrogramm e est accrue et la prรฉcision frรฉquentielle basse. Au contraire, plus K est grand , plus la prรฉcision temporelle du spectrogramme est basse et la prรฉcision frรฉquentielle accrue. L’amรฉlioration de la rรฉsolut ion temporelle se fait donc au dรฉtriment de la rรฉsolution frรฉquentielle et vice versa. Ce compromis de prรฉcision en t emps et en frรฉquence est appelรฉ dualit รฉ d’Heisenberg.

Deux techniques permettent cependant de contourner cette dualitรฉ afin d ‘obtenir un spectrogramme avec ร  la fois une bonne prรฉcision en temps et en fr รฉquence. Tout d ‘abord, le choix d ‘un pas d ‘incrรฉmentation L infรฉrieur ร  la taille de la fenรชtre K (chevauchement des segments d ‘analyse) permet d ‘amรฉliorer la prรฉcision temporelle du spectrogramme sans affecter la prรฉcisiOll frรฉquentielle. Plus le pas sera petit, meilleure sera la prรฉcision t ell1- porelle. Ensuite, calculer la FFT sur une durรฉe supรฉrieure ร  celle des segments (/Ill > K ) en ajoutant des zรฉros ร  la fin du signal fenรชtrรฉ (zero padding) , permet d ‘obtenir une rรฉsolution frรฉquentielle plus grande sans pour autant dรฉgrader la prรฉcision temporelle. Il est ร  noter que cette opรฉration n’ajoute aucune information au signal. Cependant, elle agit comme une interpol ation du spectre et permet d ‘obtenir une im age temps-frรฉquence plus prรฉcise. Il est ร  not er que ces deux techniques augmentent de faรงon importante la quanti tรฉ de calcul. Les vocalises auxquelles on s’intรฉresse ici ayant des caractรฉristiques de durรฉe et de fr รฉquence diffรฉrentes, il n ‘est pas possible de les reprรฉsenter toutes avec prรฉcision sur un mรชme spectrogramme (dualitรฉ d ‘Heisenberg). Plusieurs jeux de paramรจtres sont alors ut ilisรฉs pour le calcul des spectrogrammes, un premier pour les vocalises A et B, un second pour les vocalises D et un troisiรจme pour les impulsions de 20 Hz (cf. t ableaux A. 1 et A.2 en annexe).

Dรฉtection par coรฏncidence des spectrogrammes

La coรฏncidence des sp ectrogrammes consiste ร  retrouver dans un spectrogramme inconnu une vocalise prรฉcise ร  partir d ‘un patron (image) de sa reprรฉsentation tempsfr รฉquence. Cett e technique, couramment utilisรฉe en traitement de l’image, fait part ie des premiรจres mรฉthodes robust es appliquรฉes pour la reconnaissance de vocalises d ‘animaux , plus spรฉcialement de baleines (1’vIellinger et Clark, 1996, 2000). L’opรฉration permettant l’association du patron avec le spectrogramme peut varier selon les รฉtudes. Ici l’opรฉration ut ilisรฉe est l’opรฉration logique AND. Tout d ‘abord , le spectrogramme issu de l’รฉtape d ‘attรฉnuation du bruit (cf. section 2.3.2) est binarisรฉ. Les valeurs du spectrogramme supรฉrieures ร  zรฉro sont fixรฉes ร  un , les autres sont fixรฉes ร  zรฉro. Ensuite, une image binaire du patron temps-frรฉquence de la vocalise ร  dรฉtecter est crรฉรฉe par l’expรฉrimentateur. Elle est dรฉfini e par un segment de droite (i.e . une image de chirp ) caractรฉrisรฉ par les paramรจtres suivants : la frรฉquence de dรฉbut, il, la frรฉquence de fin , 12 , la durรฉe, Dvoc, l’รฉpaisseur en frรฉquence, 6.J et la durรฉe qui prรฉcรจde et succรจde l’image de la vocalise, Dini . Ces paramรจtres sont illustrรฉs sur la figure 2.5 . Les valeurs de ces paramรจtres pour les diffรฉrentes vocalises sont reportรฉes dans le tabl eau A.2 en annexe. Enfin, en calculant le taux de superposition du modรจle crรฉรฉ, ร  chaque pas de temps du spectrogramme inconnu grรขce ร  l’opรฉration AND, une fonction de dรฉtection est obtenue. Une valeur de 100% indique une correspondance parfaite des zeros et des uns. Un seuil Tcs est dรฉfini . Les pics de la fonction de dรฉtection qui excรจdent ce seuil dรฉfinissent les p ositions temporelles des vocalises dรฉt ectรฉes. La figure 2.6 illustre de faรงon schรฉmatique le processus de dรฉtection.

Certaines vocalises sont reprรฉsentรฉes par un seul fragment, cependant d ‘aut res sont constit uรฉes de plusieurs fragments (contour fr agmentรฉ) . Il s’avรจre donc nรฉcessaire de connecter certains de ces fr agments afin de reconstit uer l’intรฉgritรฉ des contours, Chaque paire, Xi, de fragments suffisamment proches en t emps (infรฉrieurs ร  Tseg secondes) est caractรฉrisรฉe par un vecteur, ai , contenant les pentes, ail et a i2 (figure 2,8), des bouts l des fragments adj acents et par la distance frรฉquentielle minimale de cassure, f3i’ Deux distances de cassure sont mesurรฉes pour chaque connexion. L’une, f3i2 , correspond ร  l’รฉcart de frรฉquence mesurรฉ lorsque la fin du premier fragment est prolongรฉe linรฉairement jusqu ‘au dรฉbut du deuxiรจme fragment. L’ autre, f3il , correspond ร  l’รฉcart de frรฉquence mesurรฉ lorsque le dรฉbut du deuxiรจme fr agment est prolongรฉ linรฉairement jusqu ‘ร  la fi n du premier (figure 2.8) . La distance f3i correspond ร  la plus petite des deux,

La connexion des fragments est dรฉcidรฉe en ut ilisant des modรจles de probabilitรฉs (Halkias et Ellis, 2006). La probabilitรฉ de connexion a รฉtรฉ modรฉlisรฉe en extrayant, de l’ensemble de la base de donnรฉes d ‘apprent issage, deux sรฉries d ‘observations, La et L{3, correspondant respectivement aux paramรจtres Cf et f3 calculรฉs pour N paires de fragments appartenant ร  des mรชmes contours. Ces deux sรฉries d’observations peuvent alors s’รฉcrire On dรฉfinit ainsi deux distributions normales 8 a( ~ a , f..la) (figure 2.9a, c) et 8{3 (a{3 , f..l{3 ) (figure 2.9b) pour modรฉliser les sรฉries d’observations La et L {3, avec L:;a, f..la, a{3 et f..l{3 , respectivement la matri ce de covariance et le vecteur de moyennes de La, et, l’รฉcart-type et la moyenne de L {3. Une connexion de paire de fragments inconnus, x, de paramรจtres Cfx et f3x, peut ainsi รชtre รฉvaluรฉe par sa vraisemblance, P( x), exprimรฉe par oรน P(xI 8 a ) et P(xI8{3) sont respectivement les vraisemblances que la connexion x puisse รชtre engendrรฉe par les modรจles 8 a et 8 {3 , et sont dรฉfinies par

Classification des contours par dรฉformation temporelle dynamique

La dรฉformation tem porelle dynamique (DTW) est une mรฉthode de classification initi alement dรฉveloppรฉe et utilisรฉe dans le domaine de la parole pour la reconnaissance de mots isolรฉs (Habiner et Juang, 1993). Cette mรฉthode fut ensuite introduite p our la classification des vocalises stรฉrรฉotypรฉes d ‘animaux, comme par exemple les vocalises de dauphins (Buck et Tyack, 1993) , d’รฉpaulards (Brown et al., 2006) et d’oiseaux (ho el al., 1996; Anderson F.t al. , 1996). L’algorithme consiste ร  reconnaรฎtre une vocalise inconnue, T , en la comparant ร  des modรจles de vocalises connues d ‘un dictionnaire. Il permet, lors de cette comparaison, de tenir compte des compressions et des extensions temporelles des vocalises, engendrรฉes soit lors de la production du son (modulation par la baleine elle mรชme, e.g. vocalise D, Berchok et aL., 2006) soit lors de la propagation des ondes sonores dans le mรฉdium (e .g. รฉchos, trajets multiples, cf. figure 1.2b) . Le dictionnaire est constit uรฉ de k modรจles de rรฉfรฉrences, Rk’ de vocalises connues sรฉlectionnรฉes dans la base de donnรฉes d ‘apprentissage par l’expรฉrimentateur. Le but est de dรฉfinir une mesure de dissemblance (distance) entre la vocalise inconnue T et chaque modรจle Rk. Chaque vocalise est reprรฉsentรฉe ร  chaque pas de temps n, par trois paramรจtres: fin sdn], la frรฉquence instantanรฉe et, v[n] et a[n] respectivement la vitesse et l’accรฉlรฉration de f insdn] dรฉfinis par

Classification des contours par quantification vectorielle

La quantification vectorielle est ร  la base une technique de groupement qui peut aussi รชtre utilisรฉe comme une mรฉthode de classification en faisant rรฉfรฉrence ร  des modรจles. Elle a รฉtรฉ dรฉveloppรฉe principalement reconnaissance de la parole pour le codage et l’identification du locuteur (Pan et al. , 198.5; Soong el al. , 1985), mais est ut ilisรฉe dans divers problรจm es de classification comme par exemple les sons respiratoires (Bahoura et P elletier, 2003) et les caractรจres manuscrits (Ca,mastra et Vinciarelli, 2001). La mรฉthode opรจre en deux phases, l’apprentissage et la classification. L’extraction des descripteurs consiste ร  caractรฉriser chaque contour de vocalise extrait (cf. section 2.3.4.1) par un vecteur ร  quatre dimensions composรฉ de la frรฉquence minimale, de la frรฉquence maximale, de la durรฉe et de la diffรฉrence de frรฉquence entre le dรฉbut et la fin du contour. P armi les autres descripteurs testรฉs2 (rรฉsultats non reportรฉs dans ce document) , la combinaison citรฉe ci-dessus permet d’obtenir la meilleure discrimination. Lors de la phase d’apprentissage, chaque vocalise extraite de la base de donnรฉes d ‘apprent issage est reprรฉsentรฉe par un point dans un espace des descripteurs ร  quatre dimensions (figure 2.12) . Chaque classe de vocalise, k , est donc reprรฉsentรฉe par un nuage de N k points X k = { XH, Xk2, ‘ ย ยป ,XkNJ, oรน Nk est le nombre d ‘exemplaires de cette vocalise. Le processus d ‘apprentissage, Q, consiste ร  faire correspondre ร  chacun de ces nuages de points , un nombre restreint, M, de rรฉgions dans le mรชme espace (Linde et al., 1980). Chaque rรฉgion, peut รชtre reprรฉsentรฉe par son centroรฏde. Pour une classe, k, de vocalises donnรฉes, ces centroรฏdes, constituent le dictionaire Ck = {CkI , Ck2, … , CkM } de cette classe. On peut noter ce processus par

Le rapport de stage ou le pfe est un document dโ€™analyse, de synthรจse et dโ€™รฉvaluation de votre apprentissage, cโ€™est pour cela chatpfe.com propose le tรฉlรฉchargement des modรจles complet de projet de fin dโ€™รฉtude, rapport de stage, mรฉmoire, pfe, thรจse, pour connaรฎtre la mรฉthodologie ร  avoir et savoir comment construire les parties dโ€™un projet de fin dโ€™รฉtude.

Table des matiรจres

Remerciements
Rรฉsumรฉ
Table des matiรจres
Liste des tableaux
Liste des figures
Liste des abrรฉviations
Liste des notations
1 Introduction
2 l\1atรฉriel et mรฉthodes
2.1 Collecte des donnรฉes
2.2 Bases de donnรฉes
2.3 Dรฉtection et identification des vocalises
2.3.1 Calcul du spectrogramme
2.3 .2 Rรฉduction du bruit
2.:3.2.1 ร‰galisation
2.3.2.2 Lissa.ge du spectrogramme
2.3.2.3 Seuillage
2.3.4.1 Extraction des conto urs
2.3.4.2 Classification des contours par dรฉformation tempolf’lle dynamique
2.3.4.3 Classification contours par quantification vectorielle
2.3.5 Ajustement des paramรจtres
2.4 Evaluation de la performance
2.4. 1 Performance de la reconnaissance
2.4.2 Rapiditรฉ d ‘exรฉcution
3.Rรฉsultats
3.1 Performance de reconnaissance
3.2 Rapiditรฉ d ‘exรฉcution
4 Discussion
4.1 Analyse des rรฉsultats
4.1.1 Comparaison des mรฉthodes
4. 1. 2 Utilisation comme outils de monitorage
4.2 Perspectives
4.2.1 Amรฉliorations
4.2.2 Autres applications
Annexes
A Paramรจtres utilisรฉs pour les mรฉthodes de dรฉtection et d e reconnaissance
B Durรฉes des vocalises de la base de donnรฉes de test
Rรฉfรฉrences

Classification des contours par quantification vectorielleTรฉlรฉcharger le rapport complet

Tรฉlรฉcharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiรฉe. Les champs obligatoires sont indiquรฉs avec *