Active-learning appliqué aux modèles à base de règles manuelles

 Le service « France Télécom 3000 »

Le service téléphonique « France Télécom 3000 » (FT3000) est le premier service déployé par France Télécom qui exploite la langue naturelle. Il a été ouvert au public en octobre 2005 et n’a cessé d’évoluer depuis afin de prendre en compte les nouveaux services et offres commerciales. Ce service téléphonique permet aux clients d’obtenir des informations, de souscrire à près de 30 services différents, ainsi que d’accéder à la gestion de leur ligne téléphonique et de leur compte client. Le système effectue de la compréhension de la parole en temps réel grâce à un processus classique :
− Un module de RAP utilisant un décodeur basé sur un modèle de langage N-gram produit une hypothèse textuelle (la 1-best) avec un taux d’erreur mot (WER, voir 1.2 page 17) autour de 40%.
− Puis le module de compréhension utilise des règles manuelles pour produire une interprétation sémantique structurée de la forme prédicat-arguments. Le module de compréhension procède en trois étapes :
− La séquence de mots issue de la RAP est convertie en une séquence de concepts élémentaires grâce à une grammaire conceptuelle comportant environ 1200 règles manuelles. Par exemple la phrase « Je cherche des informations à propos de services pour téléphoner moins cher le soir » correspond à la séquence de concepts « [Information] [Téléphone] [Pas_cher] [Soir] ».
− Une autre série de près de 2900 règles manuelles compose les concepts pour construire des interprétations structurées prédicat-arguments. L’ordre des règles est important et la première qui concorde produit l’interprétation retenue.
− Enfin, un processus sélectionne l’interprétation la plus probable parmi les différentes interprétations proposées en se basant sur des règles contextuelles dépendant de l’état du gestionnaire de dialogue. L’exemple précédent aurait généré l’interprétation « Info(Tarifs, Soir) », Info étant le prédicat et Tarifs et Soir les arguments.

Les modèles sémantiques utilisés par le service comportent 400 concepts différents (entités nommées, commandes de dialogue, mots clés) et près de 2000 structures prédicatarguments possibles qui se décomposent en 54 prédicats et 343 arguments possibles.

Mesures de performance

Les mesures de performance sont essentielles pour confronter des systèmes et surtout pour améliorer un système donné. Elles servent à la fois à guider et conforter la démarche scientifique et, dans notre cas, à permettre d’améliorer le système de compréhension.

Word Error Rate (WER) 

Le module de compréhension se base sur la sortie d’un module de RAP. Les données issues de systèmes de RAP sont incertaines, et cette incertitude peut être mesurée en partie. Un tel système peut classiquement produire une unique phrase, qu’on appelle 1- best (c’est la meilleure hypothèse), ou bien une série des N meilleures hypothèses que l’on appelle les N-best.

La mesure de performance la plus courante pour une telle sortie est le Word Error Rate (WER) se base sur la différence entre la phrase produite par le système de RAP et la phrase de référence, il somme trois types d’erreurs :
− Les insertions lorsqu’un mot apparaît dans la sortie mais n’est pas présent dans la référence,
− les délétions lorsqu’un mot présent dans la référence ne se trouve pas dans la sortie,
− les substitutions : lorsqu’un mot de la référence est remplacé par un autre dans la sortie.

Interpretation Error Rate (IER)

On peut, dans le cas de la présence d’une classe « rejet », parler en termes d’insertions, substitutions et délétions. La classe rejet est attribuée à toute trace jugée hors du domaine couvert par l’application, vide, trop bruitée ou toute autre raison valide de rejeter la trace au lieu de tenter de lui attribuer une classe. Ayant des exemples pouvant se retrouver sans classe, le système peut faire trois types d’erreurs :
− des insertions lorsqu’un exemple à rejeter se voit attribué une classe,
− des délétions lorsqu’un exemple valide est rejeté à tort,
− des substitutions lorsque le système attribue la mauvaise classe à un exemple valide.

Les systèmes à base de règles manuelles sont aptes à réaliser des tâches de compréhension de la parole et obtiennent des résultats très honorables. Le système « France Télécom 3000 » en est un bon exemple. Cependant leur mise en place et leur évolution est coûteuse en termes de ressources humaines et de temps.

L’expertise nécessaire à la création, la correction et l’enrichissement de l’ensemble des connaissances manuelles servant au système est souvent très pointue –non seulement en ce qui concerne le formalisme (dans le cas de grammaires par exemple, il faut veiller à ce que certaines règles n’en masquent pas d’autres, et donc avoir une vision globale de l’ensemble des règles) mais également relativement à l’expertise linguistique permettant d’introduire des connaissances à large couverture, principalement pour des systèmes traitant de la parole spontanée du fait des disfluences et de l’agrammaticalité qui par leur caractère aléatoire nécessite de laisser une certaine latitude dans la modélisation du phénomène linguistique qui nous intéresse – ce qui rend de tels systèmes difficilement maintenables, ou tout du moins à un cout important.

L’idée que nous suivrons au travers de ce manuscrit sera de tenter de réduire la nécessité d’expertise humaine en la remplaçant par des techniques et des systèmes automatiques ou semi-automatiques tout en essayant d’impacter le moins possible sur la performance du système.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
Problématique
La compréhension comme un problème de classification
Organisation du document
Première partie
Chapitre 1 – Modèles à base de connaissances
1.1 Le service « France Télécom 3000 »
1.2 Mesures de performance
1.2.1 Word Error Rate (WER)
1.2.2 Interpretation Error Rate (IER)
1.3 Résultats
1.4 Conclusion
Chapitre 2 – Modèles statistiques à base de corpus
2.1 Cadre théorique
2.2 Classifieurs utilisés
2.2.1 Liblinear
2.2.2 Icsiboost
2.3 Le corpus FT3000
2.4 Le système automatique
2.4.1 Réduire le nombre de classes
2.4.2 Protocole expérimental
2.5 Conclusion
Chapitre 3 – Self-training
3.1 Mesures de confiance
3.1.1 Dans les données sources
3.1.2 Dans les sorties des classifieurs
3.2 Algorithme
3.3 Application
3.3.1 Protocole expérimental
3.3.2 Résultats
3.4 Conclusion
Chapitre 4 – Co-training
4.1 Algorithme
4.2 Corpus DEFT08
4.3 Mesures de performance : précision, rappel et f-score
4.4 Application
4.4.1 Protocole expérimental
4.4.2 Résultats
4.4.3 Application au corpus FT1013
4.5 Conclusion
Deuxième partie
Chapitre 5 – Active-learning
5.1 Algorithme
5.2 Application
5.2.1 Protocole expérimental
5.2.2 Résultats
5.3 De la variabilité temporelle des données
5.3.1 Protocole expérimental
5.3.2 Résultats
5.4 Conclusion
Chapitre 6 – Active-learning appliqué aux modèles à base de règles manuelles
6.1 Protocole expérimental
6.2 Résultats
6.3 Conclusion
Chapitre 7 – Oracle partiel
7.1 Algorithme
7.2 Application
7.2.1 Protocole expérimental
7.2.2 Résultats
7.3 Adaptation du modèle de RAP grâce à l’Oracle partiel
7.3.1 Protocole expérimental
7.3.2 Résultats
7.4 Conclusion
Chapitre 8 – Apprendre de l’Oracle Partiel
8.1 Perceptron
8.2 Lazy Perceptron
8.3 Banditron
8.4 Protocole expérimental
8.5 Résultats
8.6 Conclusion
Conclusion

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *