Internet a connu un essor fulgurant dans les années 1990. Très vite, la quantité d’information disponible sur le réseau est devenue très importante, mais son hétérogénéité et son manque de structuration rendait l’accès à cette information très dicile. L’Extraction d’Information (EI), une discipline du Traitement Automatique des Langues (TAL), a alors vu le jour afin de proposer des analyses fines d’un texte écrit en langage naturel et d’améliorer la recherche d’informations spécifiques. Une tâche d’extraction d’information consiste, en eet, à prendre en entrée du texte non structuré écrit en langage naturel, à en extraire des entités et des évènements, pour en produire des données non ambigües dans un format structuré (template, formulaire, etc.), qui sont soit présentées directement à l’utilisateur soit stockées pour des traitements ultérieurs (indexation dans des applications de recherche d’information, etc.). Les travaux dans ce domaine se sont développés grâce aux campagnes MUC (Message Understanding Conferences) qui ont défini un cadre à cette discipline en précisant les diérentes tâches qu’elle comporte et en proposant des protocoles d’évaluation associés à ces tâches.
Les techniques d’extraction d’information ont énormément évolué durant les deux dernières décennies. Les premiers systèmes d’extraction d’information étaient des systèmes à base de règles écrites manuellement par des experts. L’écriture manuelle des règles étant devenue une tâche fastidieuse, des algorithmes d’apprentissage automatique de règles ont été développés (Aitken, 2002 ; Cali & Mooney, 1998 ; Ciravegna, 2001 ; Rilo, 1996 ; S. Soderland, Cardie, & Mooney, 1999). D’autres techniques ont ensuite vu le jour comme l’apprentissage statistique et les techniques de construction de grammaires car les algorithmes d’apprentissage de règles ont été jugés fragiles face au bruit dans les textes non structurés.
Malgré la diversité des techniques d’extraction d’information, les approches à base de règles écrites manuellement et les approches à base d’apprentissage automatique (apprentissage de règles et apprentissage statistique) continuent à être utilisées en parallèle. En eet, chacune de ces familles d’approches possède ses avantages et ses inconvénients. Les approches à base de règles écrites manuellement sont généralement précises et flexibles mais nécessitent une expertise du domaine d’étude ainsi que des compétences techniques et linguistiques importantes pour l’écriture de patrons assez robustes. Ces approches sont également coûteuses à adapter à de nouveaux domaines. Les approches à base d’apprentissage, d’un autre coté, obtiennent des performances comparables aux approches à base de règles écrites manuellement, avec habituellement une précision inférieure mais un meilleur rappel. Cependant, ces approches nécessitent la rédaction d’un guide d’annotation détaillé, puis l’annotation d’une grande quantité d’exemples d’entrainement afin de pouvoir mettre en œuvre des techniques d’apprentissage. Actuellement, alors que les systèmes à base de règles, écrites manuellement ou inférées de manière automatique, dominent le monde industriel, les recherches académiques semblent plutôt se pencher du côté des approches statistiques (Chiticariu, Li, & Reiss, 2013).
Les systèmes d’extraction d’information sont généralement coûteux à mettre en place pour des utilisateurs qui ne disposent pas d’une quantité susante de données d’apprentissage annotées ou qui ne sont pas des experts en ingénierie de connaissances. Des systèmes d’extraction d’information interactifs ont donc vu le jour d’une part pour réduire ce coût et d’autre part pour permettre à l’utilisateur d’investiguer les erreurs faites par le système d’extraction d’information et de les corriger. L’extraction d’information interactive a créé de nouveaux besoins dans les systèmes d’extraction d’information (Kristjansson et al., 2004). Pour faciliter l’expérience des utilisateurs, un système d’extraction d’information interactif doit pouvoir attribuer des indices de confiance aux valeurs des champs extraits et prendre en considération de manière optimale les corrections de l’utilisateur. Même si les approches à base de règles sont moins adaptées au paradigme d’extraction d’information interactive que les approches statistiques car elles ne peuvent ni estimer la confiance ni incorporer de manière naturelle les annotations et les corrections de l’utilisateur, des travaux montrent qu’il est tout à fait possible d’introduire la notion de confiance dans des systèmes d’extraction d’information à base de règles sans pour autant utiliser les méthodes conventionnelles d’estimation de confiance tirées de l’état de l’art de l’apprentissage actif (S. Soderland et al., 1999; Thompson, Cali, & Mooney, 1999 ; T. Wu & Pottenger, 2005). L’interaction avec l’utilisateur dans ces systèmes à base de règles peut se faire de diérentes manières. Certains travaux se contentent d’entraîner de manière interactive le système d’extraction d’information (Cardie & Pierce, 1998). D’autres disposent d’une interface interactive qui guide l’utilisateur dans la construction du système d’extraction d’information mais ne disposent pas d’un module d’apprentissage automatique (Li et al., 2012), ce qui les rend coûteux en termes d’eort humain. D’autres permettent à un utilisateur initié de développer un extracteur d’information de bout en bout mais ne disposent pas d’un module qui facilite le choix des exemples à annoter par l’utilisateur (Akbik et al., 2013). Un besoin de développer un système d’EI interactif générique qui permet de guider l’utilisateur aussi bien dans l’écriture des règles que dans le choix des exemples à annoter pour inférer les règles se fait ressentir. Un tel système fonctionnerait idéalement avec n’importe quel langage de règles et n’importe quel algorithme d’apprentissage de règles. Cependant, l’absence de langage de règles standard (Chiticariu et al., 2013) et d’algorithmes d’apprentissage de règles qui s’appuient sur des langages standard complique l’interaction de l’utilisateur avec le système d’EI dans la mesure où il faut soit maîtriser le langage de règles utilisé par l’algorithme d’apprentissage de règles, soit adapter l’algorithme d’apprentissage de règles au langage de règles maîtrisé par l’utilisateur. Le système TextRuler (Kluegl, Atzmueller, Hermann, & Puppe, 2009) est, par exemple, un système de développement semi-automatique d’applications d’EI à base de règles contenant des implémentations d’algorithmes d’apprentissage de règles de la littérature adaptées au langage Ruta.
Nous nous intéressons, dans ce travail, aux approches à base de règles car les règles sont plus faciles à manipuler et à interpréter par un être humain. Ainsi, nous proposons une approche d’EI à base de règles qui a l’avantage d’être :
— hybride dans la mesure où elle combine une approche d’EI à base de règles écrites manuellement et une approche d’EI à base d’apprentissage de règles permettant ainsi à l’utilisateur de choisir l’opération qu’il juge la plus adaptée entre l’annotation d’exemples d’apprentissage et l’écriture de règles ;
— interactive dans la mesure où l’utilisateur interagit avec le module d’apprentissage de règles en lui communiquant un feedback sur la pertinence des règles inférées (soit en annotant les exemples couverts par ces règles soit en modifiant les règles elles-mêmes) ;
— itérative car elle nécessite plusieurs itérations pour une construction progressive de la base des règles de manière à minimiser l’eort humain requis. L’approche interactive que nous proposons permet à l’utilisateur d’assurer la généricité des règles et de contenir leur complexité. Pour assurer ses objectifs, l’approche proposée doit lever certains verrous liés aux propriétés suivantes.
— La compréhensibilité des règles : pour pouvoir modifier et améliorer des règles existantes, l’utilisateur a besoin de comprendre les règles qui doivent avoir une expression symbolique, être assez courtes, être en nombre réduit et s’appuyer sur des termes intuitifs.
— La généricité des règles : pour être générique, une règle doit reposer sur des annotations textuelles elles mêmes génériques. La généricité des règles améliore leur compréhensibilité dans la mesure où elle permet d’obtenir des expressions de règles plus courtes et un ensemble de règles plus réduit.
— La stabilité des règles : le module d’apprentissage doit prendre en compte les règles écrites ou modifiées par l’utilisateur et essayer de les étendre sans modifier complètement leurs expressions pour permettre à l’utilisateur de suivre l’évolution des règles au fil des itérations et de garder le contrôle sur leur complexité.
— La sélection d’exemples : un module de sélection d’exemples pertinents permet à l’utilisateur d’annoter moins d’exemples.
— Le temps d’apprentissage : pour pouvoir interagir avec le module d’apprentissage, l’utilisateur ne doit pas attendre longtemps avant d’avoir une réponse de l’algorithme.
Le système qui met en place cette approche s’appelle IRIES. IRIES étend l’interface de visualisation du système TextRuler (Kluegl, Atzmueller, Hermann, & Puppe, 2009) et l’algorithme WHISK basé sur le langage Ruta implémenté dans TextRuler. Il contient des modules qui lui permettent de répondre aux spécifications de l’approche proposée : une chaîne d’annotation linguistique et un langage de règles expressif pour la compréhensibilité et la généricité des règles d’EI écrites ou inférées, une stratégie d’apprentissage sur un corpus réduit qui permet de ne pas considérer comme négatifs les exemples positifs non encore annotés par l’utilisateur à une itération donnée et de réduire le temps d’apprentissage, un concordancier pour pouvoir écrire des règles prospectives et réduire son espace de travail et enfin, deux versions d’un module d’apprentissage actif (IAL4Sets et IAL3Sets) pour une sélection intelligente des exemples à annoter. Les modules proposés ont été mis en place et évalués sur deux corpus : le corpus de BioNLP-ST 2013 et le corpus SyntSem.
|
Table des matières
1 Introduction
1.1 Contexte et motivations
1.2 Contributions
1.3 Organisation
2 Extraction d’information
2.1 Définition
2.2 Architecture type d’un système d’extraction d’information
2.3 Tâches d’extraction d’information
2.4 Évaluation en extraction d’information
2.4.1 Campagnes d’évaluation
2.4.2 Fonctions de mesure de performance
2.5 Rôle des informations linguistiques en extraction d’information
2.6 Approches d’extraction d’information à base de règles
2.6.1 Formalismes de règles
2.6.2 Stratégies de résolution de conflits entre les règles
2.6.3 Apprentissage de règles d’extraction d’information
2.7 Approches d’extraction d’information statistiques
2.7.1 Modèles de Markov Cachés
2.7.2 Modèles d’Entropie Maximale
2.7.3 Champs Aléatoires Conditionnels
2.7.4 Séparateurs à Vaste Marge
2.8 Extraction d’information et ontologies
2.8.1 Extraction d’information guidée par les ontologies
2.8.2 Architecture d’un système OBIE
2.9 Extraction d’information ouverte (OIE)
3 Extraction d’information interactive
3.1 Définition
3.2 Systèmes d’extraction d’information entraînés de manière interactive
3.3 Systèmes d’extraction d’information basés sur l’apprentissage actif
3.3.1 Apprentissage actif
3.3.2 Exemples de systèmes interactifs utilisant l’apprentissage actif
3.4 Systèmes d’extraction d’information dotés d’interfaces de visualisation
3.5 Systèmes d’aide au développement d’extracteurs d’information à base de règles
3.6 Discussion
4 Conclusion
Télécharger le rapport complet