Télécharger le fichier pdf d’un mémoire de fin d’études
Méthodes d’extraction de relations n-aires
Une relation n-aire est une relation qui fait intervenir plus de deux arguments, souvent de types diérents. La dénition d’une relation n-aire est très large et de ce fait les méthodes pour extraire ces relations sont nombreuses. L’approche sera diérente si la relation est dans un tableau ou s’étend sur plusieurs phrases voire tout un texte, ou si tous les attributs de la relation sont dans la même phrase. Une diérence est aussi observée entre les relations s’exprimant de façon explicite dans les textes et celles qui sont implicites. Les méthodes consisteront à identier toutes les relations binaires entre deux entités, puis regrouper les relations binaires, ou directement à regrouper les entités selon leur position dans le texte, la phrase, etc. Nous présentons dans la suite, les principales méthodes qui ont été proposées dans la littérature.
Pour extraire une relation entre un individus et diérents aspects de l’instance de la relation (c’est-à-dire une relation du type 2 de la typologie du W3C), il faut annoter les entités, puis relier les entités de types diérents à l’entité centrale. La diculté majeure de cette tâche est l’annotation des entités. Souvent la mise en relation consiste principalement à relier l’élément pivot avec les entités qui le suivent dans la phrase. C’est le cas pour l’extraction de prescriptions dans des rapports cliniques, tâche proposée dans le cadre du challenge i2b2 2009 (Uzuner et al. [2010b]). Une prescription, aussi appelée événement de médication, est décrite par Gold et al. [2008] comme un médicament administré à un patient relié à sa dose, sa fréquence, la nécessité de prendre ce traitement, etc. Les prescriptions ont souvent la forme de liste, comme le montre l’exemple (11), ce qui représente une particularité de ce type d’événement.
Méthodes d’extraction des relations binaires
Les méthodes d’extraction de relations dièrent selon la sous-tâche traitée : détection d’une relation entre deux entités, identication de la direction des relations, c’est-à-dire du rôle des arguments et catégorisation des relations. Nous nous intéresserons ici uniquement aux méthodes pour détecter et catégoriser une relation.
Méthodes fondées sur les co-occurrences
Les relations hiérarchiques et lexicales (par exemple les relations d’hyperonymies) sont vraies tout le temps au sein d’un domaine. Une méthode fondée sur les co-occurrences permet assez facilement de détecter ce genre de relations (par exemple Jelier et al. [2005]).
Cette méthode est souvent utilisée comme baseline pour évaluer de nouvelles approches. Elle repose sur l’idée que deux mots qui apparaissent fréquemment dans le même contexte peuvent être sémantiquement liés. Avec cette méthode, les relations sont extraites avec un rappel élevé mais une précision très basse.
Pour extraire des relations domaniales 7 et pour catégoriser des relations, cette méthode n’est pas appropriée. Par exemple, si on veut extraire les relations entre un médicament et une maladie, dans un texte scientique on pourra trouver que le médicament est destiné à soigner la maladie, mais dans des rapports cliniques, les deux entités pourront être dans certains cas reliées par une relation du type : le médicament traite la maladie, ou le médicament ne guérit pas la maladie. Dans ce cas, le fait que les deux entités co-occcurrent un certain nombre de fois dans le corpus, ne permettra pas de correctement classer la relation.
Méthodes à base de patrons
Les relations explicites qui sont exprimées sur une seule phrase, peuvent souvent être extraites à l’aide de patrons. Les approches à base de patrons sont très nombreuses dans le domaine de l’extraction de relations binaires. Quand peu de données annotées sont disponibles, les patrons sont dénis manuellement, sinon ils sont appris sur un corpus annoté.
Les méthodes qui reposent sur la dénition manuelle de patrons sont peu robustes, et gé- néralement ecaces uniquement en précision. Les patrons construits ou extraits à partir de phrases dans lesquelles les entités en relation sont très éloignées, sont trop spéciques.
En eet, plus l’expression qui sépare deux entités est longue, plus la variation d’expression de la mention de la relation peut être grande.
Une relation entre deux entités pourra être exprimée de façons diverses dans une phrase ; il est nécessaire de dénir des patrons qui ne soient ni trop spéciques, ni trop géné- riques. Par exemple, un patron entièrement lexicalisé aura tendance à être trop spécique, alors qu’un patron formé uniquement des catégories morpho-syntaxiques des mots sera au contraire trop générique. Il est important que les patrons capturent la variété des formes linguistiques dans lesquelles les relations peuvent être exprimées (d’un point de vue morphologique, syntaxique, lexical et sémantique).
Informations surfaciques
Une grande partie des systèmes utilisent des informations surfaciques comme attributs de base pour le classieur. Ces informations surfaciques peuvent être les mots de la phrase, la distance entre les deux entités, la taille de la phrase, etc. Par exemple, Zhou et al. [2005] prennent en compte le nombre de mots entre les entités, les mots qui forment les deux entités, le fait qu’il n’y a pas de mots entre les deux entités, etc. jSRE (Giuliano et al. [2006]) requiert uniquement une analyse linguistique de surface (tokenisation, découpage en phrases, etc.) pour extraire des relations. Ils ont évalué leur méthode sur la tâche d’extraction d’interaction entre protéines et gènes sur deux corpus :
AIMed (Bunescu et al. [2005]) et LLL (Nédellec [2005]). Les résultats obtenus dépassent une partie des méthodes basées sur des attributs syntaxiques et sémantiques.
Les attributs lexicaux (par exemple les mots de la phrase) et de surface (par exemple la distance entre deux entités) ne sont pas toujours susants pour identier correctement une relation. L’information syntaxique ou sémantique peut améliorer la précision du système.
Nous allons présenter dans la suite les attributs sémantiques et syntaxiques utilisés par les systèmes de classication.
Informations sémantiques
Les informations sémantiques transposées sous forme d’attributs peuvent provenir de ressources pour la langue générale ou de ressources d’un domaine de spécialité.
Dans le domaine général, il est possible d’utiliserWordNet (Fellbaum [1998]) pour ajouter des attributs sémantiques. Culotta et Sorensen [2004] ont travaillé sur l’utilisation de la représentation en dépendance de la phrase pour extraire les relations dans le corpus ACE. Ils dénissent un arbre de dépendance augmenté pour représenter les relations. Ils représentent chaque n÷ud de l’arbre par un vecteur d’attributs (mots, catégories morphosyntaxiques, hyperonymes de WordNet, etc.). Pour explorer l’information disponible dans WordNet, ils ont essayé d’augmenter l’importance de deux n÷uds s’ils ont le même hyperonyme dans WordNet, mais ils n’ont pas observé d’amélioration de l’extraction des relations.
Zhou et al. [2005] utilisent également WordNet pour ajouter des attributs sémantiques pour l’extraction des relations de parentés entre deux personnes dans le corpus d’ACE. Ils forment une liste avec tous les mots appartenant à la classe sémantique person | … | relative dans WordNet, et ils la complètent avec des mots extraits des données d’entraînement. Pour les relations citoyen_de et résident, ils utilisent une liste des noms de pays. Ils augmentent leur F mesure de 1,5 points en utilisant ces deux listes.
Dans le domaine biomédical, le méta-thésaurus de l’UMLS est souvent utilisé pour typerles concepts de la phrase. Dogan et al. [2011] prennent en compte le type sémantique des concepts qui sont référencés dans l’UMLS. de Bruijn et al. [2011] annotent également les termes de comptes rendus médicaux avec les concepts de l’UMLS via l’outil MetaMap (Aronson [2001]), les négations avec l’outil ConText ou encore les entités nommées cliniques (médicaments, maladies, symptômes, etc.) avec l’outil cTAKES (Savova et al. [2008]). Ces annotations leur permettent d’ajouter des attributs sémantiques pour extraire des relations entre des médicaments, des maladies et des examens cliniques. Il peut être également intéressant d’utiliser des ontologies, telles que la FMA (Fundational Model of Anatomy) ou le MeSH (Medical Subject Headings), pour disposer des classes sémantiques des entités d’intérêts. Par exemple, Rosario et Hearst [2004] montrent que pour catégoriser des relations entre un traitement et une maladie, la catégorie sémantique des entités dans le MeSH leur permet d’augmenter de 13,2 points l’exactitude de leur système à base de réseaux de neurones.
Simplication de phrases guidée par l’extraction de relations
La simplication dirigée pour l’extraction de relations binaires a aussi été étudiée, et a principalement été évaluée sur la tâche d’extraction des interactions entre protéines.
Comme nous l’avons dit précédemment, il est possible d’agir sur la phrase au niveau des mots ou des catégories morpho-syntaxiques, ou sur des représentations de la phrase : l’arbre de dépendances ou l’arbre de constituants. Pour la tâche d’extraction de relations, il est intéressant de supprimer les informations non essentielles de la phrase et celles qui peuvent gêner l’identication des relations binaires, et ainsi de réduire la variété d’expression des relations. La simplication lexicale ne nous semble pas pertinente. La simplication pour l’extraction de relations nécessite de conserver les deux entités candidates, mais conserver la grammaticalité de la phrase ne semble pas indispensable.
Les principales recherches dans le domaine biomédical ont été faites pour l’extraction d’interactions entre protéines (PPI). Les corpus desquels sont extraits ces interactions sont composés d’articles scientiques. Coden et al. [2005] ont étudié la taille moyenne des phrases de plusieurs corpus, entre autres le corpus GENIA composé de résumés d’articles scientiques et le corpus MED qui contient des rapports cliniques. Ils ont trouvé que dans le corpus GENIA, qui se rapproche des corpus utilisés pour l’extraction des PPI, la taille moyenne des phrases est de 27,18 contre 13,79 pour le corpus MED. Cette étude montre que les phrases sont plutôt longues dans les articles scientiques et donc complexes. Pour pallier ce problème, une solution consiste à diviser les phrases complexes en phrases simples.
C’est ce qu’ont fait par exemple Jonnalagadda et Gonzalez [2010] en développant l’outil bioSimplify. Ils ont écrit des règles de simplication syntaxique qui s’appliquent au niveau morpho-syntaxique. Leur système produit plusieurs phrases simples et grammaticalement correctes à partir de la phrase d’origine. Leur objectif est d’augmenter le rappel de l’extraction d’information dans le domaine biomédical. Ils ont en particulier évalué leur outil pour la tâche de PPI, et observent une légère amélioration. L’inconvénient de leur système est qu’aucune sélection de la (des) meilleure(s) phrase(s) simple(s) n’est eectuée, et que les règles n’obligent pas la conservation de la paire d’entités candidate. Segura-Bedmar et al. [2011a] ont proposé une méthode hybride pour la détection des interactions entre des mé- dicaments (DDI) dans un corpus composé de documents pharmacologiques. Leur méthode combine des règles pour la résolution de construction linguistique complexe et de douze patrons écrits par un expert du domaine. Ils ont développé un algorithme pour repérer les propositions dans les phrases. Ils utilisent pour cela des informations lexicales et syntaxiques.
Une fois les propositions identiées, des règles de simplication sont appliquées pour découper les phrases complexes en phrases simples. Le découpage des propositions n’améliore pas les performances de leur système d’extraction de DDI.
D’autres travaux se sont intéresssés à la compression des phrases et non en leur division. Miwa et al. [2010] ont, par exemple, utilisé des règles pour supprimer les informations inutiles et gênantes pour extraire les relations. La douzaine de règles qu’ils ont écrites s’appliquent sur la sortie d’un analyseur syntaxique. Elles sont appliquées pour chaque paire de protéines. La gure 1.5 est un exemple de l’application de la règle Copula. Ils ont évalué l’impact de la simplication pour l’extraction des interactions entre protéines et montrent que sur les 5 corpus diérents qu’ils ont utilisés, l’extraction des relations est meilleure. Des travaux ont porté également sur la compression de phrases en simpliant les arbres de dépendances : Thomas et al. [2011] pour l’extraction d’interactions entre protéines, par suppression ou modication de types de dépendances (voir gure 1.6), et Buyko et al. [2011] pour la tâche BioNLP’09 (extraction d’événements biologiques), par élagage de l’arbre (voir gure 1.7). Les améliorations observées sont faibles. Dans le domaine général, Garcia et Gamallo [2011] ont travaillé sur la simplication des structures des phrases par simplication de l’arbre de dépendances. Grâce à des règles, ils identient et suppriment des constituants satellites et subordonnées de la phrase. Ainsi seuls les constituants têtes des dépendances sont conservés. À partir de la phrase simpliée obtenue, ils peuvent extraire les relations (hasBirthPlace et hasProfession) avec des règles génériques. Ils n’évaluent pas l’apport de cette simplication.
Annotation du corpus
Pour le développement et l’évaluation du système d’extraction d’information, il était nécessaire de disposer d’un corpus annoté en termes et relations. Pour cela, nous avons projeté les descripteurs des résultats expérimentaux contenus dans la base dans les 20 articles de notre corpus. Nous avons donc réalisé la tâche inverse à l’extraction : nous avons utilisé les données de QKDB qui avaient été extraites manuellement des articles scientiques et nous les avons recherchées et annotées dans les textes. Une vérication et une complétion manuelle ont ensuite été faites. Dans la gure 2.2 nous avons représenté la proportion de descripteurs par rapport au nombre de résultats expérimentaux, calculs eectués à partir de la base de données. On observe par exemple que pour tous les résultats expérimentaux, l’espèce et le paramètre sont renseignés ; en revanche le soluté l’est dans 60% des cas.
Passage d’un résultat expérimental à une relation n-aire
La méthode que nous proposons pour extraire les résultats expérimentaux, s’appuie sur leur modélisation représentée par une base de données générique (QKDB). Cependant, leschéma relationnel de cette base de données n’explicite pas toutes les informations, aussi nous avons formalisé ce modèle sous forme d’une ontologie associée à une terminologie.
Nous présenterons d’abord ce modèle, puis expliquerons sa représentation dans le schéma relationnel de QKDB.
La ressource termino-ontologique
Une ontologie est généralement composée d’une composante générique, représentant des concepts généraux indépendants du domaine, complétée par une ontologie du domaine, plus éventuellement des ontologies décrivant la tâche et l’application (Guarino [1998]). Une ressource termino-ontologique (RTO) met en relation les concepts de l’ontologie avec leurs dénominations dans la langue, les termes.
Notre objectif est de dénir un modèle générique pour représenter un résultat expé- rimental. Un résultat expérimental est déni par un résultat quantitatif et les diérents descripteurs de l’expérimentation qui ont permis de l’obtenir, et peut donc être vu comme une relation n-aire. Les descripteurs forment les concepts du domaine, en l’occurrence ceux de la physiologie rénale.
Les recommandations du W3C (Noy et Rector [2006]) (voir section 1.4.1) pour repré- senter les relations n-aires amènent à représenter une relation par un concept, et à rattacher les éléments mis en relation par des propriétés. C’est par exemple le choix fait par Touhami et al. [2011], qui porte sur l’extraction de relations n-aires en microbiologie. En suivant ce type de modélisation, il faudrait créer un concept-relation par expérimentation lorsque le domaine change. Or, les descripteurs de l’expérimentation jouent tous le même rôle vis- à-vis de la relation. De ce fait, il est possible de représenter une relation par un concept générique, lié à un et un seul résultat quantitatif et à un seul type de concept représentant l’ensemble des descripteurs. Ce concept est ensuite précisé par les concepts du domaine.
La gure 2.3 illustre ce choix : un résultat expérimental est représenté par un conceptrelation ExperimentalResult. Celui-ci est relié au concept QuantitativeResult qui correspond notamment à la valeur numérique du résultat, en précisant qu’il y a un et un seul concept possible, et au concept ExperimentConcept qui correspond aux descripteurs du résultat (espèce ou organe concernés par exemple), avec la restriction qu’il y a au moins une valeur de ce concept. Cette modélisation permet de décrire un résultat d’expérimentation, dans quelque domaine qu’il soit, et correspond donc à la partie générique de l’ontologie.
Représentation de l’ontologie par la base de données
Le modèle que nous venons de décrire est représenté par la base de données qui permet de stocker les instances trouvées dans les articles.
Ainsi qu’il a déjà été dit, le schéma de la base de données a été conçu pour faciliter la comparaison de données mesurées sur diérentes espèces et dans des conditions expé- rimentales variées, mais aussi pour être facilement extensible et généralisable à d’autres domaines.
La gure 2.4 présente un schéma partiel de la base (voir la gure 2.5 pour le schéma complet). La formalisation faite sous forme d’ontologie se retrouve bien dans la base de données. Les concepts génériques se traduisent par des tables : les concepts Experimental-Result et Source sont représentés par les tables record, et source. La table record contient les attributs suivants :
la valeur numérique du résultat (result_value) .
les unités du résultat, qui qualient la valeur numérique (units) .
une précision, qui indique généralement l’erreur standard de la mesure (precision) .
le nombre d’animaux observés (n_animals) .
des données qui décrivent qualitativement le résultat (qualitative_data) .
un commentaire, qui donne des informations complémentaires sur les techniques exp érimentales (comment).
On peut noter que QKDB ne stocke pas les unités possibles sous forme de table, l’unité étant un simple attribut de la table record. Notons aussi que le nombre d’individus sur lesquels l’expérimentation est faite, est représenté au sein de la table record. Ce choix est cohérent avec le fait qu’il n’y a qu’un résultat quantitatif et qu’une espèce par expérimentation.
Les concepts du domaine sont représentés par deux tables : eld et eld_type. eld contient les n÷uds feuille de l’ontologie, les termes correspondant étant stockés dans les champs content (variante préférentielle) et content_long (liste de termes constituant des variantes). Chaque eld est lié au n÷ud père correspondant de l’ontologie, représenté dans une table eld_type. Ainsi, le concept Pi de l’ontologie correspond à une entrée de la table eld dont l’attribut content est Pi , et l’attribut content_long est permeability ; cette entrée est reliée par une clé étrangère à une entrée de la table eld_type, dont l’attribut type est parameter , ce qui traduit le fait que la perméabilité est un descripteur de type paramètre. Les descripteurs généralement utilisés pour un résultat exp érimental en physiologie rénale sont les suivants (correspondant donc à des entrées de la table eld_type) :
l’espèce sur laquelle l’expérience a été menée .
l’organe, la région, le segment, le compartiment et éventuellement le type de cellule, qui représentent les endroits sur lesquels l’expérience a été menée .
le type de paramètre, qui indique la propriété qui a été mesurée, comme le poids, la perméabilité, le diamètre ou la concentration .
le soluté, qui précise ce qui a été mesuré, par exemple K+ si la concentration mesurée concerne ce soluté.
Seuls les deux niveaux les plus bas de l’ontologie ont été jugés nécessaires à traduire dans la base de données, mais cette structure pourrait être étendue en ajoutant un lien récursif sous la forme d’une clé étrangère dans la table eld_type.
La relation n-aire, quant à elle, est représentée par la table describes qui stocke chaque occurrence de la relation trouvée dans un article par l’ensemble des couples qui lient l’occurrence de résultat (record) avec chaque descripteur trouvé. Ce sont ces tables (describes et record) qui seront complétées lors du processus d’extraction.
Reconnaissance des résultats quantitatifs
Les valeurs numériques des expériences sont le point de départ de la reconnaissance des expérimentations. Il est nécessaire de pouvoir tous les reconnaître, sans pour autant extraire toutes les valeurs numériques présentes dans l’article. La gure 2.7 présente diérents types de résultats quantitatifs d’expériences. L’étude du corpus de développement nous a montré que 94% des résultats quantitatifs sont donnés dans les parties Results et Discussion, les 6% restants étant des résultats provenant de gures et qui ne sont cités de façon textuelle que dans la section Abstract. Les informations contenues dans les champs de commentaires sont présentes majoritairement dans la section Methods (nous ne nous intéressons pas à l’extraction de ces champs). Nous pouvons donc limiter les parties de l’article à analyser pour repérer les valeurs numériques aux sections Results et Discussion. Pour les identier, nous avons testé une méthode à base de règles et une méthode à base d’apprentissage.
Reconnaissance des autres attributs du résultat quantitatif
Les autres attributs des résultats quantitatifs sont repérés par des patrons. Le nombre d’animaux étudiés est un nombre entier qui peut être précédé de n = (1er exemple de la gure 2.8), ou suivi du nom de l’espèce concernée ou de males ou females (2e exemple de la gure 2.8). La précision est annotée avec le même patron que la valeur numérique associée : {nombre}%? +- {nombre}%?( e<sup>{nombre}</sup>)?.
Pour annoter les unités, nous utilisons un patron qui repère les chaînes de caractères composées de la combinaison d’unités de base (comme g ou mol), de préxes (comme k ou μ), de suxes (-1) et de symboles de séparation (. ou /). Nous repérons des unités comme cm/s, mmHg, pmol ATP/mm/h ou encore μmol/mg creatinine. Pour repérer cette dernière unité, nous acceptons la présence d’un soluté juste après l’unité ou entre les composants de l’unité.
|
Table des matières
Introduction
I Extraction de relations en domaine de spécialité
1 Extraction de relations
1.1 Historique de l’extraction d’information
1.2 Extraction d’information en domaine de spécialité
1.3 Relations : dénitions
1.4 Arité des relations
1.4.1 Relation n-aire
1.4.2 Relation binaire
1.5 Méthodes d’extraction de relations n-aires
1.6 Méthodes d’extraction des relations binaires
1.6.1 Méthodes fondées sur les co-occurrences
1.6.2 Méthodes à base de patrons
1.6.3 Méthodes fondées sur le verbe
1.6.4 Méthodes par apprentissage supervisé
1.7 Simplication de phrases
1.7.1 Simplication de phrases : pourquoi ? comment ?
1.7.2 Simplication de phrases guidée par l’extraction de relations
1.8 Positionnement
II Extraction de relations complexes : application à des résultats ex- périmentaux en physiologie rénale
2 Extraction d’une relation n-aire : un résultat expérimental
2.1 Corpus
2.1.1 Constitution du corpus
2.1.2 Annotation du corpus
2.1.3 Structure des articles
2.1.4 Étude du corpus
2.2 Passage d’un résultat expérimental à une relation n-aire
2.2.1 La ressource termino-ontologique
2.2.2 Représentation de l’ontologie par la base de données
2.2.3 Exemple de représentation d’un résultat expérimental dans la base de données
2.3 Extraire un résultat expérimental
2.3.1 Méthode
2.3.2 Architecture
2.3.3 Lexique
2.3.4 Reconnaissance des résultats quantitatifs
2.3.5 Reconnaissance des descripteurs
2.3.6 Mise en relation des informations extraites
2.4 Évaluations du système d’extraction d’information
2.4.1 Évaluation de l’extraction des valeurs numériques
2.4.2 Évaluation de la complétion du lexique
2.4.3 Évaluation de la mise en relation
2.4.4 Évaluation de l’extraction des résultats expérimentaux dans des tableaux
3 Assistant d’aide à l’annotation d’article et au peuplement de la base de données
3.1 Spécication de l’outil
3.2 Descriptif
3.3 Évaluation utilisateurs
Discussion et conclusion
III Extraction de relations binaires dans le domaine biomédical
4 Extraction de relations comme une tâche de classication
4.1 Outils et matériels
4.1.1 Les SVM : pourquoi ? Comment ?
4.1.2 Les noyaux d’arbres (tree kernels)
4.1.3 Outils
4.1.4 Domaine d’application : extraction de relations dans des comptes rendus cliniques, i2b2 2010
4.1.5 Méthodes d’évaluation
4.2 Étude et modélisation des informations pour l’extraction des relations
4.2.1 Prétraitements
4.2.2 Gestion de la coordination
4.2.3 Les attributs ou comment représenter le contenu de l’information sous forme vectorielle
4.2.4 Étude de la pertinence des attributs
4.2.5 Évaluation de Remed
4.3 Étude de la prise en compte de la syntaxe
4.3.1 Ajout d’information provenant de l’arbre de constituants
4.3.2 Évaluations
4.3.3 Ajout d’informations provenant de l’arbre de dépendances
4.3.4 Évaluation
4.4 Application à deux autres corpus
4.4.1 DDI 2011 : extraction d’interactions entre médicaments
4.4.2 PPI : extraction d’interactions entre protéines
4.5 Conclusion
5 Simplication de phrases pour l’extraction de relations
5.1 Dénition de la simplication
5.2 Simplication à base de règles
5.3 Simplication avec bioSimplify
5.4 Simplier des arbres de constituants
5.5 Apprendre la simplication
5.5.1 Choix du schéma d’annotation
5.5.2 Méthode
5.5.3 Évaluations
5.6 Conclusion
Conclusion
Bibliographie
Télécharger le rapport complet