Télécharger le fichier pdf d’un mémoire de fin d’études
Ressources sémantiques
Pour faciliter l’accès à la quantité de données volumineuse, la conception et le développement des ressources sémantiques (e. g., ontologies, thésaurus, bases lexicales, etc. ) est devenu un des champs de recherche les plus populaires en In-formatique (Bast et al., 2016). En effet, les travaux sur les ressources sémantiques sont de plus en plus répandus dans les différentes communautés comme l’ingé-nierie des connaissances, le traitement automatique du langage naturel, le Web ou la bio-informatique. Les ressources exploitées pour la RI sémantique peuvent être structurées ou non-structurées. Quelques exemples des ressources non-structurées sont des corpus de documents sans l’annotation du sens (e. g., Brown Corpus (Francis, 1971), British National Corpus (Burnard, 1995)) et avec l’annotation sur le sens de mots (e. g., SemCor Corpus (Miller et al., 1993), interest Corpus (Bruce and Wiebe, 1994)). Dans notre travail, nous nous intéressons dans un premier temps aux ressources structurées. Ces ressources peuvent varier d’une liste de termes techniques d’un domaine (une terminologie) à un ensemble structuré des termes et de concepts représentant la connaissance d’un champ d’informations (une on-tologie). Nous présentons dans ce qui suit un aperçu sur les notions de base et la typologie des ressources sémantiques (Zargayouna et al., 2015).
Notions de base
Terme. Un terme est constitué d’un mot ou d’un groupe de mots qui s’ap-plique à un seul objet ou une idée dans un domaine donné. Un terme constitué d’un seul mot (e. g., « animal », « ordinateur ») est dit terme simple ou uni-terme, alors que celui formé de plusieurs mots est appelé terme complexe ou multi-termes (e. g., « caisse d’épargne », « chemin de fer »).
Concept. Un concept, défini comme un élément de la pensée, représente une idée abstraite. Il est la construction mentale qui représente la signification du terme et qui fait référence à l’objet. Un concept terminologique représente la signification normalisée des termes par le biais d’une définition en langue naturelle. Dans un contexte particulier, un concept est exprimé par un terme (simple ou com-plexe). Un seul terme, intitulé parfois « label préféré », est choisi comme étiquette du concept terminologique selon la définition des linguistes. Chaque concept a un seul terme préféré, qui est souvent le nom du concept. Par exemple, le terme « Céphalée » est préféré pour le concept « Céphalée », et les autres termes non-préférés sont « Céphalodynie », « Douleur crânienne », « Mal de tête », etc.
Classe. Dans un langage informatique (e. g., langage objet de représentation des connaissances), un concept peut être représenté par une classe au lieu d’un concept terminologique. La classe est une représentation partielle et orientée du concept. Un concept est représenté par un concept terminologique et/ou une classe. Le concept terminologique est associé à une définition en langue naturelle et des termes synonymes, alors que la classe est associée à l’ensemble des proprié-tés et des relations qui caractérisent le concept (Charlet et al., 2004).
Une classe peut se définir par un ensemble de caractéristiques aussi appelées pro-priétés ou attributs. Les propriétés peuvent avoir des valeurs, qui varient suivant la classe à laquelle on fait référence.
Une classe peut également être définie par l’ensemble de ses instances, autrement dit l’ensemble des objets qui sont caractérisés par cette classe. Par exemple, le « ca-nal du Midi » est une instance de la classe Canal.
Relation. Il existe plusieurs types de relations. La relation lexicale connecte deux termes par un lien de type synonymie, antonymie, hyponymie, hyperony-mie, ou méronymie. Par exemple, les termes « douleur crânienne » et « mal de tête », qui réfèrent au même concept (« Céphalée »), sont dits synonymes.
Les classes sont aussi reliées entre elles par des relations. La relation des classes la plus populaire est la hiérarchie de spécialisation ou de généralisation (e. g., la classe « Animal » est la classe mère de « Chat »). D’autres relations entre classes peuvent être définies en fonction des usages. Par exemple, les classes représentant des objets spatiaux comme « Chemin » sont associées entre elles par une relation d’inclusion spatiale dite de « localisation ».
Typologie des ressources
Nous présentons à ce niveau les différents types de ressources sémantiques en fonction de leur contenu.
Terminologie. Une terminologie, dans le sens d’une ressource sémantique, est un ensemble de termes, rigoureusement définis, qui sont spécifiques à une science, une technique, un domaine particulier de l’activité humaine (Larousse, 2016). Le but essentiel d’une terminologie est de faciliter la gestion et le partage de masses d’informations, en réduisant l’ambiguïté entre les termes d’un domaine. Dans une terminologie, des termes du domaine sont normalisés par la notion de concept. Un terme est la combinaison indissociable 1) d’une expression linguistique représen-tant un mot métier et 2) d’un concept qui représente sa signification. Comme une norme pour un domaine donné est déterminée dans une terminologie de référence, la signification de chaque terme est fixé. Ainsi, il y a une seule interprétation pos-sible pour l’utilisateur. Il existe différentes terminologies alignées aux différents objectifs de traitement de l’information : nomenclature, thésaurus, base lexicale et ontologie.
Nomenclature. Une nomenclature est un ensemble des termes en usage dans une science, un art, ou relatifs à un sujet donné, présentés selon une classification méthodique (Larousse, 2016). Elle représente une instance de classification (code, tableau, liste, règles d’attribution d’identité…) faisant autorité et servant de réfé-rence à une discipline donnée. Il n’y a pas d’arrangement particulier des termes ni de définition explicite ; l’objectif visé est l’exhaustivité. Les concepts d’un domaine sont décrits dans une nomenclature de manière complète sans se restreindre à un objectif spécifique. Un exemple d’une nomenclature importante dans le domaine médical est la Nomenclature Systématique des Médecines Humaine et Vétérinaire (Systematized Nomenclature of Medicine – SNOMED). La SNOMED est une nomen-clature pluri-axiale couvrant tous les champs de la médecine et de la dentisterie humaines, ainsi que de la médecine vétérinaire. Dans chaque axe, les concepts sont représentés par une série de termes au sein de laquelle on peut distinguer une formulation préférée et des synonymes de diverses natures syntaxiques. La Figure 2.1 (extrait du SNOMED CT Browser 1) illustre l’information du concept « Solar degeneration » avec ses termes synonymes comme « Farmer’s skin » ou « Sun damaged skin ».
Thésaurus. Un thésaurus forme un répertoire alphabétique de termes norma-lisés pour l’analyse de contenu, le classement et donc l’indexation de documents d’information. Il aide à la normalisation des mots-clés utilisés dans un système de RI. Ainsi la liste de mots-clés qui représentent le contenu documentaire est construite par des experts (linguistes, documentalistes) à partir des descripteurs dans un thésaurus.
Un thésaurus est constitué d’une structuration hiérarchisée de termes désignant les concepts. Les termes y sont organisés de manière conceptuelle et reliés entre eux par des relations lexicales. Il normalise son vocabulaire pour être cohérent : chaque concept terminologique a un seul terme descripteur et plusieurs termes non descripteurs, et un terme descripteur ne doit être associé qu’à un seul concept. Pour un concept, les termes non descripteurs renvoient aux descripteurs par une relation d’équivalence. On peut trouver dans un thésaurus des informations sur des termes descripteurs (la définition) et ses relations (« synonyme de », « relié à ») à d’autres termes. Un thé-saurus peut fournir aussi les informations comme « des termes plus spécifiques », « des termes plus larges », ou des « termes connexes ». A titre d’exemple, le thésaurus biomédical MeSH (Medical Subject Heading 2) est utilisé pour indexer, classer et rechercher des documents de la base MEDLINE (PubMed) 3. La Figure 2.2 illustre un exemple sur les informations du concept « Headache » telles que « MeSH Hea-ding » (terme descripteur), « Entry Terms » (termes non descripteur ou termes préfé-rés), « Tree Number » (code du concept dans la hiérarchie). La Figure 2.3 présente un extrait de la hiérarchie arborescente dans MeSH.
Base lexicale. L’organisation d’une base lexicale ressemble à celle du thésau-rus. Les termes sont regroupés par un concept terminologique qui est connecté aux autres concepts par des relations lexicales. L’objectif d’une base lexicale est de dis-tinguer tous les sens possibles qu’un terme peut prendre dans un texte et non de sélectionner le sens le plus commun dans un domaine d’étude. WordNet (Miller, 1995) est une base lexicale (initialement en anglais) très utilisée en TALN et RI du fait de sa couverture quasi-totale de la langue anglaise. WordNet couvre la majo-rité des noms, verbes, adjectifs et adverbes structurés en un réseau de nœuds et de liens (Fellbaum, 1998). Les noms, verbes, adjectifs et adverbes sont regroupés par synonyme, appelés synsets qui expriment un concept terminologique distinct. Chaque synset représente un sens unique d’un mot particulier. La relation de base entre les termes d’un même synset est la synonymie. Les synsets sont reliés entre eux par des relations lexicales : l’hyperonymie/hyponymie, la méronymie, l’anto-nymie, etc. Ontologie. En philosophie, l’ontologie est une étude de l’être en tant qu’être, indépendamment de ses déterminations particulières. En informatique, ce terme est repris dans les années 90, par la première définition : « une ontologie est une spécification d’une conceptualisation » (Gruber, 1993). Ainsi, une ontologie est une description des concepts et des relations qui existent pour un objet ou un ensemble d’objets. L’objectif principal d’une ontologie, comme celui d’une terminologie en général, est de partager et de réutiliser des connaissances d’un domaine donné. Dans une ontologie, un concept est représenté par une classe avec des attributs (ou propriétés). Une classe est peuplée par des instances, qui sont des objets, entités ou événements réels. Ces instances sont reliées par des relations entre eux.
Le développement du Web de données (Linked Open Data) facilite la création et la valorisation des ontologies. La ressource DBpedia (Auer et al., 2007) est une base de connaissance récemment utilisée dans les communauté Web Sémantique, Ingé-nierie de Connaissance ainsi que Recherche d’Information. Elle contient une onto-logie interdomaine qui a été créée manuellement à partir des infoboxes les plus utilisées dans Wikipedia. L’ontologie couvre actuellement 685 classes qui forment une hiérarchie de subsomption et sont décrites par 2 795 propriétés différentes. L’ontologie de DBpedia contient actuellement environ 4 233 000 instances. La Fi-gure 2.4 illustre une partie de la hiérarchie des classes dans l’ontologie de DBpedia.
Un exemple d’une ontologie importante dans le domaine médical est l’ontologie de gènes (GO – Gene Ontology) qui est une ressource terminologique destinée à structurer la description des gènes et des produits géniques dans le cadre d’une ontologie commune à toutes les espèces. La base GO est conçue comme un graphe orienté acyclique, chaque terme étant en relation avec un ou plusieurs termes du même domaine, et parfois d’autres domaines.
Méthodes de RI basées sur l’utilisation des res-sources externes
Les bases lexicales (e.g., WordNet), les thésaurus (e.g., MeSH), les ontologies (e.g., DBpedia) représentent des ressources externes qui fournissent des informa-tions pertinentes sur la sémantique des mots modélisée à travers des objets (e.g. des termes, des entités ou des concepts) et leurs relations associées. Les modèles de RI basés sur ces ressources externes se distinguent des modèles classiques par la prise en compte de la ressource sémantique pour le choix des index ainsi que l’appariement requête-document. Nous présentons dans ce qui suit trois catégo-ries de travaux selon le niveau d’application des ressources sémantiques : la repré-sentation des requêtes, la représentation des documents et l’appariement requête-document.
Représentation des requêtes
La manipulation au niveau de la représentation des requêtes présentée dans cette partie consiste en l’expansion des requêtes initiée par Rocchio (1971). En par-ticulier, l’expansion des requêtes améliore la représentation de la requête initiale d’un utilisateur en y ajoutant des termes utiles, dans le but d’augmenter le rappel. Généralement, les termes d’expansion sont automatiquement sélectionnés à par-tir d’un ensemble de documents renvoyés en premier temps (Lavrenko and Croft, 2017; Rocchio, 1971; Zhai and Lafferty, 2001), qui sont supposés être pertinents. Cette technique s’appelle Pseudo-Relevance Feedback (PRF). Dans notre contexte de travail, nous nous intéressons aux travaux qui visent à reconstruire les requêtes en utilisant les termes et leur relations recensés dans les ressources sémantiques (Wang and Akella, 2015; Amini and Usunier, 2007; Stokes et al., 2009; Fu et al., 2005; Pal et al., 2014; Xiong and Callan, 2015b).
Voorhees (1994) est l’un des premiers auteurs à avoir proposé une approche d’expansion de requêtes avec les concepts et les relations de WordNet. Les synsets de WordNet sont utilisés pour représenter les concepts étendus. Les termes de la requête sont annotés manuellement par le sens approprié. Puis, les termes d’ex-pansion sont rajoutés automatiquement selon les relations dans WordNet comme les synonymes ou les hyponymes. La requête est représentée par un modèle vec-toriel étendu. Ce vecteur est constitué de trois sous-vecteurs de différents types de concepts (ctypes) : (1) les radicaux (stems) des mots simples qui n’existent pas dans WordNet ; (2) les synsets des noms désambiguïsés ; (3) les radicaux des mots désambiguïsés. La similarité entre le document d et la requête q est estimée par la somme des similarités de chaque sous-vecteur ~qi et le vecteur du document d : sim(d, q) = å ai~qi d ctypei~ (2.1)
où ai est une pondération qui correspond à l’importance du type de concepts ctypei. L’expérimentation du modèle sur des collections TREC n’a pas donné des améliorations significatives surtout quand la requête est longue. Cependant, pour les requêtes courtes, l’auteur a constaté que son approche peut apporter des amé-liorations avec l’expansion automatique.
Avec la même application de WordNet, Navigli and Velardi (2003) utilisent l’in-formation sur les sens de mots (Synsets) pour l’expansion des requêtes. Ils ap-pliquent cinq méthodes d’expansion :
1. Expansion par synset : les termes de la requête sont remplacés par leur sens (synsets)
2. Expansion par hyperonyme : les termes de la requête sont augmentés par leur hyperonyme direct
3. Expansion par définition de synset : les termes de la requête sont augmentés par les synsets de leur définition (gloss dans WordNet)
4. Expansion par définition de terme : les termes de la requête sont augmentés par les termes dans leur définition
5. Expansion par nœuds en commun : les termes de la requête sont augmentés par les termes qui ont les mêmes synsets (les termes synonymes)
L’expérimentation est menée en utilisant la collection de TREC Web 2001, Word-Net et le moteur de recherche Google. Les auteurs affirment que l’expansion avec des synonymes et des hyperonymes a un effet limité sur la performance de re-cherche d’information sur le Web. Ils suggèrent que d’autres types d’informations sémantiques dérivables d’une ontologie sont plus efficaces, par exemple des mots de la définition et des nœuds communs. En effet, ils trouvent que les mots dans le même domaine sémantique et le même niveau de généralité sont les meilleurs candidats à l’expansion. La ressource sémantique est utilisée pour extraire la sé-mantique d’un mot, puis la requête est étendue en utilisant des mots co-occurrents. L’efficacité de l’utilisation des ressources pour améliorer la performance dépend du type de tâche (i. e., recherche par sujet et recherche par site) et de la longueur de la requête. Avec la même remarque que Voorhees (1994), Navigli and Velardi (2003) concluent que l’expansion des requêtes convient aux requêtes courtes. Baziz et al. (2003) exploitent les relations de synonymie et de hyperonymie de WordNet. Les auteurs limitent l’expansion à un ensemble de concepts (mono ou multi-termes) accessibles par des liens ontologiques à partir d’un concept de re-quête. Le processus d’expansion se déroule en trois étapes :
1. Lemmatisation et étiquetage des mots de la requête : lors de l’identification des concepts, les groupes nominaux de la requête sont projetés sur WordNet et les plus longs (couvrant le maximum de mots non vides de la requête) sont conservés.
2. Exploitation des relations sémantiques : détection de termes ou multi-termes liés à ceux de la requête par la synonymie, l’hyperonymie (généralisation et spécialisation).
3. Pseudo-désambiguïsation par superposition : lorsque plusieurs concepts (synsets) ont la même valeur de similitude avec la requête, les concepts ayant le plus grand nombre de mots différents sont retenus.
Cette approche d’expansion est expérimentée sur la collection de CLEF 2001 en utilisant le moteur de recherche Mercure (Boughanem, 1992). Les auteurs ont mon-tré une amélioration significative en termes de précision par rapport au système de recherche sans expansion.
Fu et al. (2005) présentent des techniques d’expansion des requêtes spatiales basées à la fois sur une ontologie du domaine et sur une ontologie géographique (geo-ontologie). L’ontologie du domaine modélise les terminologies d’un domaine d’application et est utilisée pour résoudre l’aspect « quoi » d’une requête. L’aspect « où » de la requête est traité avec la géo-ontologie, qui est construite pour four-nir une structure de connaissance de l’espace géographique intéressé. Contraire-ment aux techniques d’extension de requêtes basées sur des termes, les techniques proposées par Fu et al. (2005) permettent d’étendre une requête en essayant de déduire son territoire, et cela est spécialement conçu pour résoudre une requête spatiale. Le territoire d’une requête concerne l’espace de recherche spatiale d’une requête. Différentes sources d’évidence telles que les types de termes spatiaux encodés dans la géo-ontologie, les types de termes non-spatiaux encodés dans l’ontologie de domaine, la sémantique des relations spatiales, leur contexte d’utili-sation et la satisfaction du résultat de la recherche initiale sont pris en compte pour effectuer l’expansion d’une requête spatiale. Les expérimentations ont montré que cette méthode permet d’améliorer la performance de la recherche.
Pal et al. (2014) proposent une technique d’expansion de requête utilisant des mots extraits de plusieurs sources d’information. Ils choisissent les termes d’ex-pansion candidats à partir d’un ensemble de documents pseudo pertinents ; ce-pendant, le profit de ces termes est mesuré en fonction de leurs définitions four-nies dans une ressource lexicale manuscrite comme WordNet. Pour chaque mot d’une requête, les termes d’expansion candidats sont choisis dans les premiers documents renvoyés pour cette requête. Plusieurs méthodes d’expansion des re-quêtes ont prouvé que les documents pseudo pertinents sont les bonnes sources de termes d’expansion candidats (Carpineto et al., 2001; Xu and Croft, 2000; Amati and Van Rijsbergen, 2002). L’importance de la similarité entre un terme candidat tc et un terme ti de la requête est calculé sur le nombre de mots en commun dans la définition, qui se trouve dans WordNet, de ces termes. Le score de relation entre les termes Rel(tc, ti) est calculé sur ce nombre de mots en commun en utilisant l’indice de Jaccard ou l’indice de Sørensen-Dice. Le score final d’expansion de chaque terme candidat tc est combiné avec son score de relation Rel(tc, ti), son id ftc et le score de similarité sim(d, q) entre la requête et les documents pseudo pertinents contenant ce terme. maxd0 2 PRDq sim(d0 , q) d2PRD score(tc, ti) = Rel(tc, ti) id ftc å sim(d, q) (2.2)
où sim(d, q) dénote le score de similarité entre le document d et la requête q ; PRDq est l’ensemble de documents pseudo pertinents de la requête q
Les auteurs ont expérimenté les combinaisons de leur méthode avec celles propo-sées par Pal et al. (2013). Les résultats montrent que la combinaison de diverses méthodes semble bien fonctionner et donne des résultats qui sont meilleurs que les méthodes individuelles impliquées dans la combinaison.
Xiong and Callan (2015b) proposent deux algorithmes basés sur la catégori-sation de mots dans FreeBase comme les ressources sémantiques externes pour entraîner les représentations des catégories. Ils examinent deux approches pour effectuer l’expansion de la requête, une non-supervisée et une supervisée.
Ils effectuent l’expansion non-supervisée de la requête avec les ressources séman-tiques externes pour entraîner les représentations des catégories en deux étapes : annotation sémantique et sélection de terme. Ils implémentent deux approches pour l’annotation sémantique, soit récupérer les noms d’entité de FreeBase comme les ressources sémantiques externes pour entraîner les représentations des catégo-ries directement via Google Search API, soit filtrer dans l’annotation FACC1 4 avec un calcul de score pour les entités. Une fois que les textes sont annotés, les auteurs développent ensuite deux méthodes pour sélectionner les termes d’expansion de-puis les entités identifiées : (1) sélection par PRF et (2) sélection par Catégorie. Etant donné l’ensemble entités E dont chaque entitié ek 2 E a un score r(ek), la première méthode calcule un PRF appliqué sur la description des entités. Le score d’un terme candidat tc est calculé comme suit : desc(e ) ) j k j d f (t c ek 2E score(t c ) = å t f (desc(ek), tc) r(e k ) log jERj (2.3)
Représentation des documents
L’application des ressources sémantiques au niveau de la représentation des documents peut se traduire par deux approches principales : l’expansion concep-tuelle des documents (Chalendar et al., 2002; Gobeill et al., 2008; Agirre et al., 2010) et l’indexation conceptuelle des documents (Baziz et al., 2005; Chahine et al., 2011; Gupta et al., 2017). Comme l’expansion des requêtes, les techniques d’expan-sion/indexation conceptuelle de documents ont été abordées dans la littérature de la RI pour réduire le fossé sémantique entre les documents et les requêtes. Tandis que l’expansion des requêtes vise à augmenter le rappel en ajoutant les termes utiles qui sont absents dans la requête, l’expansion et l’indexation conceptuelles des documents aident à améliorer la précision par l’indexation avec les concepts au lieu des termes ambigus.
Baziz et al. (2005) déclarent que la recherche d’information basée sur la ressource sémantique est encourageante pour améliorer la qualité des résultats puisque la sémantique des documents est capturée. Dans leur modèle, le contenu du docu-ment est représenté à l’aide d’un réseau sémantique optimal. Plus précisément, les termes du document sont d’abord projetés sur la base lexicale WordNet afin d’identifier les sens (ou concepts) correspondants. Un terme est dit ambigu quand il correspond à plus d’un sens dans WordNet. Les auteurs proposent une approche de désambiguïsation basée sur le principe que, parmi les différents sens possibles (concepts candidats), le sens le plus approprié pour un terme donné est celui qui est connecté avec la plupart des autres sens du même document. Leur approche consiste à affecter un poids à chaque concept candidat en sommant les valeurs de similarité entre celui-ci et les autres concepts candidats (correspondant aux dif-férents sens des autres termes du document). Les concepts sont pondérés par la fréquence conceptuelle CF IDF, où la fréquence de concept CF (dans un docu-ment) est définie comme suit : CF(c) = Count(c) + å length(sc) Count(sc) (2.8)
où Count(c) est le nombre d’occurrences du concept candidat c dans le document, length(c) est la taille du concept c en mots, sc(c) fournit le nombre des sous-concepts de c correspondant à des entrées du réseau et sc est un sous-concept. Le concept ayant le poids le plus élevé est retenu comme sens approprié du terme as-socié. Finalement, le document est représenté comme un réseau de concepts (sens)
Réseaux de neurones : concepts de base
Inspirés des systèmes nerveux biologiques, les réseaux de neurones artificiels sont conçus pour reconnaître des modèles de comportement dans les données. L’objectif est d’apprendre le modèle qui permet d’encoder toutes les données du monde réel (e. g., image, son, texte) en un vecteur numérique. Les réseaux de neurones sont construits selon le paradigme du neurone formel qui est introduit par Lettvin et al. (1959). La Figure 3.1 illustre les parties équivalentes entre un neurone biologique (A) et un neurone formel (B).
Les réseaux de neurones sont eux-mêmes des approximations de fonctions géné-rales, c’est pourquoi ils peuvent être appliqués à presque tous les problèmes d’ap-prentissage automatique où le problème est d’apprendre un alignement complexe entre l’espace d’entrée et l’espace de sortie. Un réseau de neurones fonctionne, dans un premier temps, à partir d’exemples pour apprendre les composants (pa-ramètres) du réseau à l’aide d’une fonction objectif qui détermine une erreur d’ap-prentissage (phase feed-forward). Dans un second temps, le réseau propage cette erreur en arrière pour corriger les paramètres (phase back-propagation).
Le but de cette section est de rappeler quelques notions de base des réseaux de neurones (plutôt pour la classification et la régression) sans passer par les prin-cipes statistiques fondamentaux sous-jacents. Les principes et les notions plus complets et détaillés peuvent être trouvés dans Goodfellow et al. (2016). Nous présentons dans ce qui suit les quatre notions principales : modèle d’un neurone, architecture de réseau, fonction objectif et algorithme d’entraînement.
Modèle d’un neurone
Un réseau de neurones consiste en des nœuds de calcul reliés entre eux par des liens dirigés et pondérés. Les nœuds représentent les neurones, les liens pon-dérés représentent la force, appelée poids, des connexions synaptiques reliant les neurones. Un neurone peut être un sommateur des potentiels des signaux synap-tiques qui lui parviennent, et transmet une information basée sur cette somme via une fonction de transfert de préférence non linéaire.
Un modèle d’un seul neurone, souvent appelé perceptron, est un modèle mathé-matique qui reçoit l’information sous la forme d’un ensemble de signaux d’entrée numériques. Ces informations sont ensuite intégrées à un ensemble de paramètres libres pour produire un message sous la forme d’un seul signal de sortie numé-rique. Considérons l’architecture d’un perceptron (cf. la Figure 3.2). On identifie trois parties essentielles qui transforment des signaux entrants (x1, …, xn) en une seule valeur de sortie y :
— Un ensemble de paramètres libres q, qui consiste en un vecteur des poids (w1, …, wn) et un biais b.
— Une fonction de combinaison S, qui combine les entrées avec les paramètres libres pour produire une valeur appelée l’état interne.
— Une fonction d’activation f, qui prend la valeur combinée de S et produit la valeur sortie y.
Paramètres libres
Les paramètres libres permettent au modèle de neurone d’être entraîné pour accomplir une tâche. Dans cet exemple de perception, l’ensemble de paramètres libres q est : q = (b, w) 2 R Rn (3.1) où w = (w1, …, wn) est le vecteur des poids synaptiques qui sont associés au vec-teur des entrées x de taille n, et b est appelé le biais. Le biais est souvent représenté par un poids synaptique q0 relié à une entrée imaginaire x0 fixée à 1.
Descente de gradient
Il existe de nombreux algorithmes d’apprentissage différents pour les réseaux de neurones. Généralement, les algorithmes d’apprentissage corrigent le réseau de neurones par le principe de rétropropagation : calculer le terme de correction à partir de l’erreur (souvent la dérivée de la fonction de coût) pour chaque neu-rone, de la dernière couche vers la première. La descente de gradient, également appelée rétropropagation du gradient, est l’un des algorithmes les plus populaires pour réaliser l’optimisation des réseaux de neurones. La descente de gradient est un moyen de minimiser la fonction de coût J(q) en mettant à jour les paramètres dans le sens inverse du gradient rJ par rapport aux paramètres libres q. Le taux d’apprentissage a détermine la grandeur des pas qu’on fait pour atteindre un mi-nimum (local ou global). La valeur des paramètres q à l’itération t est calculée par : qt = qt 1 a rJ(q) (3.7)
Il existe trois variantes de la descente de gradient, qui diffèrent par la quantité d’exemples (échantillons) d’entrée utilisés pour calculer le gradient de la fonction de coût. En fonction de la quantité d’exemples donnés, il y a un compromis entre la qualité de la mise à jour des paramètres et le temps nécessaire pour effectuer une mise à jour.
Descente de gradient par lots
Le gradient de la fonction de coût est calculé sur l’ensemble de tous les exemples d’entrée x et leur étiquette y. Comme le gradient est calculé sur l’ensemble des données pour effectuer une seule mise à jour, la descente de gradient par lots peut être très lente et même est impossible pour les paquets de données qui ne tiennent pas dans la mémoire. La descente de gradient par lots ne permet pas non plus de mettre à jour le modèle « en ligne », c’est-à-dire avec de nouveaux exemples à la volée.
Descente de gradient stochastique (SGD)
La mise à jour des paramètres est effectuée par un tirage aléatoire de chaque exemple d’apprentissage x(i) et de son étiquette y(i). Tandis que la descente de gradient par lots effectue des calculs redondants pour un grand ensemble de don-nées, la SGD supprime cette redondance en effectuant une mise à jour à chaque fois. Elle est donc généralement beaucoup plus rapide et peut également être uti-lisée pour apprendre en ligne.
Descente de gradient par mini-batch
Descente de gradient par mini-batch : il s’agit de la meilleure solution combi-nant les deux approches précédentes. La mise à jour est effectuée pour chaque mini-batch (sous-ensemble) k de données en entrée. Autrement dit, une itération est réalisée sur un mini-batch d’exemples de taille k. De cette façon, elle (1) réduit la variance des mises à jour des paramètres (par rapport à la SGD), ce qui peut conduire à une convergence plus stable ; et (2) peut utiliser des optimisations ma-tricielles hautement optimisées qui rendent le calcul du gradient beaucoup plus efficace (par rapport à la descente par lot).
Optimisation de descente de gradient
La descente de gradient ne garantit pas une meilleure convergence et ainsi pose quelques défis à relever (Ruder, 2016) :
— Le choix du taux d’apprentissage est une question importante. Un taux d’ap-prentissage trop élevé peut empêcher la convergence et faire varier la fonc-tion de coût autour du minimum ou même diverger, tandis qu’un taux d’ap-prentissage trop faible conduit à une convergence extrêmement lente.
— En général, pour éviter de fournir les exemples d’apprentissage dans un ordre significatif au modèle, car cela pourrait biaiser l’algorithme d’appren-tissage, il vaut mieux mélanger les données d’apprentissage après chaque époque.
— Lors de la minimisation des fonctions de coût non-convexes pour les réseaux de neurones, une grande difficulté est d’éviter leurs minimums locaux sous-optimaux. En effet, Dauphin et al. (2014) mettent en évidence que la plus grande difficulté vient des points-selles, c’est-à-dire des points où une di-mension est inclinée vers le haut et une autre vers le bas. Ces points-selles sont généralement entourés d’un plateau de la même erreur, ce qui les rend particulièrement difficiles à éviter, car la pente est proche de zéro pour tous les points aux alentours.
Pour traiter les défis mentionnés ci-dessus, plusieurs algorithmes d’optimisa-tion sont proposés et largement utilisés par la communauté d’apprentissage pro-fond. Nous citons ici quelques méthodes les plus répandues dans la communauté comme : Adagrad (Duchi et al., 2011), AdaDelta (Zeiler, 2012), ADAM (Kingma and Ba, 2014).
Réseaux de neurones et représentations de textes
Les réseaux de neurones sont connus pour leur capacité à construire des vec-teurs dans un espace latent pour capturer les informations de différents types (e. g., images, son, texte). Dans le contexte de notre thèse, on s’intéresse aux mo-dèles neuronaux pour apprendre les représentations distributionnelles de textes.
Ces modèles, qui se basent sur la théorie du modèle de langue pour apprendre à prédire des mots sachant leur contexte, sont nommés des modèles de langue neu-ronaux. Ces modèles de langue neuronaux, considérés comme une variété des mo-dèles basés sur la sémantique distributionnelle, ont montré qu’ils surpassent les modèles basés sur les statistiques tels que Hyperspace Analog to Language (HAL) (Lund and Burgess, 1996), Latent Semantic Analyse (LSA) (Deerwester et al., 1990), sur les tâches d’analogie des mots et de relations sémantiques (Baroni et al., 2014). Bengio et al. (2003) ont été les premiers à proposer un modèle de langue neuronal en introduisant l’idée d’apprendre simultanément un modèle de langue qui prédit un mot compte tenu de son contexte et de sa représentation, appelée « word embed-ding ». Cette idée a été adoptée depuis par de nombreuses études. Les modèles de représentations distribuées les plus connus, Word2Vec (Mikolov et al., 2013a) et GloVe (Pennington et al., 2014), ont été largement utilisés dans des travaux récents dans plusieurs domaines, y compris TALN et RI. Le succès des représentations de mots (word embeddings) a également donné lieu à des travaux sur l’apprentissage des représentations distribuées pour des plus grandes unités textuelles, y compris les paragraphes et les documents (Le and Mikolov, 2014).
Cependant la sémantique distributionnelle présente des limites : (1) elle ne per-met pas de lever le problème de polysémie puisque tous les sens d’un même mot sont représentés dans un seul vecteur (Iacobacci et al., 2015; Yaghoobzadeh and Schütze, 2016) ; en revanche ces sens sont bien distingués dans une ressource struc-turée ; (2) des similarités explicites entre mots telles qu’elles sont établies dans une ressource externe peuvent ne pas l’être par l’approche de comptage distributionnel si leur apparition dans les mêmes contextes est insuffisante dans le corpus ; (3) des vecteurs de représentation distribuée de mots peuvent s’avérer peu lisibles en ce sens qu’ils ne sont pas alignables avec des ressources externes ; à titre d’exemple, Mrkši´c et al. (2016) ont montré que le mot « cheaper » se retrouve dans les mots plus proches du mot « expensive », en utilisant le vecteur de représentation Glove (Pen-nington et al., 2014). Pour aborder ces problèmes, un grand nombre de travaux exploite les ressources sémantiques pour améliorer les représentations de mots. Iacobacci et al. (2015); Yamada et al. (2016); Liu et al. (2016); Mrkši´c et al. (2016). L’intuition de ces approches est d’injecter la connaissance portée par les concepts et leurs relations pour pallier le problème de polysémie ou/et régulariser les repré-sentations avec les relations comme la synonymie, l’antonymie, etc. Ces approches permettent d’obtenir des représentations incluant les différents sens d’un seul mot, ou aussi des représentations de concepts/entités alignées avec celles qui sont is-sues de la ressource externe.
Les méthodes d’évaluation de la qualité des représentations se répartissent en deux grandes catégories : l’évaluation intrinsèque et l’évaluation extrinsèque. Les évaluations intrinsèques testent directement les relations syntaxiques ou séman-tiques entre les mots. Ces tâches impliquent généralement un ensemble présélec-tionné de termes de la requête et de mots cibles sémantiquement liés avec un score, que nous appelons inventaire de requête. Les collections les plus utilisées sont WordSim-353 (Finkelstein et al., 2001), MEN (Rubenstein and Goodenough, 1965), RG-65 (Bruni et al., 2012). Dans l’évaluation extrinsèque, on utilise les représen-tations de mots comme éléments d’entrée d’une tâche dédiée comme l’étiquetage grammatical, l’annotation sémantique (Pennington et al., 2014) ou la recherche d’information, puis on observe les changements dans les mesures de performance spécifiques à cette tâche.
Nous détaillons dans cette section les principaux travaux liés à l’apprentissage des représentations de textes ainsi que leurs différents niveaux de granularité, à savoir les mots, les concepts, les documents. Ces travaux sont présentés en deux grandes catégories : la première catégorie apprend des représentations directe-ment et seulement depuis le texte du corpus, la seconde catégorie combine la sémantique distributionnelle venant du corpus et la sémantique relationnelle re-censée dans les ressources sémantiques.
Représentations distribuées de textes
Représentation des mots
Modèle de langue neuronal
Les premiers modèles de langue neuronaux n’avaient pas pour objectif premier d’apprendre la représentation distribuée des mots. Cependant, les expérimenta-tions ont démontré que la couche composante des représentations, qui aborde le problème de dimensionnalité des vecteurs de termes en entrée, fournit des re-présentations distribués utiles, que l’on appelle embedding en anglais. Le premier modèle de langage neuronal, publié par Bengio et al. (2003) est appelé Neural Net-work Language Model (NNLM). Son architecture générale est présentée dans la Figure 3.5.
Pour rappel, un modèle de langue calcule la probabilité d’obtenir un ensemble de mots P(w1, w2, …, wm) par l’équation suivante (Ponte and Croft, 1998) : m P(w1, w2, …, wm) = Õ P(wt j w1, . . . , wt 1) (3.8)
Les modèles de langue probabilistes généralement approximent la probabilité P(wt j w1, . . . , wt 1) en considérant seulement un contexte réduit de taille n qui précède wt : m P(w1, w2, …, wm) Õ P(wt j wt n, . . . , wt 1) (3.9)
Dans les modèles de langue neuronaux, la probabilité P(wjc) d’un mot w qui suit le contexte c (une séquence de mots qui précède le mot w) est calculée par un réseau de neurones. Le réseau de neurones prend un contexte c et calcule la probabilité conditionnelle P(wjc) de chaque mot w dans le vocabulaire V de la langue : åw02V exp(sq (w0, c)) P(wjc, q) = exp(sq (w, c)) (3.10) où sq (w, c) est le score de neuronal pour un mot w compte tenu du contexte c, calculé par la propagation du contexte c à travers le réseau avec l’ensemble de paramètres q. La probabilité P(wjc) est calculée par la fonction exponentielle nor-malisée (softmax) sur les scores sq (w, c) de tous les mots du vocabulaire.
Le réseau est entraîné sur tous les mots wt dans le texte T d’un corpus, en utilisant un algorithme d’optimisation basé sur la descente de gradient, avec la fonction de coût : (wt ,c)2T J(q) = å log P(wtjc, q) (3.11)
Par exemple, pour une séquence de mots (w1, w2, w3, w4), l’entrée du réseau consiste en les vecteurs de termes (l’indice dans le vocabulaire) des mots dans le contexte c = (w1, w2, w3) pour prédire la sortie w4. La dimension d’un vecteur de termes est 1 jVj et la taille de la matrice des représentations E est jVj d, où d est la taille de l’espace latent des représentations. Autrement dit, la ie ligne de la matrice E est le vecteur de représentation de taille d pour le ie mot du vocabulaire. Cette représentation d’un mot est obtenue en multipliant son vecteur de termes par la matrice E. Ainsi, chaque mot du contexte (w1, w2, w3) est assigné à une représentation (e1, e2, e3) de taille réduite d par rapport à la taille originale V.
La couche latente h prend les représentations (e1, e2, e3) et forme un seul vecteur latent hc du contexte c par une activation non-linéaire (tanh). Puis, en propageant vers la couche sortie, le vecteur latent h est multiplié avec la matrice des poids E0 j j ~ 0 de taille d V pour calculer sq (w, c) = tanh(hc E) , le score de compatibilité d’un mot w compte tenu du contexte c. Ce score est utilisé pour calculer la probabilité P(wjc) selon le modèle de langue neuronal.
Optimisation d’apprentissage des modèles de langue neuronaux
Notons qu’avec la normalisation par softmax (Equation 3.10), on obtient ainsi un modèle de langue probabiliste correctement normalisé. Cependant, ce calcul est coûteux, car il doit calculer et normaliser la probabilité de tous les autres mots dans le contexte actuel, à chaque itération. Pour aborder ce problème, plusieurs solutions sont introduites.
Morin and Bengio (2005); Mnih and Hinton (2009) proposent la méthode soft-max hiérarchique (SH) pour un calcul efficace de la fonction softmax. Le mo-dèle utilise un arbre binaire pour représenter tous les mots du vocabulaire. Les V mots doivent être des feuilles de l’arbre. On peut prouver qu’il y a jVj 1 nœuds intérieurs. Le softmax hiérarchique permet d’améliorer l’efficience de l’entraîne-ment puisque le vecteur de sortie est déterminé par une traversée arborescente des couches du réseau ; pour un exemple d’entraînement donné, le réseau ne doit cal-culer que O(log2(jV j)) au lieu de O(jVj). Pour chaque feuille, il existe un chemin unique de la racine à la feuille et ce chemin est utilisé pour estimer la probabilité du mot représenté par cette feuille. La Figure 3.6 montre un exemple de l’arbre pour la méthode SH.
|
Table des matières
1 contexte et contribution de la thèse
1 Contexte et problématique
1.1 Contexte de la thèse
1.2 Problématique de la thèse
2 Contributions
3 Organisation de la thèse
i synthèse des travaux de l’état de l’art
2 recherche d’information et ressources sémantiques
1 Ressources sémantiques
1.1 Notions de base
1.2 Typologie des ressources
2 Méthodes de RI basées sur l’utilisation des ressources externes
2.1 Représentation des requêtes
2.2 Représentation des documents
2.3 Appariement requête-document
3 réseaux de neurones et recherche d’information
1 Réseaux de neurones : concepts de base
1.1 Modèle d’un neurone
1.1.1 Paramètres libres
1.1.2 Fonction de combinaison
1.1.3 Fonction d’activation
1.2 Architecture de réseau
1.3 Fonction objectif
1.4 Algorithme d’entraînement
1.4.1 Descente de gradient
1.4.2 Optimisation de descente de gradient
2 Réseaux de neurones et représentations de textes
2.1 Représentations distribuées de textes
2.1.1 Représentation des mots
2.1.2 Représentation des phrases, paragraphes
2.2 Représentations distribuées de textes augmentées par des ressources externes
2.2.1 Apprentissage en ligne des représentations de textes
2.2.2 Apprentissage a posteriori des représentations
2.3 Utilisation des représentations distribuées de texte en RI xiiixiv table des matières
2.3.1 Utilisation dans l’appariement document-requête
2.3.2 Utilisation dans l’expansion de la requête
3 Réseaux de neurones profonds pour la RI
3.1 Modèles basés sur la représentation
3.2 Modèles basés sur les interactions
ii propositions des modèles neuronaux en ri
4 apprentissage des représentations du texte
1 Contexte et motivations
2 Notation
3 Apprentissage hors ligne de représentations de documents
3.1 Apprentissage de représentations basées sur le texte des documents
3.2 Apprentissage de représentations conceptuelles des documents
3.3 Rapprocher deux espaces de représentations latentes
4 Apprentissage en ligne tripartite
4.1 Architecture du réseau de neurones
4.2 Mécanismes d’apprentissage du réseau
4.2.1 Apprentissage de représentations de documents, de mots et de concepts
5 Intégration des contraintes relationnelles
5.1 Relation entre les mots et les concepts
5.2 Contrainte intégrée par régularisation de la fonction objectif
5.2.1 Intégration dans le modèle hors ligne
5.2.2 Intégration dans le modèle en ligne
5.3 Contrainte exprimée dans les instances d’apprentissage
5.3.1 Intégration dans le modèle hors ligne
5.3.2 Intégration dans le modèle en ligne
6 Cadre expérimental
6.1 Jeux de données et ressources sémantiques
6.2 Tâche d’évaluation TALN
6.2.1 Similarité des mots
6.2.2 Similarité des phrases (SentEval)
6.2.3 Similarité des documents
6.3 Tâche d’évaluation RI
6.3.1 Réordonnancement de document
6.3.2 Expansion de requête
6.4 Modèles de référence
6.5 Scénarios d’évaluation
6.6 Détails d’implémentation
7 Résultats d’évaluation
7.1 Evaluation des modèles sans contrainte de relations
7.1.1 Efficacité par rapport aux modèles de référence
7.1.2 Evaluation comparative des modèles hors ligne vs. en ligne
7.2 Evaluation des modèles avec contrainte de relations
8 Bilan
5 modèle neuronal pour la ri
1 Contexte et motivations
2 Modèle neuronal d’appariement augmenté par une ressource sé- mantique
2.1 Représentation vectorielle de la sémantique relationnelle
2.1.1 Notations
2.1.2 Hypothèses de modélisation
2.1.3 Espace de représentation des objets
2.1.4 Représentation symbolique de texte guidée par les ressources sémantiques
2.2 Architecture du réseau de neurones
2.2.1 Vecteur d’entrée
2.2.2 Apprentissage de la représentation latente
2.2.3 Fonction de coût
3 Expérimentation et résultats
3.1 Jeux de données
3.2 Détails d’implémentation et protocole d’évaluation
3.3 Analyse de la représentation sémantique
3.3.1 Modèles de référence
3.3.2 Résultats et Discussion
3.4 Evaluation de l’efficacité du modèle
3.4.1 Modèles de référence
3.4.2 Résultats et Discussion
4 Bilan
Conclusion
CONCLUSION GENERALE
bibliographie
Télécharger le rapport complet