Les systèmes de recherche d’information & les Ontologies

Les Systèmes de Recherche d’Information & les Ontologies

Introduction

Après le succès d’utilisation des ontologies dans le domaine de représentation des connaissances, les chercheurs de domaine informatique sont en concurrence pour les intégrer dans les déférents domaines comme par exemple l’ingénierie des connaissances, le traitement du langage naturel (NLP), les systèmes d’informations coopératives, l’intégration intelligente d’information, la gestion des connaissances et la RI qui est le domaine qui nous intéresse dans le cadre de cette thèse. Cette intégration dans les SRI est liées principalement à la manipulation des connaissances partagées par les ontologies afin de doté ces systèmes par un peu de sémantique et ainsi diminuer la divergence entre le besoin de l’utilisateur et les réponses système. Une fois l’ontologie choisie, la connaissance qu’elle représente peut être utilisée à différents niveaux dans le processus de RI. Elle peut aider à l’indexation des documents appelée aussi IS. Les ontologies peuvent également aider à la formulation du besoin de l’utilisateur et à l’accès aux documents. Enfin l’ontologie peut être utilisée dans le modèle lui même pour réaliser l’appariement entre le besoin et les granules documentaires. Ces aspects sont présentés dans la section 2. L’intégration des ontologies dans ces processus est principalement basée sur l’exploitation des notions de mesures de similarités entre concepts de l’ontologie. La section 3 aborde le problème de la désambigüisation. La dernière section 4 est consacrée à l’étude de l’apport des ontologies dans les SRI.

Ontologies et recherche d’information

Un des enjeux actuels de la RI est de développer des systèmes capables d’intégrer plus de sémantique dans leurs traitements. L’idée est d’avoir une solution au problème de confusion entre le besoin de l’utilisateur exprimé par une requête et le domaine exprimé par une collection de documents, autrement parlé le même langage. Pour cela les ontologies interviennent afin d’améliorer la qualité des documents restitués par les SRI .

Utilisation des Ontologies pour la Recherche d’Information collection

Elles sont utilisées pour représenter des descriptions partagées et plus ou moins formelles de domaines et ainsi ajouter une couche sémantique aux systèmes informatiques. La question qui se pose à ce niveau est : Dans le domaine de la RI électronique tel qu’il est connu actuellement en utilisant des SRI, comment une ontologie peut-elle être associée au processus de RI ? Autrement, à quel niveau de SRI l’ontologie peut intervenir ?

Le choix d’une ontologie

La majorité des approches de RI cherchent à intégrer une ontologie existante déjà dans leur processus [Hearst, 97][Vallet, 05][Baziz, 05]. De façon générale, le seul critère prise en compte pour le choix de l’ontologie est le domaine de connaissance représentée dans l’ontologie qui doit couvrir le domaine traité dans le corpus. C’est le cas par exemple du système Cat-a-cone qui repose sur la hiérarchie de concepts du domaine de la médecine MESH [Hearst, 97] pour explorer une collection documentaire du même domaine, ou bien des travaux présentés dans [Baziz, 05] qui repose sur l’ontologie générale WordNet pour une tâche de RI ad-hoc sur une collection de TREC6. L’évaluation de la réutilisabilité d’ontologie pour la RI se place dans ce contexte. Les ontologies utiles pour la RI doivent être adaptées à la tâche de RI considérée et plus particulièrement apporter de la connaissance utile pour l’interprétation et la compréhension par le système des informations contenues dans le corpus documentaire. Une première solution vise à construire une ontologie à partir du ou des corpus sur lesquels les tâches de RI vont être réalisées. Cette solution assure a priori l’adéquation entre l’ontologie construite, le corpus et la tâche à réaliser. Cette solution n’est pas toujours adaptée : elle est coûteuse et ne prend pas en compte l’existence de ressources qui pourraient être réutilisées. Maintenant avec l’avènement de domaine des ontologies, elles sont devenues des standards à réutiliser. Une autre solution très utilisée par la majorité des approches de RI visent à intégrer ces ontologies dans ces approches [Baziz, 05].

Principe d’utilisation des ontologies par un SRI

L’ontologie peut être utilisée dans les différentes phases d’un processus de SRI (voir la figure 2.1), ainsi elle peut être utilisée dans le système d’indexation des documents ainsi des requêtes, dans le processus de filtrage d’information et finalement dans le processus derecherche lui-même, c.à.d. au mécanisme de comparaison entre la représentation de requête et documents de la collection.

L’ontologie et la représentation des documents (Indexation)

L’indexation des documents et requêtes à l’aide des mots neutre prouve qu’elle est insuffisante et ne donne pas des bons résultats [Khan, 00]. Les chercheurs ont pensé d’ajouter un peu de sémantique dans les termes choisis comme des indexes à travers une ontologie. Ce type de traitement s’appel l’IS. L’IS n’est possible que par l’existence et l’utilisation de ressources décrivant explicitement l’information correspondant aux objets. L’utilisation d’ontologies sous forme de hiérarchies de concepts d’ontologies légères7 ou lourdes est le prolongement de l’utilisation dans le cadre de la RI des ressources terminologiques [Haav et Lubi, 01]. L’ontologie utilisée dans ce cas reflétant le ou les domaines de connaissance étudiés à la collection. Dans la littérature, il existe de nombreuses définitions de l’IS. Certains auteurs différencient l’IS de l’Indexation Conceptuelle (IC) [Mihalcea et Moldovan, 00]. Pour eux, L’IC repose sur des hiérarchies de concepts ou ontologies de domaine, alors que l’IS repose sur l’utilisation d’ontologies génériques telles que WordNet. Selon [Baziz, 05] l’IC peut être vue comme une généralisation de l’IS, dans la mesure où les concepts aussi véhiculent des sens. Il sépare l’IS et conceptuelle pour deux raisons :7 Les ontologies dites « légères » contiennent des concepts et des relations entre concepts ainsi qu’un lexique permettant de référencer les concepts et les relations mais n’intègrent pas d’axiomes dans leur formalisation contrairement aux ontologies lourdes.
– (1) la première est due au fait que l’IS en RI se base historiquement sur les techniques de désambiguïsation pour affecter un sens à un mot, alors que l’IC se base sur des méthodes d’identification de concepts dans un corpus textuel (appariement de concept ou concept mapping).
– (2) la seconde raison est que, dans l’IC, la structure conceptuelle utilisée rend possible une extension de la représentation des documents (ou requêtes) via les différentes relations sémantiques qu’elle procure. Nous donnons dans ce qui suit un résumé retraçant les apports des différents travaux concernant l’IS et l’IC en RI.

Indexation Sémantique (Sense Based Indexing)

L’IS est une approche d’indexation basée sur le sens des mots [Mihalcea et Moldovan,  00]. Elle repose sur des algorithmes de désambiguïsation de mots pour indexer les documents et les requêtes avec le sens des mots (mots-sens) plutôt qu’avec des mots simples. Une manière d’indexer serait par exemple, d’associer aux mots extraits, des mots du contexte qui aident à déterminer leur sens. Des travaux cités dans [Baziz, 05] et [Boubekeur, 08] décrivent l’utilisation du sens de mots dans l’indexation, parmi ces travaux on trouve : [Krovetz et al., 92] a pour but de trouver l’existence d’une relation entre, d’une part, la correspondance/non-correspondance des sens, d’autre part la pertinence/non-pertinence des documents restitués. Dans [Voorhees, 93] le synset le plus approprié d’un mot ambigu est sélectionné à partir de WordNet par le calcul des nombres des mots communs entre le synset et les mots de contexte du mot à désambigüiser. Voorhees a indexé les documents et les requêtes par les synsets des noms pondérés par le schéma tf*idf. Les travaux faites par [Mihalcea et Moldovan, 00] ont pour but d’identifier les termes d’indexations des documents dans l’ensemble des synsets de WordNet (termes synonymes définissant un sens d’un mot). Mihalcea et Moldovan, ont observé une amélioration de 16% dans le rappel et de 4% dans la précision quand ils ont utilisé une combinaison de l’indexation basée sur les mots clés et de l’indexation basée sur les synsets de WordNet. WordNet est utilisé pour déterminer l’appartenance des concepts d’une ontologie à un domaine donné, afin de garantir l’exploitation efficace des ontologies dans les moteurs de recherche [Hernandez et al. [Baziz et al, 04 ; 05] [Baziz, 05] proposent de représenter un document ou une requête par des concepts et des relations entre concepts. Cette approche consiste à projeter le contenu textuel d’un document (ou d’une requête) sur WordNet. L’objectif est d’extraire ses termes simples ou composés figurant dans WordNet. Baziz à proposer aussi une nouvelle formule de pondération « CF*IDF » (CF: Concept Frequency, IDF: Inverse of Document Frequency) adapter pour les termes composés. Dans les démarches de [Xiaomeng et Atle, 06] et [Köhler et al., 06], le lexique de WordNet est utilisé afin de lemmatiser les termes. [Boubekeur et al., 10b] proposent une approche d’IS similaire à [Boubekeur et al., 08] avec une différence au score de désambigüisation et au schéma de pondération des concepts. Le nouveau score de la désambigüisation d’un terme est calculé sur la base de fréquence de ce terme dans le document, et de ses distances sémantiques avec les concepts des autres termes les plus fréquents dans ce document. L’approche a été expérimentée sur la collection Muchmore8 , en utilisant le système Mercure qui est basé sur le modèle connexionniste [Boughanem et al, 92]. Les résultats rapportés présentent un gain de précision de plus de 50% avec les concepts pondérés par Tf*Idf, et des résultats moins précis avec le schéma de pondération des termes composés. [Boubekeur et al., 10b] expliquent cette diminution par le fait que le système Mercure est basé sur le schéma Tf*Idf. [Harrathi et al., 10] proposent une approche d’IS de documents multilingues. Dans cette approche, Les termes simples sont extraits par la méthode d’indexation classique et les termes composés sont identifiés par une mesure statistique qui repose sur la fréquence des mots simples qui apparaissent mutuellement dans le contenu textuel d’un document ou d’une requête. Puis, un processus de désambigüisation ce déclenche pour les termes ambigus. L’approche de Harrathi est évaluée dans un SRI basé sur le modèle du langue proposé par [Maisonnasse et al., 09] et utilisant la ressource médicale UMLS9 (Unified Medical Language System) et la collection de test CLEFmed200710 contenant des documents écrits en trois langues (anglais, français, allemand). Les résultats rapportés présentent un gain de précision moyenne de 5% par rapport à une indexation basée sur les mots clés. [Mallak, 11] propose d’indexer les documents et les requêtes par des clusters de concepts les plus représentatifs de leurs contenus sémantiques. Il utilise la même technique de détection des concepts proposé par Baziz [Baziz et al., 05]. Pour la désambigüisation des concepts [Mallak, 11] a proposé une méthode basée sur la notion de centralité [Mallak, 11 ; Boughanem et al., 10]. Le système de [Azzoug et al., 11] commence par l’extraction des termes descriptifs (mots simples ou composés) à partir des documents (respectivement des requêtes) par le mapping de texte sur WordNet [Azzoug et al., 12]. Puis, la seconde étape consiste à trouver les sens correctes des termes ambigus déjà identifiés par une méthode de désambigüisation sémantique proposé dans [Azzoug et al., 13b] et basée sur WordNet et son extension aux domaines WordNetDomains [Magnini et al., 00]. La méthode de désambigüisation faite par rapport aux domaines d’usage en se basant sur l’idée que les mots de la langue, utilisés dans un même contexte, portent des sens fortement liés sémantiquement traitant un même domaine ou bien des domaines similaires afin de garder uniquement les sens liés au sujet du document par l’utilisation de WordNetDomains, puis utilise WordNet pour désambigüiser sémantiquement les termes de même domaine pour identifier le sens correct du mot dans son contexte, par attribution d’un score basé sur le cumul de ses similarités sémantiques dans WordNet avec les sens des autres mots de même domaine. Le sens approprié est le sens qui a le plus grand score. La dernière étape consiste à pondérer chaque concept par un poids traduisant son degré d’importance dans le texte, pour cela [Azzoug et al., 11] ont proposé deux schémas basés sur la notion de centralité d’un concept [Azzoug et al., 13a], la centralité d’un concept est traduite d’une part par son importance sémantique (exprimé par ses relations sémantiques avec les autres concepts du document) et d’autre part sa fréquence d’occurrence dans le document. [Dinh, 12 ; Dinh et al., 10] présentent une approche d’IS pour le domaine biomédical en utilisant les concepts du thesaurus MeSh11 (Medical Subject Headings). Cette approche commence par l’extraction des concepts à partir d’un document (respectivement une requête) en projetant son contenu textuel sur une liste préétablie de tous les concepts appartenant au thesaurus MeSh. Un score est ensuite affecté à chaque concept candidat du terme en se basant sur sa similarité thématique au texte et sa similarité structurelle définie par le degré de corrélation entre son entré dans le thésaurus et le contexte du terme dans le texte. La méthode s’occupe aussi de désambigüiser les concepts ambigus. Cette approche est évaluée sur la collection des journaux médicaux OHSUMED12. Les résultats obtenus présentent un gain par rapport à ceux obtenus par indexation classique (un gain de performance de 17,35% pour la désambigüisation de proche en proche et de 17,06% avec la désambigüisation basée sur le clustering).

Indexation Conceptuelle

L’IC se base sur des concepts tirés d’ontologies et de taxonomies pour indexer les documents contrairement aux listes de mots simples. Différents types d’ontologies sont utilisés dans le cadre de l’IC. Ces ontologies ne séparent pas les aspects de la connaissance liés au contenu des documents et ceux liés à la tâche de recherche réalisée [Hernandez et al., 08]. Ils existent des approches qui s’appuient sur des ontologies de domaine, ce qui permet de mieux spécifier le langage d’indexation. Parmi ces travaux nous trouvons : Le projet Menelas vise à développer un système permettant d’accéder aux rapports médicaux de centres hospitaliers. Il repose donc sur une ontologie construite à partir des rapports à indexer qui modélise l’ensemble des maladies coronariennes [Zweigenbaum, 93]. Dans la hiérarchie de concept MESH (Medical Subject Heading), la mesure de similarité entre la représentation des requêtes et des documents donne l’avantage à l’ontologie dans le cas où elle est unique pour les deux représentations. La hiérarchie de concept MESH est utilisée pour indexer des documents de la médecine dans [Hearst et Karadi, 97]. khan et al., [khan et al., 04] Proposent une indexation basée sur des concepts d’ontologie de domaine du sport. L’approche commence par l’identification des termes d’indexation à partir du texte, puis la projection de ces termes sur les concepts de l’ontologie de domaine du sport pour déterminer les termes qui correspond à des concepts de l’ontologie. Pour désambigüiser les termes ambigus, khan et al., ont proposé une approche basée sur la distance sémantique par le calcul de score entre le concept ambigu et les autres mots de son contexte. Le score le plus élevé est retenu comme une distance minimale. Le projet CADIS13 cité dans [Kolar et al., 05] qui utilise le thésaurus multilingue EUROVOC (Hiérarchie de 8 niveaux de 6.000 classes touchant 21 domaines différents) comme source de vocabulaire a pour objectif la réalisation d’un outil d’aide à l’indexation manuelle afin de représenter les documents d’un corpus d’une manière uniforme. CADIS n’effectue pas l’indexation automatique de documents, mais il rend plus facile la tâche à l’indexeur humain en fournissant des résultats des techniques de traitement statistique et de langage naturel intégrées. Le système cité dans [Vallet et al., 07], représente les connaissances du domaine de la recherche sous forme d’ontologie. Cette ontologie, associée avec la gestion des préférences utilisateurs, permet d’enrichir les sémantiques évoquées au moment de la RI. [Hernandez et al., 07] proposent un modèle de représentation des objets pédagogiques en utilisant trois ontologies : ontologie de thème pour leurs représentations sémantique, ontologie des tâches pour leurs usages dans les scénarios d’apprentissage et ontologie des théories pédagogiques. [Chang et al., 07] utilise deux ontologies : Une ontologie noyau, construit à partir des métadonnées des ressources, qui représente la sémantique générale des ressources et une ontologie de domaine (Ex : Mathématique de la secondaire). [Aufaure et al., 07] utilisent plusieurs ontologies complémentaires (une ontologie de domaine du tourisme construite manuellement et une ontologie de service) et WordNet. L’ontologie de service est reliée aux tâches du domaine et à chaque concept de l’ontologie de domaine correspond des services, tâches et activités. Pour représenter le contenu des documents, [Boubekeur et al., 08] proposent une approche d’IC basée sur WordNet pour construire le graphe appelé CP-Net14. Après identification des termes (simples ou composés) d’indexation par l’approche classique, ils ont projeté ces termes sur WordNet afin de trouver toutes les entrées qui leurs correspondant. Ensuite, les termes simples sont pondérés par le schéma tf*idf et les termes composés par une mesure probabiliste des sens possibles de ces termes par rapport aux sens adjacents dans WordNet, en tenant compte de leurs fréquences d’occurrences dans le document. La désambigüisation des termes est calculée en fonction de la somme de ses similarités sémantiques avec les sens des autres mots dans le document, en tenant compte des poids de leurs termes respectifs. Finalement, le document (ainsi que la requête) est représenté par un graphe CP-Net, où les nœuds sont les concepts d’indexation retenus et les arcs représentent les relations contextuelles latentes entre ces concepts trouvés en moyen des règles d’association sémantiques.

 Appariement à partir d’ontologies

La phase d’appariement dans un SRI est une étape très importante pour juger la pertinence des documents regroupés pour une requête donnée. L’ontologie peut influencer dans ce processus afin de permettre au SRI de calculer la similarité (appelée aussi similarité sémantique) entre requête et document de façon approché. L’appariement d’ontologie est souvent la recherche d’équivalence A≡B entre deux concepts A et B de deux différentes hiérarchies. A≡B si A  B et B  A. La représentation des concepts comme une conjonction de concepts implique que les concepts ont la forme B = B1 Ainsi AB si et seulement si ABi,  i=1 à k [Hernandez et al., 07]. La méthode présentée dans [Zhao et al., 07] utilise un algorithme de similarité qui prend en considération la représentation sémantique des requêtes et des titres de documents sous forme d’un arbre sémantique construit à partir d’une ontologie de domaine OWTS15.
.
L’ontologie et la reformulation de la requête

Les utilisateurs d’un SRI ne maitrisent pas dans la plupart des cas le domaine recherché où ils expriment leurs besoins difficilement à l’aide d’une requête mal écrite. A ce point, l’ontologie intervient pour aider l’utilisateur à formuler sa requête par l’ajout de nouveaux termes et/ou ré-estimer leur poids afin d’exploiter efficacement la collection de document. Il existe deux types d’expansion de requête dans la littérature : La première consiste à utiliser des ressources, internes ou externes, comme par exemple un dictionnaire [Moldovan et al., 99] ou bien WordNet [Voorhes, 94], pour l’extension des requêtes par l’ajout de nouveaux termes en relation avec les termes de la requête. La seconde solution est la réinjection de pertinence reposant sur l’analyse des termes contenus dans les documents jugés pertinents pour la requête initiale. L’idée est que l’ajout de termes liés aux termes initiaux de la requête peut permettre de retrouver des documents qui ne sont pas restitué auparavant. [Harman, 92] a prouvé que la reformulation de requêtes a des effets positifs en RI. L’objectif de la reformulation est soit de limiter le silence soit de réduire les risques de bruit. Dans le premier cas, la requête est étendue à partir de termes similaires à ceux de la requête. initiale. Dans le second cas la requête initiale est étendue ou modifiée à partir de termes qui ajoutent de l’information complémentaire à la représentation du besoin. Dans (Ka)2 [Benjamins et al., 99], les pages Web sont annotées manuellement par des concepts d’une ontologie. Tous les concepts liés aux termes d’une requête donnée sont inférés et ajoutés à cette dernière. L’utilisateur est assisté dans la formulation ou le raffinement de sa requête à l’aide d’une interface proposée par ce système. L’utilisateur a la possibilité de naviguer dans l’ontologie et de centrer la visualisation sur la représentation des concepts qui l’intéresse comme il a été fait dans WebBrain16.
.Dans [Tomassen et al., 06], l’enrichissement de la requête utilisateur se fait par substitution des concepts de la requête par les vecteurs caractéristiques des concepts correspondants dans l’ontologie. Cette méthode associée à chaque concept de l’ontologie de domaine un vecteur caractéristique décrivant la similarité sémantique du concept avec les termes et concepts auxquels il est en relation (Synonyme, conjugaison, etc.) par rapport aux contenus des documents d’un corpus. Le but de ce système est de rapprocher les requêtes au contexte d’utilisateur et aux caractéristiques des collections de documents utilisant les ontologies. [Aufaure et al., 07] adaptent le model vectoriel par la substitution des termes de la requête par des concepts de l’ontologie et classifie par service les résultats d’une requête en utilisant une ontologie de services permettant de spécifier les services liés à un domaine spécifique : acteurs, activités ou tâches. L’enrichissement de requêtes utilisateurs se fait par analyse morphologique et sémantique en utilisant les concepts et les relations entre l’ontologie de domaine et WordNet. L’utilisateur peut aussi utiliser l’ontologie de domaine pour désigner les concepts à utiliser dans sa requête.
Dans [Kim et al., 07], la RI se déroule en deux phases. Premièrement, la requête utilisateur est reformulée à l’aide des concepts de l’ontologie qui correspondent aux mots clés de la requête. Deuxièmement, le système réalise la recherche d’objet contenant ces concepts. Un des difficultés fondamentales de la reformulation est la dimension de l’espace de recherche qui est élevé. La réduction de cet espace passe par la détermination des : [Efthimiadis, 96]  De nombreuses approches de désambigüisation se trouvent dans littératures. Ces approches peuvent être divisées en deux catégories : les approches basées sur des ressources terminologiques comme des dictionnaires, thésaurus et les ontologies et les approches basées sur les corpus d’apprentissage qui se base sur des gros  textes pour construire la connaissance nécessaire pour cela.

Les approches basées sur les ressources linguistiques

Ces approches se basent sur les dictionnaires informatisés, les thésaurus ou les ontologies pour désambiguïser un mot ambigu. Nous trouvons plusieurs travaux cités dans [Azzoug, 13]..

Les approches basées sur les dictionnaires informatisés

L’approche la plus connue basée sur les dictionnaires est celui de lesk [Lesk, 86]. Son principe consiste à identifier tous les sens possibles d’un mot ambigu à partir d’un dictionnaire. Puis, un score est attribué à chacun de ces sens par le calcul des mots communs entre la définition (gloss) de chaque sens du mot ambigu et les définitions des sens des mots de leur contexte. Le sens qui a le score le plus élevé est sélectionné comme un sens correct. Cette méthode peut rencontrer des problèmes si un mot ambigu possède le même nombre des mots communs dans leur définition. Plusieurs chercheurs ont adoptés la méthode de Lesk dans leurs travaux, on trouve [Azzoug, 13]: Wilks et al. [Wilks et al., 90] ont proposé d’étendre, le contexte et les sens d’un mot ambigu dans l’algorithme de lesk de façon manuelle par l’ajout des mots qui occurrent toujours avec les mots de contexte et les sens. Cette méthode est testée sur LDOCE17 (Longman Dictionary of Contemporary English). Elle a donné un taux de performance égal à 45% par rapport à une désambigüisation manuelle. Une autre extension de l’algorithme de lesk à la base de réseau de neurones a été donnée par Véronis et al. [Véronis et al., 90]. Le but est de résoudre le problème de désambigüisation de plusieurs mots ambigus à la fois. Cette méthode utilise le dictionnaire anglais CED (Collins English Dictionnary). Cette méthode donne un taux de précision égal 71,7%. [Guthrie et al., 91] adaptent l’approche de Wilks et al., à la différence que la définition d’un sens d’un mot caractérisé par une catégorie spécifique, est étendue seulement par l’ensemble des mots co-occurrents dans toutes les définitions assignées dans cette même catégorie dans le LDOCE. [Cowie et al., 92] ajoutent un code de domaine attribué par LDOCE. Ce code est ajouté à la définition d’un sens, cette fois ci la désambigüisation d’un mot repose sur le nombre de mots et de codes communs. Cette approche donne un taux de précision égal à 47%.

Les approches basées sur un thésaurus

Les thésaurus sont caractérisés par la force de représenter les termes dans leur contexte. Le vocabulaire d’un thésaurus fournit une description sémantique des associations entre mots et classe les sens des mots liés sémantiquement dans des catégories sémantiques (catégories de domaines). Plusieurs travaux menés dans ce contexte tels que : Les travaux de yarowsky [Yarowsky, 92] qui se basent sur les catégories sémantiques18 du thésaurus Roget19, pour désambigüiser les sens de l’encyclopédie Grolier multimédia. Cette désambigüisation consiste à déterminer la catégorie sémantique à partir du thésaurus par l’association des mots clés de la catégorie cible. Le sens adéquat est sélectionné à partir de la catégorie identifiée. Yarowsky a testé son approche sur 12 mots ambigus. Les résultats rapportés ont montré une précision de 92%. [Mohammad et al., 06] ont proposé une approche basée sur le thésaurus Macquarie20 pour la désambiguïsation des sens des mots. L’idée de base de leur approche est que la majorité des occurrences d’un mot dans un corpus textuel, ont le même sens, c’est le sens approprié. Le test de cette approche est fait sur un petit échantillon du corpus British National Corpus World Edition (BNC) [Burnard, 00]. Les résultats obtenus affichent un taux de précision supérieur à 50%.

Les approches basées sur une ontologie

Ces approches se basent sur les relations exploitées à travers les ontologies pour déterminer le sens le plus approprié d’un mot ambigu. Les approches de désambigüisation à travers les ontologies peuvent se diviser en deux classes : une basée sur l’ontologie linguistique tel que WordNet et l’autre sur l’ontologie de domaine. Plusieurs travaux sont cités dans ce contexte : [Sussna, 93] propose une méthode de désambigüisation des noms basée sur l’utilisation des relations de synonymie et antonymie de WordNet. Cette méthode est testée sur la collection TIME21. Elle a donné un taux de précision égal 56%. [Banerjee et Pedersen, 03] adoptent la méthode de lesk pour prendre en charge les relations disponibles sur WordNet. Un autre intérêt des ontologies est de permettre la désambiguïsation des termes de la requête. Dans [Guha et al., 03] la désambiguïsation se fait selon trois méthodes. La première consiste à choisir le concept dont les labels les plus fréquents dans les documents. La deuxième approche consiste à réaliser un profil utilisateur et à choisir le concept le plus proche de son profil. Finalement, la troisième prend en compte le contexte de la recherche et les documents recherchés par l’utilisateur. [Köhler et al., 06] améliorent la désambigüisation des sens des mots en utilisant la lemmatisation des mots. De plus, ils proposent une méthode pour améliorer le rappel sans modifier la précision par l’utilisation des sous-concepts et super-concepts dans les différentes relations en respectant une certaine limite sur la profondeur des relations de subsomption. Dans [Boubekeur et al., 10a ; 10b], le désambigüiseur se base sur la relation is-a pour désambigüiser les noms et les verbes. Ils ont proposé de désambiguïser un mot en s’appuyant sur des mesures de similarités sémantiques entres les synsets dans la taxonomie is-a des noms et verbes de WordNet. Il existe d’autres travaux basés sur une ontologie de domaine. Ces travaux sont basés sur WordNet et son extension aux domaines WordNetDomains [Magnini et al., 00] : [Gliozzo et al., 04] ont utilisé WordNet et WordNetDomains pour désambigüiser le mot ambigu par apport à son domaine. Ils ont comparé deux vecteurs, le premier contient des 21 The Time collection consists of articles from the magazine Time.
synsets du mot ambigu extrait à partir de WordNet et le second, présente les domaines de ce mot dans leur contexte. Le sens adéquat est retenu par la similarité la plus élevée entre ces deux vecteurs. Cette approche a été évaluée sur la collection Senseval-221 et donne des résultats de précisions satisfaisant (79% pour la désambigüisation des verbes et noms) et (75% pour tous les catégories syntaxiques), et de faibles rappels (40% pour les verbes et noms et 35% pour les tous les mots). Une méthode basée sur le même principe de la méthode précédente est proposée par Vázquez et al. [Vázquez et al., 04]. Ces chercheurs exploitent les domaines des mots de définitions (les glosses) dans le processus de désambigüisation. Cette méthode, testée sur la collection Senseval-2, produit un taux de précision de 47%. [Kolte et al., 08 ;09] utilisent WordNet pour identifier le domaine du mot à désambigüiser dans son contexte. Kolte et al. ont testé cette approche sur SemCor et ils ont obtenu un taux de précession égal à 63,92%. 3.2. Les approches basées sur les corpus d’apprentissage Ces approches se basent sur les techniques d’apprentissage. Elles sont divisées en deux catégories : approches supervisées et approches non supervisées.

Les approches supervisées

Ces approches nécessitent l’intervention de l’être humain pour annoter manuellement les textes de corpus d’apprentissage par les sens des mots. Plusieurs travaux existent dans ce contexte tels que : [Weiss, 73] a utilisé un corpus étiqueté ADI22. Cette approche donne un taux de précision d’environ 90%. Une autre approche similaire à celui de weiss est proposée par kelly [Kelly et al., 75] à la déférence que cette approche ne permet pas de désambigüiser une phrase complète. L’approche de Yarowsky [Yarowsky, 00] est basée sur les arbres de décision pour identifier le sens adéquat du mot ambigu. Ce système de désambigüisation est considéré comme le meilleur système selon la compagne d’évaluation SENSEVAL de 1998, avec une précision de 78,9%.

Les approches non supervisées

Ces approches se basent sur des corpus non annotés pour construire la connaissance nécessaire à la désambiguïsation. L’apprentissage est basé sur l’idée que les occurrences d’un mot qui ont un même sens possèdent souvent des mots co-occurrents similaires. Ces mots voisins sont regroupés en clusters. Ces clusters sont considérés comme des sens appropriés pour des mots ambigus. Parmi les travaux qui utilisent cette approche nous trouvons celle de Schütze [Schütze, 98] qui se base sur le modèle vectoriel.

Apport des ontologies dans les systèmes de recherche d’informations

De manière générale, ce qui est attendu d’une ontologie, est qu’elle assure la réutilisation de connaissances. En RI, son apport est ciblé. Nous donnerons dans ce qui suit d’après un rapport de [Masolo, 01], quelques résultats entendus de l’utilisation des ontologies dans les systèmes de RI [Baziz, 02]: – Les ontologies doivent réduire le silence dans les réponses aux requêtes : le but est de trouver autant de documents pertinents que possible dans une collection donnée. – Les ontologies doivent aider à réduire le nombre de réponses bruitées. L’idée est d’ignorer les documents contenant les mots de la requête, mais avec un sens différent. – Avec l’aide de l’ontologie, l’utilisateur peut exprimer son besoin plus facilement : afin de guider l’utilisateur, des étapes peuvent lui être suggérées pour préparer sa requête ou une nouvelle formulation avec des termes plus appropriés.

Conclusion

Ce chapitre on a vu les critères utilisés pour choisir l’ontologie la plus adapté à un SRI. Nous avons décrit les différents systèmes existants et utilisant les ontologies : dans la reformulation de la requête, l’appariement ontologique, et la représentation des documents. Un mot dans un document (requête), est alors indexé différemment, selon le sens qu’il représente dans le contexte dans lequel il apparaît. Dans ce type d’approche, le contexte d’un mot est souvent réduit à son voisinage immédiat (une fenêtre de quelques mots à gauche et/ou à droite du mot cible). Le motsens est alors représenté par le mot, auquel est associé, soit un numéro de sens tel qu’il apparaît dans une ressource sémantique externe, soit, d’autres mots de son contexte d’usage, permettant de le distinguer des autres sens. Les autres travaux traitant de l’IC, quant à eux, s’emploient à attacher les termes des  documents (ou des requêtes) à des concepts de l’ontologie. Un des bénéfices que procurent ces approches, est d’exploiter l’opportunité de la présence de relations sémantiques entre concepts dans l’ontologie pour retrouver les documents pertinents. Nous avons décrit les différentes approches de désambigüisation qui sont basées sur les ressources linguistiques telles que (les dictionnaires informatisés, les thésaurus et les ontologies), ou bien les approches basées sur les corpus d’apprentissage (approche supervisé et non supervisé). Ces approches trouvent leur force dans le choix du sens le plus adéquat pour les termes ambigus. Dans ce qui suit, nous présenterons les travaux de recherche dans le cadre de l’utilisation des ressources sémantiques dans les systèmes de recherches d’informations arabes. Le but est de synthétiser tous les travaux existants dans ce domaine, afin de bien positionner nos travaux dans le domaine.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport gratuit propose le téléchargement des modèles gratuits de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie ?avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction générale
Chapitre 1 : Les Systèmes de Recherche d’Information & les Ontologies
1. Introduction
2. Les Systèmes de Recherche d’Information (SRI)
2.1. Les étapes d’un processus de recherche d’information
2.1.1. Processus de représentation (Indexation)
2.1.2. Pondération des termes
2.1.3. L’appariement requête-document
2.1.4. La notion de pertinence
2.1.5. Reformulation de Requêtes
2.2. Les modèles de recherche d’information
2.2.1. Les modèles booléens
2.2.2. Les modèles vectoriels
2.2.3. Le modèle probabiliste (Probabilistic Model)
2.3. Évaluation des SRI
2.3.1. Les mesures de Rappel/Précision
2.3.2. La courbe de Rappel/Précision
3. Les ontologies
3.1. Définitions des ontologies
3.2. Composants des ontologies
3.3. Les principaux types d’ontologies
3.4. Les ontologies les plus connues
4. Conclusion
Chapitre 2 : Utilisation des Ontologies pour la Recherche d’Information
1. Introduction
2. Ontologies et recherche d’information
2.1. Le choix d’une ontologie
2.2. Principe d’utilisation des ontologies par un SRI
2.2.1. L’ontologie et la représentation des documents (Indexation)
2.2.2. Appariement à partir des ontologies
2.2.3. L’ontologie et la reformulation de la requête
3. La désambigüisation des sens des mots
3.1. Les approches basées sur les ressources linguistiques
3.1.1. Les approches basées sur les dictionnaires informatisés
3.1.2. Les approches basées sur un thésaurus
3.1.3. Les approches basées sur une ontologie
3.2. Les approches basées sur les corpus d’apprentissage
3.2.1. Les approches supervisées
3.2.2. Les approches non supervisées
4. Apport des ontologies dans les systèmes de recherche d’informations
5.Conclusion
Chapitre 3 : La Recherche Sémantique pour les Textes Arabes : Etat de l’Art
1.Introduction
2. Les caractéristiques de la langue arabe
2.1. Particularité de la langue arabe
2.2. La structure morphologique d’un mot arabe
2.2.1. Les antéfixes
2.2.2. Les prefixes
2.2.3. Les suffixes
2.2.4. Les post fixes
2.3. Les catégories du mot
2.3.1. Le verbe
2.3.2. Le nom
2.3.3. La particule
3. Les problèmes liés au traitement automatique de l’arabe
3.1. Le problème de la voyellation
3.2. Le problème de l’agglutination
3.3. L’extraction de la racine
3.4. La terminologie
4. Problématique de la langue arabe et la recherche d’information
5. La désambigüisation du sens des textes arabes
6. La Recherche d’Information pour la langue arabe
6.2. La langue arabe est l’indexation sémantique par des ontologies
6.1. La langue arabe est la reformulation des requêtes par des ontologies
7. Synthèse
8. Conclusion
Chapitre 4 : La Recherche Sémantique pour les Textes Arabes : Contribution
1. Introduction
2. Description de l’approche implémentée
2.1. Les ressources, corpus et outils utilisés
2.1.1. WodNet Arabe
2.1.2 Corpus d’évaluation
2.1.3. Lucene
2.2. Les traitements proposés
2.2.1. La désambigüisation
2.2.1.1. La désambigüisation par le concept commun
2.2.1.2. La désambiguïsation de Lesk
2.2.2. L’indexation sémantique
3. Validation de l’approche proposée
3.1. L’évaluation de l’apport de l’indexation sémantique
3.1.1. Expérimentation
3.1.2. Discussion
3.2. L’évaluation de l’apport de l’indexation sémantique basée sur Lesk
3.2.1. Expérimentation
3.2.2. Discussion
4. Conclusion
Conclusion générale et perspectives
Références bibliographiques

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *