Recherche par traitement du langage naturel
Il fait partie des outils proposés pour améliorer la recherche d’information, mais son succès reste très limité [Str97]. Cette interrogation dite “ en langue naturelle ”, où l’expression du thème de recherche prend la forme d’une demande. Cela est souvent présenté comme une prouesse technique ( la machine comprend, dans la langue de tous les jours ”) et comme un supplément de convivialité. Mais à l’usage, on préfère entrer au clavier quelques mots en relation avec le thème de recherche, que de rédiger une demande. De plus, la difficulté principale n’est peut-être pas d’exprimer le thème de la recherche sous une forme recevable par le moteur de recherche, que de maîtriser la manière dont le moteur va interpréter la requête et procéder à la recherche, autrement dit comment bien lui faire comprendre ce que l’on cherche. Quant à l’analyse linguistique de la demande formulée, d’une part elle est effectivement très complexe (tolérance aux erreurs, portée des négations, résolution des anaphores…) et donc met durement à l’épreuve les performances et la robustesse des analyseurs, d’autre part si l’analyse consiste à transposer la demande sous la forme d’une équation booléenne élémentaire, alors il serait plus sûr, plus puissant et plus efficace de l’écrire directement.
Définition d’une ontologie
Le mot ontologie puise sa source dans la métaphysique où il est défini comme étant la science de l’être en tant qu’être indépendamment de ses déterminations particulières [Roc03]. L’ontologie en ingénierie des connaissances est l’ensemble des objets reconnus comme existant dans le domaine [Aus02]. Construire une ontologie c’est aussi décider de la manière d’être et d’exister des objets. Les ontologies dans la recherche d’information peuvent être utilisées à différents niveaux:
• Représenter les textes (indexation) : Étiqueter les textes ;
• Exprimer la requête : Reformuler la requête ou la traduire ;
• Visualiser les résultats : Explorer les résultats.
Pour pouvoir faire des requêtes sur un domaine donné, il faut une conceptualisation de ce domaine. Cette conceptualisation consiste à nommer et décrire toutes les entités Qui peuvent exister dans ce domaine, ainsi que les relations existant entre ces entités. Donc cela revient à fournir tout le vocabulaire pour représenter et communiquer la connaissance de ce domaine [Far96]. Une ontologie décrit donc, les concepts, les attributs ou slots des concepts et les relations entre ces concepts, par exemple, la taxonomie des espèces en biologie est un type d’ontologie qui classifie tous les organismes biologiques dans des classes, ordres, familles, genres et espèces [Das02]. Techniquement, les ontologies sont des réseaux sémantiques comme on en connaissait voici vingt ou trente ans. La nouveauté réside dans leur échelle sans précédent (par dizaine de milliers de concepts) et dans leur utilisation pour servir de base de connaissances multilingues [Ras04] Nous pouvons dire tout simplement qu’une ontologie est l’ensemble du vocabulaire d’un domaine et les relations sémantiques associées existant entre les mots de ce vocabulaire. Mais nous ne pouvons parler d’ontologie sans passer par la première définition, qui fut donnée par Gruber en 1993 [Grub93] : Une ontologie est une spécification d’une conceptualisation, Gruber s’est intéressé à la réutilisation et au partage de connaissances entre applications, il considère que toute représentation de connaissances est basée sur une conceptualisation. Une conceptualisation est l’ensemble des entités existantes dans le domaine et les relations existantes entre ces entités, cependant il ne précise pas la façon dont cette conceptualisation est obtenue [Fur01].
Conclusion
Dans ce travail, nous avons abordé la problématique de la recherche d’information sur le Web en général, puis nous avons spécifié la recherche en Langue Arabe. Nous avons parlé des difficultés liées à cette recherche où nous avons insisté sur celles liées à la langue Arabe. Dans l’état de l’art, nous avons cité un grand nombre de techniques proposées ou expérimentées pour pallier aux inconvénients d’une recherche simple, nous avons essayé dans la mesure du possible de donner les avantages et les faiblesses de chaque méthode proposée. Nous avons tiré celle que nous avons jugée meilleure, en l’occurrence l’expansion d’une requête à l’aide d’une ontologie, pour l’appliquer à la langue Arabe avec de menues modifications et nous avons essayé de l’expérimenter sur la recherche dans le domaine juridique. Nous avons donc, commencer par l’étude des ontologies, ce qu’est une ontologie, à quoi sert-elle, comment la construire, par où commencer et avec quels outils? Après seulement, nous avons entamé la construction de notre ontologie dans le domaine juridique, tache très épineuse et exténuante: domaine nouveau, termes étrangers à notre jargon informatique, nous avons été contraints de confronter rigueur de la technologie et subtilité de la nature humaine, en d’autres termes hémisphère gauche et hémisphère droit de notre cerveau, puis ce fut la confrontation avec les juristes experts, il fallait apprendre, comprendre, proposer puis discuter. Nous avons donné dans la partie système proposé, la conception des différentes étapes suivies dans la recherche d’une information, en langue Arabe ainsi que l’éventualité de traduire une requête en Anglais ou en Français, mondialisation oblige! Notre ontologie se compose de plus de 500 concepts entre classes et propriétés, elle peut être considérée comme un noyau pour toute autre ontologie touchant de près ou de loin le domaine juridique, elle peut même s’intégrer dans une ontologie générique et y constituer une partie importante. Notre système, une fois réalisé avec toutes ses parties, peut aussi bien constituer l’élément principal dans l’architecture d’un moteur de recherche en langue Arabe, comme il peut être considéré comme un agent intelligent fournissant à un moteur de recherche une requête Arabe étendue. La partie la plus importante de l’ontologie en l’occurrence le système judiciaire, qui représente la pierre angulaire de notre ontologie, a été validée par des spécialistes dans le domaine, traînant derrière eux des années d’expérience, pratiquant chaque jour sur le terrain. Maintes fois nous avons été obligés de remettre en question la structure de la hiérarchie des classes, ainsi que leurs différentes propriétés. Il nous reste d’automatiser la recherche de concepts dans l’ontologie, pour l’expansion de la requête, chose qui ne doit pas présenter de difficultés puisque nous pouvons générer notre ontologie sous format HTML ou sous format texte, de plus avec Protege2000 nous pouvons générer une représentation sous format RDF, donc à base de XML. La partie présente dans la conception, mais qui n’a pas été réalisée et qui peut être l’objet d’un autre projet de recherche, c’est l’analyse statistique pour la détermination des variantes les plus représentatives du domaine juridique et leur association aux concepts de l’ontologie. Cette étape nécessite le concours d’experts linguistes et elle est très importante ! Même si nous ne sommes pas entrés dans les rouages de son fonctionnement interne, car elle représente un moyen efficace pour la réduction du bruit et l’amélioration de la précision, en plus de l’adjonction aux termes de la requête des hyperonymes, des hyponymes ou des attributs. Les résultats obtenus prouvent qu’il y a une différence plus ou moins signifiante entre une requête simple et une requête étendue, malgré les insuffisances de l’ontologie et du système en entier, un travail complémentaire donnerait sûrement d’autres éléments intéressants à considérer et à étudier. Pour conclure, ce travail peut être exploité dans différents travaux concernant le domaine juridique aussi bien la recherche sur le Web que la traduction automatique ou la compréhension du langage naturel ou tout autre travail touchant la sémantique des mots et ce dans le domaine légal.
|
Table des matières
Introduction Générale
Chapitre 1: La recherche d’information sur le Web
1. La recherche d’informations sur le web
1.1. Historique
1.2. Les outils de recherche d’information
1.2.1. Les moteurs de recherche
1.2.2. Les méta moteurs
1.2.3. Les annuaires
1.3. Problématique de la recherche d’information sur le Web
1.3.1. Introduction
1.3.2. La recherche géographique
1.3.3. La recherche thématique
1.3.4. La recherche par mot-clés
1.4. Les types de recherche d’information
1.4.1. La recherche Ad Hoc
1.4.2. La recherche multimédia
1.5. Les techniques de recherche d’informations
1.5.1 La catégorisation de documents
1.5.2 Le chemin de lecture
1.5.3. La requête par l’exemple
1.5.4. Le résumé automatique
1.5.5. La recherche par question-réponse
1.5.6. Recherche par traitement du langage naturel
1.5.7. Les méta données et le Dublin core
1.5.8. L’expansion de la requête
1.6. Le problème d’évaluation
1.7. Les systèmes de recherche d’information en Arabe
1.7.1. Les systèmes arabisés
1.7.2. Les systèmes Arabes
1.8. Quelques systèmes arabes de recherche d’information
1.9. Conclusion
Chapitre 2: Les ontologies
2. Les ontologies
2.1. Définition d’une ontologie
2.2. Les méthodes de construction
2.3. Les difficultés de construction d’une ontologie
2.4. L’utilité des ontologies
2.5. Outils de développement d’ontologies
2.6. Wordnet et Eurowordnet
2.6.1. Généralités
2.6.2. Les relations dans Wordnet et EuroWordnet
2.7. L’ontologie SENSUS
2.8. Conclusion
Chapitre3: Le système proposé
3. Le système proposé
3.1. Introduction
3.2. La solution proposée
3.2.1 Le choix du domaine
3.2.2 La construction de l’ontologie
3.2.3 Cohérence de l’ontologie
3.3 La construction de l’ontologie
3.3.1. Le choix de l’outil utilisé
3.3.2. La méthode de construction
3.3.3. La base de l’ontologie
3.3.4. La stratégie de construction
3.4. Aspect général du système
3.4.1. L’interface utilisateur
3.4.2. L’analyseur de Requête
3.4.3. L’expansion de la requête
3.4.4. Traducteur de requête
3.4.5. Processus de recherche
3.4.6. L’affichage des résultats
3.4.7. Conclusion
Chapitre 4: Résultats et discussion
4. Résultats et discussion
4.1. Introduction
4.2. Les outils de recherche utilisés
4.3. Les mesures
4.4. Traitement de quelques exemples
4.5. Analyse et discussion
4.6. Conclusion
Conclusion et perspectives
5. Conclusion et Perspectives
5.1. Conclusion
5.2. Perspectives
Références et bibliographie
Annexes
Télécharger le rapport complet