Moteurs de recherche de « première génération »

Moteurs de recherche de « première génération »

Les systèmes d’indexation automatique que nous dirons de première génération, et qui sont encore aujourd’hui les plus utilisés, calquent le modèle de l’indexation manuelle : chaque document est indexé dans sa globalité par un ensemble de descripteurs. Les différentes méthodes existantes se différencient principalement par deux caractéristiques : la nature des descripteurs et la méthode utilisée pour les extraire.

Nature des descripteurs. Alors que l’indexation manuelle repose habituellement sur un thesaurus, cette méthode est difficilement automatisable en toute généralité. En effet, un thesaurus vise par définition à restreindre l’espace des index, en établissant une liste de termes (dits « vedettes ») en relation univoque avec les concepts retenus par l’indexeur. Il appartient donc à l’indexeur d’établir un lien entre le vocabulaire, significativement plus large, effectivement employé dans un document et les termes du thesaurus. Or, dans le cadre de l’indexation automatique, cette dernière phase nécessite une ressource lexicale exhaustive, couvrant non seulement les termes du thesaurus mais aussi le vocabulaire de tous les documents analysés. Idéalement, des systèmes complexes, d’ordre sémantique, devront intervenir, par exemple un système de désambiguïsation sémantique permettant de sélectionner le « sens adéquat » de chaque mot polysémique. Cette approche est praticable dans des contextes bien délimités (par exemple, un domaine de spécialité), pour lesquels il est envisageable de fournir au système toutes les informations nécessaires, et qui autorisent les temps de calculs nécessaires. En revanche, dans beaucoup d’autres cas, on préférera sacrifier la qualité de l’indexation au temps de calcul et à l’économie de mémoire.

Les systèmes automatiques déployés à grande échelle indexent donc directement à partir des formes trouvées dans le document lui-même, généralement des mots. La méthode la plus simple consiste à considérer ces mots sous la forme exacte où ils apparaissent, ce qui est évidemment peu efficace, ne serait-ce qu’en raison des différents facteurs de variabilité morphologique, notamment flexionnelle et dérivationnelle. Rappelons que la flexion d’une forme désigne des modifications marquant des traits grammaticaux (comme le nombre ou le cas pour un nom, le temps ou la personne pour un verbe). La dérivation lexicale permet la construction de plusieurs mots de natures potentiellement différentes à partir d’une même racine, par exemple par l’adjonction de préfixes et de suffixes. Ainsi, une racine commune est partagée par le nom « suite », l’adjectif « suivant », et les verbes « suivre » et « poursuivre ». Ces phénomènes font partie de la longue liste des mécanismes linguistiques qui conduisent à l’expression de sens proches par des formes différentes, qu’il est donc particulièrement préjudiciable de considérer indépendamment. De fait, on souhaitera généralement qu’une recherche sur le mot « mer » aboutisse à des textes contenant les mots « mers », « marin », «maritime», etc.

Pour ces raisons, différentes méthodes d’analyse morphologique ont donc été intégrées en tant que traitement préliminaire à l’indexation proprement dite. La première étape consiste souvent en l’élimination de certains mots considérés comme non significatifs pour la tâche de recherche d’information, le plus souvent parce qu’ils sont utilisés systématiquement et ne sont donc pas discriminants. Il pourra s’agir de mots dits « grammaticaux » ou « vides » (comme les déterminants), et parfois de termes considérés comme non significatifs dans un domaine particulier (comme « aéronef » dans le domaine aéronautique). Les étapes suivantes visent essentiellement à obtenir, pour chaque mot retenu, une forme plus générale que l’on espère moins dépendante d’une textualisation particulière du sens exprimé. La troncature consiste à couper le début ou la fin des mots afin d’obtenir une forme approchée de leur racine (par exemple « mang- » pour « manger », « mangé », « mangeoire »). Elle s’opère sans connaissance linguistique, à partir d’heuristiques simples (par exemple, en supprimant les n derniers caractères de chaque mot). Si l’inexactitude du résultat obtenu induit un certain bruit, cette approche est facilement opérationnalisable à grande échelle. A l’inverse, les méthodes d’extraction de racine et de lemmatisation font intervenir un processus plus complexe ainsi que des connaissances linguistiques .

On s’intéressera plus particulièrement aux secondes, qui permettent d’obtenir une forme canonique des mots, comme leur lemme. Leur intérêt pour l’indexation est évident, mais ce type d’opération peut nécessiter une analyse relativement poussée, le plus souvent basée sur des ressources lexicales importantes, bien sûr spécifiques à chaque langue. Ces ressources sont habituellement constituées d’un lexique exhaustif spécifiant, pour chaque forme, l’ensemble des lemmes possibles (dictionnaire de formes fléchies). Cette association étant dépendante du contexte grammatical, la lemmatisation est en général couplée à l’analyse des parties du discours (ou part-of-speech tagging) qui vise à déterminer la nature morphologique de chaque mot. Il faut toutefois noter que des méthodes efficaces, bien qu’utilisant des ressources minimes, existent aujourd’hui (Vergne et Giguet, 1998).

Méthode d’indexation et de recherche. Une fois déterminée la nature des unités linguistiques utilisées comme descripteurs, différentes méthodes d’indexation peuvent être distinguées. La plus simple est l’indexation booléenne. Elle est fondée sur l’utilisation d’un fichier inverse, indiquant pour chaque descripteur la liste des documents dans lesquels il apparaît, éventuellement accompagnée d’un nombre d’occurrences. Ce fichier permet alors de trouver quels documents contiennent les mots de la requête, et éventuellement leur fréquence ou autres informations associées, en tenant compte d’éventuels opérateurs booléens (comme la conjonction, la disjonction et la négation), par exemple : (« President » OU (« Bill » ET « Clinton »)) ET (« Monica » OU « Lewinsky »). L’estimation de la pertinence d’un document peut se faire en fonction du nombre de mots de la requête qui y apparaissent, et/ou du nombre d’occurrences de ces mots.

Le modèle vectoriel apporte un certain nombre de raffinements, en indexant chaque document par un vecteur de longueur égale au nombre total de descripteurs de la base documentaire. Il permet ainsi d’associer, pour un document donné, une valeur numérique à chaque descripteur. Cette valeur est une pondération dépendant généralement de la fréquence d’apparition du descripteur dans le document, valant 0 si le descripteur n’y apparaît pas. Une méthode élémentaire consiste considérer la fréquence « brute » (Luhn, 1957), mais alors des mots très communs, et donc peu discriminants, seront exagérément valorisés. On préférera donc des méthodes attribuant à un descripteur un poids d’autant plus important qu’il apparaît de manière « spécifique » dans le document par opposition au reste de la base (Jones, 1972), comme le très classique coefficient tf · idf dont nous serons amené à reparler.

L’indexation produit ainsi, pour une base documentaire contenant n documents et m descripteurs, une matrice de dimension n×m associant un poids à chaque couple document/descripteur. De la même manière, un vecteur est associé à la requête, contenant une valeur non nulle pour chaque descripteur cité. La phase de recherche fait alors intervenir un calcul vectoriel permettant d’évaluer la «distance» entre le vecteur caractérisant la requête et celui caractérisant chaque document. Là encore, diverses méthodes ont été envisagées, comme le produit scalaire ou diverses distances angulaires (cf. le coefficient de Salton (Salton, 1975)). La plupart des systèmes de recherche de première génération s’appuient sur des émanations du modèle vectoriel, et sont souvent hybrides, par exemple pour offrir à l’utilisateur la possibilité d’utiliser des opérateurs booléens. D’autres modèles existent, que nous ne détaillerons pas ici, comme le modèle probabiliste qui évalue la pertinence d’un document donné en le comparant à d’autres documents dont on connaît la pertinence relativement aux mêmes critères.

Moteurs de première génération « et demi »

Nous venons de voir que les moteurs de première génération, limités en temps de calcul et en ressources, arrêtent habituellement leur analyse à la surface du texte. Nous avons également constaté que cette approche se heurte immédiatement aux différents phénomènes linguistiques qui conduisent à la textualisation de sens proches par des formes différentes. Nous avons enfin évoqué des méthodes telles que la racinisation ou la lemmatisation, qui permettent de prendre en compte un premier niveau de variabilité morphologique. Nous allons voir maintenant comment certaines informations de sémantique lexicale peuvent améliorer considérablement la pertinence des résultats de la recherche.

Un phénomène lexical important est la synonymie, qui intervient quand des sens voisins sont exprimés par des formes n’entretenant a priori aucun lien apparent. Par exemple, les mots « bateau » et « navire » ont des sens très proches sans qu’aucune similarité morphologique ne l’indique. Et même si ces sens ne sont pas rigoureusement équivalents, on considérera généralement comme souhaitable qu’un moteur de recherche retourne les documents relatifs à l’un quand une requête contient l’autre. Mais un système informatique ne peut établir ce lien sans disposer des ressources nécessaires, par exemple sous une forme équivalente à un dictionnaire des synonymes. Cette méthode s’étend à d’autres relations lexicales, telles que l’hypo/hyperonymie ou la méronymie : ainsi, une requête portant sur des « navires » devrait récupérer des documents parlant de « bateaux» (synonyme) mais aussi de « voiliers » (hyponyme), et peut-être de « mâts » ou d’«hélices » (méronymes). On parlera d’expansion de requêtes.

Les systèmes informatiques capables de prendre en compte ce phénomène, constituent souvent des extensions aux mécanismes surfaciques envisagés plus haut, où la relation d’équivalence entre deux mots ne repose plus seulement sur leur forme, leur racine ou leur lemme, mais exploite des connaissances permettant de déceler des sens voisins. Pour représenter ces connaissances, deux types de modèles sont couramment utilisés : les graphes conceptuels et les espaces sémantiques vectoriels. Les premiers – bien connus en intelligence artificielle – sont des graphes où chaque forme connue constitue un noeud, et où les liens sémantiques sont représentés par des arcs. Ils peuvent être dédiés à un domaine de spécialité (ressource terminologique) ou bien généralistes comme WordNet (Miller et al., 1990). Dans une telle structure, la distance sémantique entre deux formes peut, par exemple, s’obtenir à partir de la longueur du plus court chemin qui les lie dans le graphe, éventuellement en pondérant les différents types d’arcs.

Les espaces sémantiques vectoriels sont des espaces de grande dimensionalité, où chaque dimension correspond à un trait sémantique. Il s’agit donc d’un cadre formel proche du modèle vectoriel recherche documentaire « classique », mais cette fois les dimensions de l’espace ne correspondent plus à des formes (mots), mais à des valeurs sémantiques. Chaque entrée est alors représentée par un vecteur de cet espace, la valeur selon une dimension étant donnée par une valeur numérique témoignant d’un « niveau d’activation » du trait correspondant. Pour mesurer la « similarité sémantique » entre deux mots, on calcule une « distance » entre les vecteurs qui les représentent. Plus deux mots sont sémantiquement proches, plus les deux vecteurs qui les représentent pointent dans la même direction (là encore, différentes mesures de distance angulaire sont applicables). Remarquons que les ressources nécessaires à ces méthodes peuvent être constituées manuellement (Crestan et al., 2004), mais que ce modèle se prête volontiers une acquisition automatisée. Par exemple, l’analyse sémantique latente (ASL) permet de construire automatiquement un espace sémantique vectoriel à partir de l’analyse statistique des cooccurrences dans un corpus suffisamment large (Landauer et al., 1998). Précisons que dans ce dernier cas, l’espace obtenu n’a aucune valeur descriptive, car le système n’a pas la faculté de caractériser ni même de nommer les traits sémantiques associés aux différentes dimensions. Il ne pourra donc pas être contrôlé ni modifié, et peut être vu comme une « boîte noire » permettant de calculer une distance entre deux termes.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
I Accès à l’information : de l’index au thème
1 La problématique de l’accès à l’information
1.1 Introduction
1.2 Moteurs de recherche de « première génération »
1.3 Moteurs de première génération « et demi »
1.4 Limites des systèmes « traditionnels » et perspectives « nouvelles »
1.5 Recherche d’information par requêtes structurées
1.6 Résumé automatique
1.7 Segmentation et structuration thématique
1.8 Le Web sémantique
2 Notions de thème en ingéniérie documentaire et en sciences de l’information
2.1 Le problème de l’à propos dans l’analyse du document
2.2 Approches fondées sur des modèles logiques
2.3 Approche bibliothéconomique de l’à propos
3 Notions de thème dans la théorie linguistique
3.1 Approches centrées sur la phrase
3.2 De la phrase au texte
3.3 Approches centrées sur le texte
3.4 Théories et modèles connexes
4 Analyse thématique en traitement automatique des langues
4.1 Segmentation thématique par cohésion lexicale
4.2 Structuration thématique fondée sur des critères linguistiques
4.3 Conclusion
5 Bilan
5.1 Le thème comme « point de contact » avec un état de connaissances
5.2 Le thème comme objet structuré
5.3 Le thème comme objet sémantique
5.4 Conclusion
II Modèles et systèmes d’analyse
6 Recherche d’information géographique
6.1 Présentation générale du projet
6.2 Analyse sémantique des expressions temporelles
6.3 Localisation spatio-temporelle des phénomènes
6.4 Moteur de recherche « sémantique et multi-dimensionnel »
6.5 Conclusion
7 Analyse automatique des cadres de discours spatiaux et temporels
7.1 Méthode d’analyse
7.2 Implémentation
7.3 Procédé d’évaluation
7.4 Premiers résultats
8 Thèmes discursifs composites
8.1 Introduction
8.2 La notion de thème composite
8.3 Analyse automatique de structures en thèmes composites
8.4 La notion d’axe sémantique
8.5 Thèmes composites et structures rhétoriques
III La plate-forme LinguaStream
9 Présentation générale
10 Principes méthodologiques
10.1 Approche par composants
10.2 Formalismes déclaratifs et complémentarité des modèles d’analyse
10.3 La notion de perspective d’analyse
10.4 Exploitation systématique des standards et outils XML
11 Modèle documentaire
Conclusion

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *