Télécharger le fichier pdf d’un mémoire de fin d’études
L’information documentaire
L’information documentaire renvoie à la connaissance (knowledge) et présente les caractéristiques suivantes :
– Elle apporte du nouveau, elle enrichit les connaissances d’un individu,
– elle a un sens pour l’utilisateur,
– elle sert à agir, à prendre des décisions : en général, on cherche de l’information pour éclairer une décision, une action, …
– elle répond à des objectifs, à des besoins, plus ou moins bien définis,
– elle n’existe que si on l’interroge : il n’y a pasd’information « en soi », l’information est toujours relative à un sujet, un contexte, un besoi n, …
L’information spécialisée
L’information spécialisée est une des catégoriese dl’information documentaire, elle comprend notamment :
– L’information professionnelle : représentée par l’information financière, économique, sociale, technique, etc. .., destinée à un ou plusieurs secteurs professionnels,
– l’information juridique : lois, règlements, information administrative,…
– l’information scientifique et technique : elle regroupe toute l’information et les documents, produits et diffusés par les chercheurs, dans toutes les disciplines scientifiques. Une thèse, un rapport de recherche, un article dans une revue scientifique, un brevet, un mémoire, des actes de congrès… sont des documents contenant de l’information scientifique, qu’il s’agisse de Littérature, de Sociologie, de Chimie ou de Mathématiques,…
Formes de l’information
Internet et les bases de données représentent des ources d’information très vastes et il est important de connaître les différents types d’information disponible, ainsi que ces formats afin que le processus de recherche d’information sois le plus efficace possible.
– Informations textuelles : tous les documents où prédominent le texte, l’écrit (livres, périodiques, etc.)
– Informations non-textuelles : tout document où prédominent l’image, le son ou la combinaison des deux ou des trois, image, son et écrit (documents iconographiques, audiovisuels, multimédia, sonores…).
Propriétés de l’information
Trois types d’informations peuvent être distingués:
Information structurée, information non structuréeet information semi structurée.
Information structurée
C’est l’information stockée dans les bases et les banques de données de façon à être traitée automatiquement et efficacement par des logiciels. Dans l’exemple d’une base de données bibliographique, une notice bibliographique est structurée par des champs. Chaque champ contient des informations validées qui peuvent êtrede deux ordres :
– Les informations factuelles sont par exemple le champ « auteur », « organisme d’affiliation », …
– les informations descriptives apportent une information analytique sur le contenu du document source. Ce sont par exemple les informations contenues dans les champs « titre », « résumé », ou bien le champ « mots-clés».
Information non structurée
Toute l’information ne peut pas être de type structurée, par exemple les lettres, les courriels, les livres, les brevets, … . Dans certains documents te xtuels, on peut différencier plusieurs niveaux d’information structurée et celle non structurée, par exemple un courriel est sous la forme suivante :
Date :
De :
A :
Sujet :
Corps du message :
Sur cet exemple, on a un mélange d’information structurée représentée dans les champs : date, auteur et destinataire, le corps du message représente une information non structurée.
Information semi-structurée
ABITEBOUL dans [11] donne la définition suivante: «Par semi-structuré, nous signifions que même si les données possèdent une structure, celleci- n’est pas aussi rigide, aussi régulière ou complète que la structure requise par les systèmes de gestion de bases de données traditionnels.
» Et dans [12] « Nous appelons […] donnée semi-structurée la donnée qui n’est (d’un certain point de vue) ni une donnée brute ni une donnée strictement typée».
Ce concept recouvre, par exemple, le langage XML (eXtended Markup Language) qui permet de définir la structure et la présentation de documents et de données de tout type (texte, multimédia, dessins techniques, formules mathématiques ou chimiques, informations comptables ou financières, transactions commerciales… . C’est le cas de la majeure partie des informations que l’on peut trouver sur le Web, dans lesquelles on retrouve :
– Du texte libre,
– des informations structurées explicites descriptive comme les mots-clés que l’on peut indiquer dans une balise appropriée,
– des informations explicites, structurées et factueles comme le nom de l’auteur ou le titre.
Notions et définitions
La notion de ‘besoin’ dans la recherche d’informati on
La notion de ‘besoin d’information’ est centrale da ns le domaine de la recherche d’information puisque elle est définie comme une interaction entre « un individu qui a besoin d’information » et « un document qui contient ou non la réponse à ce besoin » [13].
L’utilisateur doit donc formuler une requête, c’est-à-dire exprimer son besoin en information sous forme de descripteurs ou mots clés plus au moins liés, dont la relation est exprimée par la présence d’opérateurs entre eux. La requête peuteffectuers’ sur l’ensemble des mots du texte, ou dans certaines zones précises du document, lorsque l’information est indexée et structurée selon différents champs (titre, auteur, …).
La notion de pertinence
Pour être en mesure d’offrir aux utilisateurs les nformations répondant le mieux à leurs besoins, tout système de recherche d’information s’appuie sur un modèle de calcul de pertinence qui, pour chaque requête, calcul le score de pertinence de chaque donnée (document). Celles qui auront le meilleur score de pertinence seront présentées à l’utilisateur.
Cette approche permet d’évaluer ce qu’on nomme la pertinence système, c’est-à-dire la pertinence que les systèmes de recherche d’information calculent. Or, La notion de pertinence est très complexe, elle est évaluée par les systèmede recherche d’information et également liée au jugement des utilisateurs.
On distingue classiquement deux types de pertinence : la pertinence utilisateur, qui est le jugement apporté par l’utilisateur sur le document, en fonction de son besoin d’information, et la pertinence système, qui correspond à la valeur de correspondance entr e le document et la requête, calculée par les systèmes. La satisfactionde l’utilisateur est liée à la correspondance entre ces deux pertinences.
Un étudiant en droit qui doit étudier un cas préciset qui dispose du corpus de toute la jurisprudence du droit français et ne disposant que d’un accès chronologique ou thématique aux documents, va chercher à identifier dans son besoin en information les critères qui peuvent cerner soit la période pendant laquelle des actes de jurisprudences qui lui sont pertinents ont pu être émis, soit la thématique traité dans sa requête.’autresD critères vont certainement intervenir dans l’estimation de la pertinence d’un document. Certai ns documents ne seront pas utiles, car déjà connus, d’autres peuvent être éliminés puisque ilsdemanderaient trop de travail pour être utilisés. Cet exemple donne une idée sur la grande diversitédes facteurs qui interviennent lorsqu’un un utilisateur évalue la pertinence d’un document.
Il existe une distance plus ou moins grande entre les résultats d’un système de recherche d’information et les jugements de pertinence de l’utilisateur. L’utilisation d’un système de recherche d’information est plus généralement conçue comme un processus itératif visant à améliorer progressivement l’adéquation entre pertinence système et pertinence utilisateur. Pour ce faire, une nouvelle fonction est très fréquemment joutéea au schéma fonctionnel classique : le bouclage de pertinence (relevance feedback). Une fois un premier ensemble de documents retrouvés, l’utilisateur peut émettre des jugementsde pertinence sur ces documents, jugements qui sont pris en compte pour définir une nouvelle requête (reformulation de la requête).
Structures de stockage de l’information
Tout système d’indexation permet d’extraire, d’un corpus textuel, les termes qui le représentent, l’identifient au mieux et de les stocker dans un index. Ces termes-index sont comparés avec ceux de la question posée. Ensuite, la fonction de recherche fournit une réponse comprenant des informations triées.
Les structures de stockage de la plupart des systèmes de recherche d’information sont basées sur le comptage des fréquences des termes dans chaque document du corpus. Chaque document D est représenté par un vecteur de valeurs, la première aleurv représente la fréquence du terme 0t dans le document D0, la seconde représente la fréquence du terme 1t dans le document D0, etc.… Sous
cette approche les documents se présentent sous forme de tableau, ou les lignes représentent les documents et les colonnes représentent les termes.
Après avoir enregistré pour chaque document, la liste des termes qu’il contient, on crée un fichier inversé qui dresse, pour chaque terme, la liste des documents qui le contiennent.
Le fichier inversé est un index lexicographique, c’est-à-dire une table alphabétique de mots-clés accompagnés de références. Il permet à partir d’un mot-clé donné de trouver toutes ses occurrences au sein d’une collection de documents. Dans le cas général, il comporte, pour chaque terme d’indexation, une liste (appelée < posting list > ou parfois < posting >) contenant l’identifiant des documents dans lesquels il apparait ainsi que sa fréquence d’apparition. Dans le cas ou le fichier inversé mémorise en plus toutes esl positions de chaque occurrence, le fichier inversé est dit : complet (full inverted file).
L’avantage de cette structure est quelle permet de représenter, avec efficacité, l’ensemble de la collection des documents. Ainsi, en conservant une seule occurrence de chacun des termes d’indexation, elle diminue l’espace mémoire nécessaire et elle accélère la recherche car elle supprime tout besoin d’accès aux documents d’origine : le fichier inversé contient toutes les informations utiles et la plupart des calculs numériques peuvent être effectués au moment de l’indexation.
L’utilisation d’une ‘stop list’
Une ‘stop list’ est une liste de mots qu’on juge inutiles et qu’on va retirer du document. Typiquement, il s’agit des hapax (mots n’apparaissant qu’une seule fois), des N mots les plus fréquents (par exemple les 4 mots apparaissant plus 1000 fois dans le cas où la fréquence des mots varie de 1 à 1004).
Dans un corpus de documents rédigés dans une mêmeangue,l les mots vides sont principalement des mots caractéristiques de cette langue comme lesprépositions, les articles, les pronoms d’où l’assimilation courante entre mots vides et mots grammaticaux. En français, des mots vides évidents pourraient être « le », « la », « de », «du », « ce », « ça », En anglais, ce sont des mots comme « and », « there », « some », « who », « of »,…
Cependant dans une collection de textes réunis autour d’un thème commun, certains mots peuvent respecter une distribution uniforme. Ce sont alors des mots vides pour cette collection bien qu’ils ne soient pas des mots grammaticaux. Par exemple, dans un corpus de textes légaux, le mot ‘loi’ est un mot vide.
Différentes approches d’indexation
Le schéma fonctionnel classique pour les systèmes de recherche d’information comprend deux fonctions principales : l’indexation et l’interrogation.
Afin d’effectuer une recherche d’information effica ce et pertinente, il apparaît comme nécessaire de donner une représentation mieux structurée et sipossible normalisée du contenu des documents. Lors de l’interrogation, il faut également transformer la requête de l’utilisateur exprimée en langage naturel, en une représentationstructurée et normalisée, qui vas permettre d’apparier celle-ci avec la représentation du contenu des documents.
La fonction de correspondance est la fonction de recherche proprement dite. Le système met en correspondance les documents indexés avec la requêtde façon à sélectionner un sous-ensemble des documents du corpus.
Définition de l’indexation
La définition proposée par l’AFNOR en 1993, est lasuivante : « l’indexation est le processus destiné à représenter par les éléments d’un langagedocumentaire ou naturel des données, résultat de l’analyse du contenu d’un document ou d’une question ». L’indexation a un double but de représentation :
– D’une part, elle consiste à identifier les informat ions caractéristiques du contenu d’un ou plusieurs documents,
– d’autre part, elle consiste à représenter ces informations sous une forme compacte, homogène (le plus souvent par un ensemble de termes empruntés à une langue naturelle ou un langage documentaire) et manipulable, c’est-à -dire utilisable par un Système de Recherche d’Information par exemple.
Le but général de l’indexation est d’identifier l’information contenue dans tout texte et de le représenter au moyen d’ensemble appelé index pour permettre la comparaison entre la représentation d’un document et d’une requête.
Les débuts de l’indexation dans la recherche d’information
La première difficulté rencontrée lors de l’indexation consistait à résoudre les problèmes linguistiques les plus visibles :
– L’ambigüité : lorsqu’une phrase ou une expression p ossède plusieurs interprétations ou significations possibles, on parle d’ambigüité.
· Lorsque l’on ne sait pas à quoi rapporter une expre ssion, on parle d’ambiguïté de référence. Par exemple, dans la phrase « je vois unhomme avec un télescope », on ne sait si c’est moi qui regarde l’homme à l’aide d’un télescope ou si je regarde un homme qui possède un télescope,
· lorsqu’une phrase possède plusieurs analyses syntaxiques, on parle d’ambiguïté structurale ou syntaxique. Par exemple, dans la proposition « la bonne cuisine », on ne sait si bonne l’adjectif ou bien c’est le nom.
– La synonymie : un même concept peut être exprimé rpades mots différents
– La polysémie : un même mot peut renvoyer sur différents concepts. C’est une caractéristique très fréquente du langage courant,c’est la mise en discours qui permet parfois de lever l’ambiguïté. Par exemple, le terme « canard » peut signifie un journal, un oiseau,… par contre la phrase « j’ai lu dans le can ard…. » lève naturellement l’ambiguïté.
Indexation manuelle avec vocabulaire contrôlé
L’indexation manuelle consiste à représenter le contenu d’un document par une liste de groupes nominaux qui expriment les principaux thèmes traités dans le document. C’est un exercice très subjectif, étant donné qu’il dépend des connaissances du documentaliste sur le sujet traité dans le texte et par conséquent de la manière dont il va hiérarchiser les thèmes retenus.
Une fois la liste de groupes nominaux dressée, nous pouvons distinguer les descripteurs qui seront habilités à figurer dans l’index et les non-descripteurs ou les termes qui eux ne figureront pas dans l’index. Les descripteurs et les non-descripteurs seront liés par des relations sémantiques, l’ensemble de ces trois éléments constitue un graphe appelé Thésaurus.
Le thésaurus s’attaque à deux problèmes différents celui de la synonymie et celui de la polysémie. Le principe est de constituer pour chaque concept la liste des mots qui peuvent l’exprimer. L’un des mots est alors choisi comme de scripteur, les autres mots sont des non-descripteurs et leur usage dans l’index est interdit. Concernant la polysémie, le problème à éviter c’est de récupérer des documents non pertinents lors de l’interrogation, ce qui est fort possible lorsqu’on utilise des mots ayant plusieurs sens, une solution serait d’utiliser comme descripteur celui qui n’est pas ambigu. Outre l’aide qu’il apporte pour résoudre les ambigü ités du langage, le thésaurus aide le documentaliste dans l’exhaustivité de la description par des relations sémantiques de « suggestion » de nouveaux termes à mettre dans l’i ndex. Il existe deux types de relations sémantiques de suggestion :
Les relations hiérarchiques :(relations termes génériques et termes spécifiques), par exemple :
Europe Terme spécifique France
Terme générique
La relation de terme associé : il peut s’agir de termes que l’on trouve fréquemment associés : relation entre un agent d’une action et l’action ou des termes co-occurrents.
Si l’indexation manuelle sur vocabulaire contrôlé permet une recherche sur des thèmes assez généraux de manière assez efficace par un personnelformé, ses principaux inconvénients sont la perte importante d’information par rapport au texte intégral et par conséquent la difficulté de répondre à des questions très précises. De plus, l’indexation manuelle nécessite un cout financier non négligeable, il apparaît donc illusoire d’envisager son utilisation pour des gros volumes de documents.
Le texte intégral
C’est dans le milieu dans années 70 que sont apparues les premières bases de textes intégraux et notamment dans le domaine juridique. La réponse à une requête n’est alors plus constituée d’une référence mais du texte du document ce qui constitue un vrai progrès. La technique la plus utilisée consiste à prendre comme mot d’index chaque chaîne de caractères comprise entre deux blancs, à l’exception des mots vides. Ces derniers représentent à eux seuls prés d’un tiers d’un texte.
Un des principaux problèmes de l’indexation en texte intégral est qu’elle ne tient pas compte des problèmes linguistiques (synonymie, polysémie). Le problème de la synonymie s’est plus aggravé, car on trouve dans le texte intégral les mots fléchis et dérivés, mal orthographiés ou encore pouvant accepter plusieurs variantes orthographiques. Il s’est donc avéré nécessaire de trouver des solutions mais ces dernières engendrent une complication non négligeable des techniques d’interrogation. L’utilisation d’opérateurs de troncature s’est trouvée être une solution pour trouver toutes les dérivations d’un même mot.
Un autre problème engendré par l’accès au texte intégral est la quasi-impossibilité de trouver des mots composés. En effet, les systèmes d’indexation en texte intégral ne disposant pas de connaissances linguistiques, ne possèdent aucune représentation interne précise de ce qu’est un mot, sauf celle d’une suite de caractères encadréspar des blancs, il est donc difficile de trouver des expressions figées ou des dates, des chiffres ou des acronymes. En réponse à ce problème, il à été créé en plus des opérateurs booléens, des opéteuras de proximité permettant de trouver des mots relativement proches les uns des autres. C’est le cas des guillemets qui permettent de trouver une expression dans son intégralité ou encore l’utilisation d’un opérateur d’adjacence ADJ qui impose que les deux mots soient dans un ordre donné et qu’ils ne soient séparés que par des mots vides.
Enfin, le dernier problème engendré par l’avènementdu texte intégral, est que l’on se trouve vite confronté à la localisation des informations pertinentes dans un document. En effet, on est passé d’une recherche de document à une recherche d’infor mation dans les documents. il est donc apparu comme nécessaire de mettre en évidence les mots de la question dans les documents et de pouvoir passer d’une occurrence à l’autre pour faci liter le repérage des passages pertinents.
Les approches actuelles
Sous l’approche d’indexation basée sur un vocabulaire contrôlé, le contenu des documents est représenté par un ensemble de descripteurs, l’interrogation consistait alors à spécifier les descripteurs que l’on veut voir figurer dans l’inde x du document recherché. La question est alors exprimée sous la forme d’une fonction booléenne dedescripteurs.
Le résultat de l’application de la fonction booléene est une partition de la base en deux sous ensembles : l’ensemble des documents jugés pertinents et ceux non pertinents.
Dés le début des années70, les chercheurs ont proposés d’établir une relation d’ordre de pertinence sur l’ensemble de la base par rapport à la question, plutôt de la diviser en deux ensembles, donc un mode de comparaison pondéré.
Plusieurs modèles statistiques ont été développéspour obtenir cette comparaison pondérée, dans la partie suivante nous présenterons les principauxmodèles actuels.
Processus et architecture d’un SRI
Un système de recherche d’informations est un système informatique qui permet la recherche d’information dans un fond documentaire, cette recherche consiste à mettre en correspondance une représentation du besoin de l’utilisateur (requête) avec une représentation des contenus des documents au moyen d’une fonction de comparaison.
Les deux fonctions principales d’un système de recherche d’information sont donc :
– La fonction de représentation des contenus des documents,
– la fonction de comparaison (appariement) qui doit établir la correspondance et évaluer la pertinence des documents par rapport à la requête.
Avant que l’utilisateur puisse interagir avec le système de recherche d’information, il doit pouvoir lui fournir une information que le système comprendra. Le système traduit cette information en une requête et balayera par la suitel’ensemble des informations et extrait celles qui répondent le mieux à la question. L’ensemble des réponses est alors présenté à l’utilisateur.
Les cadres éclaircies sur la figure 3 marquent la prolongation du procédé de la recherche d’information suivant la rétroaction de l’utilisateur. Si ce dernier juge que les résultats présentés sont appropriés à son besoin d’information le processus de la recherche s’achève. Si le besoin n’est pas satisfait, l’utilisateur formulera une no uvelle question basée sur l’information obtenue dans les résultats précédents. Ce processus continue jusqu’à ce que le besoin de l’utilisateur soit satisfait.
Dans cette partie, nous reviendrons sur le modèle booléen dans lequel les documents sont représentés par un ensemble de termes non pondérés,les requêtes s’expriment à travers une expression booléenne et l’appariement ne se fait que s’il y a correspondance exacte.
Nous présenterons également le modèle vectoriel, unl’ des modèles les plus couramment employé dans la recherche d’information. Les documents et les requêtes sont présentés par des vecteurs dans un espace d’information multidimensionnel et la pertinence d’un document par rapport à une requête est relative à leurs positions respectives dans cet espace. En y présentent également
quelques variantes et améliorations apportées au modèle vectoriel.
Les M odèles de Recherche d’Information
Le modèle Boolée ou ensembliste
Le modèle booléen repose sur la manipulation des mots clés. D’une part, un document est représenté par une conjonction de mots clésd’autre par une requête (R) est représentée par un expression logique composée de mots connectés par des opérateurs booléens (ET, OU, SAUF). Le modèle booléen utilise le mode d’appariement exact, il ne restitue que les documents répondant exactement à la requête. Ce modèle est èstr largement utilisé, aussi bien pour les bases de données bibliographiques que pour les moteurs derecherche.
Formulation de la requête
A) Les opérateurs booléens: le modèle booléen tire son nom des opérateurs booléens utilisés pour formuler la requête de l’utilisateur.
– La conjonction (connecteur ET) : Indique la présence simultanée de plusieurs termes dans la réponse recherchée, pratique quand on veutlimiter et affiner la recherche. Exemple : retrieval AND information AND internet, Les réponses contiendront obligatoirement les mots retrieval, information et internet. C’est la meilleure façon d’affiner un résultat.
– la disjonction (connecteur OU) : Exige qu’au moins un des termes soit présent dans les documents retrouvés, il permet d’élargir la recherche. Ainsi pour la requête retrievalOR information OR internet. Les réponses contiendront soit retrieval, soit information, soit internet. Cet opérateur n’est pas trop réducteur quant au nombre des réponses. Son avantage consiste à pouvoir utiliser deux synonymes dans une recherche.
– la négation (connecteur SAUF) : Permet d’éliminer esl documents contenant un terme particulier. Le terme qui suit l’opérateur SAUF ne doit pas figurer dans les réponses.
Recherche booléenne pondérée
Le modèle booléen est largement répandu. La simplitéc de sa mise en œuvre sur le plan informatique et la facilité de son utilisation (fonctions de comparaison) expliquent son succès.
Cependant la performance du modèle booléen est médiocre, c’est que la recherche booléenne est fondée sur le principe que l’usager est toujours capable d’exprimer son besoin informationnel, cela explique qu’on a, pendant très longtemps, réservée cette technique à des spécialistes de la documentation. A l’heure ou elle est mise à la disp osition du grand public à travers les moteurs de recherche, plusieurs améliorations ont été développées. Certains auteurs ont mis au point une technique dite booléenne pondérée. Des poids sont réalablementp attribués aux termes des documents et les termes de la requête peuvent également être pondérés. L’introduction des poids permet un classement des documents, cette pondération tient compte du nombre de documents qui contiennent le terme.
Selon FRIEDER dans [14], le poids WiD des termes ti dans un corpus D peut être calculé de la manière suivante :
– soit N le nombre total des documents du corpus D ;
– soit Mdti le nombre de documents qui contiennent le terme ti ; log( N ) W D Mdti 1 Mdt N (1) i i log(N )
Les termes auront un poids fort, s’ils sont peu fréquents dans le corpus (Mdti est alors faible). En particulier, si le terme n’apparaît qu’une seule fo is, Mdti =1 et Wid = 1.
En revanche, si un terme ti est présent dans l’ensemble des documents du corpus D, alors Mdti = N et son poids est nul.
Le modèle vectoriel
Après le modèle booléen, le modèle ayant le plus influencé la recherche d’information est le modèle vectoriel, proposé au début des années70 par Gérard SALTON [4], [15]. Ce modèle se base sur les propositions suivantes :
– Les requêtes et les documents du corpus sont représentés par des vecteurs de mots clés,
– ces mots clés sont extraits des documents lors de la phase d’indexation,
– la dimension de l’espace vectoriel est égale au cardinal de l’ensemble des mots d’index,
– un poids est attribué à chacun des termes d’indexation d’un même document. Un terme d’indexation n’appartenant pas à un document reçoit un poids nul pour ce document.
Vecteurs documents et vecteurs requêtes
Soit un terme ti le i-ème terme d’indexation, un document D est représenté sous la forme suivante : D = (wt1,D, wt2,D, …, wtn,D), dans laquelle chaque valeur (wti,D) indique la pondération associée au terme d’indexation (ti) dans le document D. La requête Q() est représentée suivant le même formalisme, soitQ = (wt1,Q, wt2,Q, … wtn,Q).
Ainsi, pour un corpus qui comporte 20 000 mots, chaque document sera représenté par un vecteur de dimension 20 000. Les éléments valent pour la plupart zéro : seuls ceux qui correspondent aux termes présents dans le document ne sont pas nuls.
La figure 3 illustre une représentation graphique de deux vecteurs documents et un vecteur requête dans un espace associé à trois termes 1, t2 et t3.
Prise en compte des dépendances dans modèle vectoriel
On a évoqué précédemment que dans le cadre d’uneprésentationre vectorielle simple, on suppose l’indépendance des termes d’indexation. Ce qui signifie l’orthogonalité des axes de l’espace de représentation. Cette technique pose problème lorsqu’on essaye de prendre en compte des termes synonymes, car un même sens peut être décrit par fférentsdi termes qui ne seront jamais considérés comme identiques ni même proche sémantiquement dans cette représentation.
Plusieurs solutions ont été proposées pour tenir compte des dépendances sémantiques dans le cadre du modèle vectoriel. Elles consistent à construire un espace dans lequel les axes ne sont plus orthogonaux en se basant sur les dépendances calculées pour les différents termes.
Nous allons voir dans la suite de ce chapitre deux modèles qui, en se basant sur le modèle vectoriel simple, essaient de palier à ce problème de dépendance en prenant en compte l’aspect sens des documents et des requêtes. Le premier modèle est le modèle LSI qui se base sur la décomposition des termes d’indexation, puis nous continuerons avec le modèle DSIR qui se base sur l’hypothèse de sémantique distributionnelle etse focalise sur les cooccurrences des termes.
Le rappel : calculer l’exhaustivité de la recherche
Le rappel mesure la capacité du système à retrouver tous les documents pertinents pour une requêteq, c’est-à-dire le ratio entre le nombre de documents pertinents retrouvés et le nombre total de documents pertinents dans la base. Il est fréquemment exprimé en pourcentage. Rq I Pq rappelq
Où Rq est l’ensemble des documents retrouvés par le système pour la requêteq et Pq est l’ensemble des documents pertinents de la collection pour cette requête.
Lorsque l’utilisateur interrogge la base il souhaite voir apparaître touus les documents qui pourraient répondre à son besoin d’information. Si cette adéquation entre la requête d l’utilisateur et le nombre de doocuments présentés ste importante alors le taaux de rappel est élevé A l’inverse si de nombreux documents intéressants n’apparaissent pas on parle de silence. Le silence s’oppose au rappel.
|
Table des matières
CHAPITRE 1 : Cadre de la recherche d’information
1 Un survol de l’histoire de la Recherche d’Information
Introduction
La naissance de la recherche d’information
Expérimentations
Systèmes de Recherche d’Informations
Améliorations techniques
Ère Internet
La francophonie de la recherche d’informations
2 La recherche documentaire
3 Qu’est-ce que l’information ?
3.1. L’information documentaire
3.2. L’information spécialisée
4 Formes de l’information
5 Propriétés de l’information
5.1. Information structurée
5.2. Information non structurée
5.3. Information semi-structurée
6 Notions et définitions
6.1. La notion de ‘besoin’ dans la recherche d’information
6.2. La notion de pertinence
6.3. Structures de stockage de l’information
6.4. L’utilisation d’une ‘stop list’
7 Différentes approches d’indexation
7.1. Définition de l’indexation
7.2. Les débuts de l’indexation dans la recherche d’information
7.2.1. Indexation manuelle avec vocabulaire contrôlé
7.2.2. Le texte intégral
7.3. Les approches actuelles
8 Processus et architecture d’un SRI
9 Les Modèles de Recherche d’Information
1. Le modèle Booléen ou ensembliste
i. Formulation de la requête
ii. Les limites du modèle booléen
iii. Recherche booléenne pondérée
2. Le modèle vectoriel
i. Vecteurs documents et vecteurs requêtes
ii. Les mesures de similarité
iii. La sélection des termes d’indexation
iv. Les schémas de pondération
v. Prise en compte des dépendances dans modèle vectoriel
3. Le modèle LSI
4. Le modèle DSIR
5. Modèle probabiliste
i. Représentation des documents et des requêtes
ii. Fonction de correspondance
iii. Prise en compte des dépendances dans le modèle probabiliste
6. Le modèle logique
i. Représentation des documents et requêtes
ii. Fonction de correspondance
7. L’évaluation des Systèmes de Recherche d’Information
7.1. Le rappel : calculer l’exhaustivité de la recherche
7.2. La précision : combien de non pertinent ?
7.3. Combiner précision et rappel
CHAPITRE 2 : Modélisation et visualisation des données textuelles
Introduction
1. Modèles de représentation des données textuelles
1.1 Approche ‘sac de mots’
1.1.1 Identification des termes d’indexation
1.1.2 Méthodes d’analyse de l’information
1.1.3 Modèles de visualisation : la cartographie des données textuelles
1.2 Approche de document structuré
1.3 Le contexte local d’un mot dans un texte
1.4 Les thèmes dans un document
1.5 Visualisation multidimensionnelle spectrale
CHAPITRE 3 : Les Transformées en ondelettes et leurs utilisation actuelle
1. Pourquoi a-t-on besoin de Transformées?
1.1 Naissance de la Transformée de Fourier
1.1.1 Transformée de Fourier des fonctions périodiques
1.1.2 Transformée de Fourier des fonctions non périodiques
1.2 Signification physique de la Transformée de Fourier
1.3 Quelques applications de la Transformée de Fourier
1. Applications aux signaux monodimensionnels
2. Applications aux signaux bidimensionnels
3. Applications fondées sur la propagation des ondes électromagnétiques
1.4 Limites de la Transformée de Fourier
1.4.1 Analyse temps- fréquence
1.4.2 Principe d’incertitude d’Heisenberg
1.5 Transformée de Fourier Fenêtrée
1.6 La Transformée en Ondelettes
1.6.1 Définition
1.6.2 Les propriétés des Ondelettes
1.6.3 L’Ondelette de Haar
1.6.4 Exemple de calcul
1.6.5 L’utilisation actuelle des Ondelettes
Conclusion
CHAPITRE 4 : Modélisation Spectrale des données textuelles : vers un Système de Recherche d’Information Spectral
Introduction
Exemple
1. Pourquoi une modélisation spectrale
2. Notions et fonctions
3. La mise en oeuvre du Système de Recherche d’Information Spectrale
3.1 Modélisation thématique spectrale des documents
3.1.1. Algorithme de construction des signaux thématiques
3.1.2 Expérimentation : la modélisation spectrale
3.1.3 Résultats de l’analyse multi résolution
3.2 Représentation spectrale des requêtes
3.2.1 Introduction
3.2.2 Modélisation Spectrale des requêtes
3.2.3 Processus de comparaison spectrale document /requête
3.2.4 Expérimentation
3.2.5 Comparaison des résultats
3.2.6 Discussion
CONCLUSION
Télécharger le rapport complet