Analyse et Indexation des documents et des requêtes
Recherche d’information – concepts de base
Le monde assiste depuis ces dernières décennies, a une production massive d’informations dans tous les domaines d’intérêt. De multiples directions de recherche ont tenté de mettre en oeuvre des processus automatiques d’accès à l’information. L’objectif est d’exploiter au mieux les bases volumineuses de ces informations. Un Système de Recherche d’Information (SRI), nécessite la combinaison de modèles et algorithmes. Ces derniers permettent la représentation, le stockage, la recherche et la visualisation des informations. L’objectif principal de ce système est de mettre en oeuvre un processus de comparaison entre besoin utilisateur et documents d’une collection dans le but de retrouver ceux qui sont pertinents. L’élaboration d’un mécanisme de recherche d’information pose alors des problèmes lies tant à la représentation qu’a la localisation de l’information pertinente. En effet, la recherche d’information induit un processus d’inférence véhicule par l’objet de la requête, en se basant sur une description structurelle des unîtes d’information. Tout au long de ce chapitre nous allons passer en revue les concepts, les approches utilisés dans le domaine des SRI, notre intérêt se porte ainsi sur les principes de la recherche d’information.; nous présentons d’une part les mesures utilisées pour comparer les performances des SRI et d’autre part les collections de tests largement utilisées dans le domaine de la recherche d’information.
Taux de précision
La précision mesure la capacité du système de rejeter tous les documents non pertinents à une requête. Il est donne par le rapport entre l’ensemble des documents sélectionnes pertinents et l’ensemble des documents sélectionnes. La précision mesure la proportion de documents pertinents retrouvés parmi tous les documents retrouvés par le système.La figure 9 illustre la précision et le rappel d’une requête d’une façon générale. Toutefois, seule une partie des documents restituée par le système est examinée par l’utilisateur. Dans ce cas, la paire des mesures (taux de rappel, taux de précision) est calculée a chaque point de rappel (document pertinent restitue). Il s’agit de considérer la liste ordonnée des documents évalues, de calculer pour chaque document sélectionne la précision et le rappel, puis exprimer en fonction des valeurs trouvées la précision en fonction du rappel. Avec ces valeurs, on trace une courbe représentant la précision en fonction du rappel. Idéalement, on voudrait qu’un système donne de bons taux de précision et de rappel en même temps. Un système qui aurait 100% pour la précision et pour le rappel signifie qu’il trouve tous les documents pertinents, et rien que les documents pertinents. Cela veut dire que les réponses du système à chaque requête sont constituées de tous et seulement les documents idéaux que l’utilisateur a identifiés. En pratique, cette situation n’arrive pas. Plus souvent, on peut obtenir un taux de précision et de rappel aux alentours de 30%. Les deux métriques ne sont pas indépendantes. Il y a une forte relation entre elles quand l’une augmente, l’autre diminue.
Conclusion générale
Suite aux grandes quantités des documents, Les travaux présents dans ce mémoire se situent dans le cadre de la conception et la réalisation d’un outil pour l’évaluation d’un système de recherche d’informations ; notre tâche principale consiste à réaliser un logiciel pour l’annotation des corpus. Le but des systèmes de recherche d’information est de récupérer des documents pertinents dans différentes langues répondants a un besoin utilisateur exprime dans une langue différente de celles des documents. En termes de ce mémoire un outil pour l’annotation est réalisé, reste maintenant son utilisation dans un cas réel pour l’évaluation d’un SRI. Les perspectives de ce travail sont nombreuses, nous pouvons citer à titre d’exemple l’ajout des modules pour le calcul des différents paramètres permettant l’évaluation des SRI comme la précision et le rappel. Une autre perspective concerne l’ajout d’un autre module pour la visualisation et donc la comparaison des systèmes évalués.
|
Table des matières
Introduction générale
Problématique
Objectifs
Organisation du mémoire
Chapitre I Recherche d’information – concepts de base
1.Introduction
2.Généralités sur les Systèmes de Recherche d’Information (SRI)
2.1 Definition
2.2 Concepts cles de la recherche d’information
2.2.1. La collection de documents
2.2.2. Le document
2.2.3. Le besoin en information
Interrogation en langage booléen
Interrogation en langage naturel ou quasi naturel
Interrogation en langage graphique
2.2.4. La représentation des documents et des requêtes (indexation ou analyse
2.2.5. L’appariement requête-document
2.3 Reformulation automatique de requêtes
Conclusion
Chapitre II Analyse et Indexation des documents et des requêtes
1.Introduction
2.Approches possibles
2.1 première approche
2.2 L’approche basée sur une indexation
2.3 Approche basée sur la fréquence d’occurrences
2.3.1. Approche I
2.3.2. Definition l’informativité
2.4 Approche basée sur la valeur de discrimination
2.5 Approche basée sur tf*idf
3.La pondération de termes
4.Le résultat de l’indexation
5.Evaluation d’un système
5.1. Corpus de test (références)
5.2.Précision et rappel
5.2.1. Taux de précision
5.2.2. Bruit
5.2.3. Taux de rappel
5.2.4. Silence
5.3.Comparaison de systèmes et Précision moyenne
Conclusion
Chapitre III Réalisation
1.Introduction
2.Objectif Générale du projet
3.Le langage de programmation
3.1 Delphi 7
3.2 Le module de base de données de Delphi
4.Modélisation de projet
4.1 Modèle Conceptuel des Donnée (MCD)
4.2 Modèle Logique des Donnée (MLD)
5.Description de l’application
Conclusion
Conclusion générale
Bibliographie
Télécharger le rapport complet