Problématiques de recherche sociale d’information

Principaux systèmes d’accès à l’information

Systèmes de recommandation

Les systèmes de recommandation permettent de recommander à l’utilisateur des contenus sur le Web, souvent appelés items ou produits (pages Web, images, films, musique, livres, etc.), susceptibles de l’intéresser [Goh and Foo, 2008]. Comme défini par Konstas et al., le système de recommandation se sert des informations rassemblées à propos des descriptions des items et des profils des utilisateurs dans l’objectif de retourner à l’utilisateur des items de manière personnalisée en se basant sur le comportement antérieur de l’utilisateur en question [Konstas et al., 2009].

Systèmes de filtrage collaboratif

Le filtrage des informations consiste à faire parvenir à l’utilisateur des informations pertinentes à partir d’un flux d’informations. Pour cela, un système de filtrage collaboratif qui se base sur l’utilisation des informations à propos des individus dont le profil est similaire à celui de l’utilisateur à un instant donné, afin de lui recommander des items [Goh and Foo, 2008].

Systèmes de recherche d’information

La recherche d’information (RI) est le domaine dans lequel s’inscrit cette thèse. Elle vise à définir des modèles et des processus dont le but est de retourner, depuis un corpus de documents indexés, ceux dont le contenu correspond le mieux au besoin d’information exprimé par un utilisateur sous la forme d’une requête.
Plutôt vue comme une science de la recherche dans les documents et initialement développée dans le cadre de corpus de documents textuels, la RI a évolué avec l’émergence du Web et plus récemment des réseaux sociaux.

Modèle de RI

Un utilisateur formule son besoin d’information par une requête, celle-ci est alors interprétée par le système pour être représentée à l’aide d’un modèle de requête. En parallèle, les documents du corpus sont indexés pour être représentés à l’aide d’un modèle de document.
À l’étape d’indexation du corpus de documents et de la requête, les termes de l’index sont pondérés en fonction de leur distribution au sein du corpus et au niveau de la requête. À l’étape d’interrogation, le système de RI calcule un score de pertinence système pour chaque document, par le biais de la fonction de correspondance entre les termes de la requête et ceux du corpus de documents.
Le système retourne ensuite une liste de documents considérés comme pertinents par rapport à la requête utilisateur en fonction de leur score.

Indexation / interprétation

L’indexation des données textuelles de la requête de l’utilisateur et du corpus de documents constitue le champ de nombreuses études [Sparck Jones, 1974], [Salton, 1986], [Lewis and Croft, 1990]. Elle représente l’une des principales étapes de RI.
En effet, indexer un document permet de mettre en avant les termes représentatifs qui le composent et de référencer les documents qui contiennent ces termes dans l’objectif de générer la liste des termes d’indexation.
Ces termes d’indexation seront ajoutés à l’index de la collection avec la liste des références de chaque document les contenant. Un autre objectif de l’indexation peut être d’éliminer les mots vides ayant uniquement un rôle syntaxique et étant donc sans intérêt informationnel.
En plus de l’élimination des mots vides, d’autres techniques d’analyse lexicale sont utilisées lors de l’indexation telles que la lemmatisation permettant de regrouper les différentes formes des mots d’une même famille en les réduisant à des mots appelés lemme (forme canonique) et la racinisation appelée souvent désuffixation permettant de transformer des flexions en leur racine (ou radical) [Manning et al.,2008].

Pondération

La pondération d’un terme d’indexation est l’association d’une valeur numérique à ce terme de manière à indiquer sa représentativité, estimée à travers la fréquence d’apparition du terme au sein d’un document et son pouvoir de discrimination dans le corpus, obtenu par le biais de la fréquence d’apparition globale du terme au sein de tout le corpus [Manning et al., 2008].
Salton et Buckley décrivent et comparent différentes fonctions de pondération qui permettent de distinguer diffèrents modèles de représentation comme par exemple : le modèle binaire, le modèle vectoriel, etc. [Salton and Buckley, 1988].

Fonction de correspondance et calcul de score

La fonction de correspondance consiste à établir une comparaison entre le document et la requête, ce qui revient généralement à calculer un score mesurant la similarité entre le document et la requête. Ce score de similarité entre le document et la requête est donné par une fonction de correspondance nommée Retrieval Status Value [Manning et al., 2008].
Cette fonction permet de comparer le contenu de la requête à chacun des documents indexés [Manning et al., 2008].
Dans la plupart des modèles classiques de RI, le SRI utilise cette fonction pour retourner à l’utilisateur une liste de documents classée par valeur décroissante de pertinence système (RSV (d, q)).

Principaux éléments de la fonction de pondération

La pondération d’un terme d’indexation dépend de trois caractéristiques ; la représentativité du terme pour un document, son pouvoir discriminant pour le document et la normalisation par la taille d’un document (et/ou par la taille de la requête dans certains cas).

Représentativité d’un terme pour un document

Plus un document contient d’occurrences d’un terme, plus il est considéré comme abordant une thématique relative à ce terme. Un document d contenant un grand nombre d’occurrences du terme t est considéré comme un document parlant de t et donc plus pertinent pour la requête contenant le terme t. La mesure de représentativité T Fd,t d’un terme t pour le document d permettant de refléter l’importance du terme t pour d est basée sur le nombre d’occurrences de t dans d, noté tfd,t (term frequency).

Pouvoir discriminant d’un terme dans le corpus

Un terme est discriminant pour un document s’il permet de distinguer le document en question du reste des documents du corpus. Les termes qui apparaissent fréquemment dans tous les documents ne peuvent donc pas être considérés comme discriminants [Salton and Buckley, 1988].

Recherche sociale personnalisée d’information

« Both the user’s information needs and his strategies for satisfying them are influenced by the socio-cultural environment, since they arise in social situations » [Wilson, 1981]. Ainsi, la recherche d’information impliquant des utilisateurs au sein des réseaux sociaux doit tenir compte des informations sociales issues de l’environnement social dans lequel se trouve l’utilisateur afin de mieux satisfaire ses besoins d’information.
La personnalisation en recherche d’information permet d’adapter les processus de RI afin de retourner des résultats appropriés aux utilisateurs selon leurs centres d’intérêts.

Réseaux sociaux

Les réseaux sociaux sont un espace dans lequel les internautes interagissent (publient, partagent, annotent, commentent, etc.) avec le contenu du Web [Fischer and Reuber, 2010]. Il peut s’agir d’images (Flickr : 6 miliards de photos 7), de ressources (Twitter : plus de 500 millions d’utilisateurs, Facebook : plus d’un miliard d’utilisateurs 8, Delicious), ou encore d’informations professionnelles (LinkedIn : 175 millions de membres 9). Les réseaux sociaux représentent aussi un moyen de communication et d’échange efficace en permettant aux utilisateurs de rentrer en contact avec des collègues, amis, co-auteurs, etc.
Avec l’émergence des réseaux sociaux, l’utilisateur d’un système de RI n’est pas considéré comme un acteur isolé. Son besoin d’information est vu au sein d’un réseau dans un contexte social décrit par un contenu social (tags, annotations, citations, tweets, statuts, « j’aime », etc.) et des relations sociales (amis, co-auteurs, suiveurs, etc.).

Exploitation des informations sociales pour la RI

L’exploitation des réseaux sociaux a permis d’améliorer la RI de différentes façons en rajoutant de nouvelles informations supplémentaires sur les ressources (documents, utilisateurs, etc.) :
– L’annotation d’un document par plusieurs utilisateurs intéressants et renommés dans le réseau social peut signaler un document populaire, fiable, etc. ([Bao et al., 2007], [Bouadjenek et al., 2013], [Soulier et al., 2012]).
– Un utilisateur cité ou référencé peut représenter généralement une source fiable, un individu expert ou un utilisateur populaire et influant dans son entourage, etc. ([Schenkel et al., 2008],[Bao et al., 2007]).
– Un utilisateur est plus intéressé par des documents qui lui sont fournis ou suggérés par son entourage (groupe d’individus connus par l’utilisateur) que par des documents venant d’individus inconnus (notion de confiance [Kirsch, 2005]).
– En connaissant le profil de l’utilisateur (initiateur de requête) et son domaine d’intérêt, à partir des informations qui le caractérisent au sein de son réseau social, le système de recherche d’information serait capable de retourner des résultats de recherche répondant le mieux aux attentes de l’initiateur de requête.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction 
1 Contexte 
1.1 Principaux systèmes d’accès à l’information
1.1.1 Systèmes de recommandation
1.1.2 Systèmes de filtrage collaboratif
1.1.3 Systèmes de recherche d’information
2 Problématique 
3 Exemple illustratif 
4 Contribution 
5 Plan 
2 Recherche d’information et réseaux sociaux 
1 Recherche d’information 
1.1 Modèle de RI
1.1.1 Indexation / interprétation
1.1.2 Pondération
1.1.3 Fonction de correspondance et calcul de score
1.2 Principaux modèles de recherche d’information
1.2.1 Modèles booléens
1.2.2 Modèles vectoriels
1.2.3 Modèles probabilistes
1.3 Principaux éléments de la fonction de pondération
1.3.1 Représentativité d’un terme pour un document
1.3.2 Pouvoir discriminant d’un terme dans le corpus
1.3.3 La normalisation par la taille
1.3.4 Variantes des composantes de pondération
1.4 Pondération Okapi BM25
1.4.1 Représentativité du poids du terme au sein du document : T Fd,t
1.4.2 Pouvoir discriminant du terme : IDFt
1.4.3 Poids du terme au sein de la requête : QT Fd,t
1.5 Modèle BM25F
1.6 Axiomes de RI
1.7 Évaluation en RI
1.7.1 Collection de test en recherche d’information
1.7.2 Mesures d’évaluation
2 Recherche sociale personnalisée d’information 
2.1 Réseaux sociaux
2.2 Exploitation des informations sociales pour la RI
2.3 Problématiques de recherche sociale d’information
2.4 Modèle de recherche sociale personnalisée d’information
2.5 Évaluation en recherche sociale d’information
3 Conclusion 
3 État de l’art 
1 Introduction
2 Indicateur d’importance sociale 
3 Profil social 
3.1 Profil social du document
3.2 Profil social de l’utilisateur
3.3 Discussion
4 Intégration des informations sociales 
4.1 Indexation sociale
4.2 Discussion
4.3 Reformulation et expansion de requête
4.4 Discussion
4.5 Reclassement des résultats
5 Réseaux sociaux dans les systèmes de recommandation et de filtrage collaboratif 
5.1 Réseaux sociaux et systèmes de recommandation
5.2 Réseaux sociaux et systèmes de filtrage collaboratifs
6 Évaluation en recherche sociale personnalisée d’information 
6.1 Compétitions en recherche sociale personnalisée d’information
6.2 Éléments de la collection de test en recherche sociale personnalisée d’information
6.2.1 Requêtes
6.2.2 Jugements de pertinence .
7 Conclusion 
4 Modèles de recherche sociale personnalisée d’information 
1 Introduction 
2 Motivations 
2.1 Désambiguïsation de requête
2.2 Contexte social de l’utilisateur
3 Modélisation du contexte informationnel social de l’utilisateur (CIS) 
3.1 Profil de l’utilisateur
3.2 Profil du voisinage de l’utilisateur
4 Interprétations du contexte informationnel social pour la RI 
5 Modèles de RSPI 
5.1 Personnalisation de l’indexation
5.1.1 Repondération des termes du CIS
5.1.2 Modèle de RSPI : BM25FS
5.2 Intégration du CIS aux documents : Positionnement et critiques
5.3 Personnalisation de requêtes
5.3.1 Repondération des termes du CIS
5.3.2 Impact de la saturation au niveau de la requête
5.3.3 Combinaison des requêtes et du CIS
5.3.4 Modèle de RSPI : BM25S
5.3.5 Modèle de RSPI : BM25SF reqComb
5.3.6 Modèle de RSPI : BM25SScoreComb
5.4 Intégration du CIS aux requêtes : Positionnement et critiques
6 Conclusion
5 Collection de test de recherche sociale personnalisée d’information
1 Introduction 
1.1 Requêtes centrées utilisateur
1.2 Jugement de pertinence centrée utilisateur
2 Source de données : Delicious 
3 Construction de la collection de test de RSPI 
3.1 Collecte de données publiques
3.2 Construction des requêtes des utilisateurs
3.3 Collecte du contenu des documents sur le Web
3.4 Construction des jugements de pertinence
4 Formalisation de la proposition
4.1 Collecte des données de Delicious
4.2 Construction de requêtes
4.3 Collecte de documents manquants pour les requêtes simulées
4.4 Construction des jugements de pertinence
5 Caractéristiques des collections de test de RSPI 
5.1 Collection de test DelRSI1
5.2 Collection de test F DelRSI1
5.3 Collection de test DelRSI2
6 Évaluation 
6.1 Résultats d’évaluation avec le modèle de référence
7 Conclusion
6 Expérimentations 
1 Introduction
2 Protocole expérimental
3 Personnalisation de l’indexation 
3.1 Collection de test utilisée
3.2 Résultats d’évaluation du modèle BM25FS
3.2.1 Optimisation des paramètres
3.2.2 Résultats d’évaluation
4 Personnalisation des requêtes 
4.1 Collection de test utilisée
4.2 Résultats d’évaluation du modèle BM25S
4.2.1 Optimisation des paramètres
4.2.2 Résultats d’évaluation
4.3 Résultats d’évaluation du modèle BM25SF reqComb
4.3.1 Optimisation des paramètres
4.3.2 Résultats d’évaluation
4.4 Résultats d’évaluation du modèle BM25SScoreComb
4.4.1 Optimisation des paramètres
4.4.2 Résultats d’évaluation
5 Conclusion
7 Conclusion et perspectives 
1 État de l’art 
1.1 Identification des informations sociales
1.2 Intégration des informations sociales
1.3 Collection de test de RSPI
2 Contribution 
2.1 Proposition de modèles de RSPI
2.2 Construction d’une collection de test de RSPI
3 Expérimentations 
4 Perspectives
Liste de publications 
Bibliographie

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *