Filtrage collaboratif
Afin de ne pas limiter l’expérience de recherche pour les utilisateurs individuels, les systèmes de filtrage d’information intègrent des techniques de filtrage collaboratif (FC) pour personnaliser et recommander aux utilisateurs des éléments basés sur leurs communautés. Ces systèmes de filtrage collaboratif (CFS) prennent à l’heure actuelle une place très importante dans le monde des réseaux sociaux et largement investis dans divers domaines. Ils sont conçus pour amener l’utilisateur actuel avec un ensemble d’utilisateurs existants pour lui offrir automatiquement des objets en relation avec ses intérêts aux profils similaires (Beldjoudi et al. 2012). Ainsi, si deux utilisateurs Caroline et Sarah ont évalué un certain nombre d’items de façon similaire, il y a de fortes chances que Caroline aime ce que Sarah aime, et inversement. Donc les items que Caroline a aimés peuvent être recommandés à Sarah et inversement.
En effet, les CFS se basent sur l’hypothèse que les utilisateurs à la recherche d’information pourraient être intéressés par ce que d’autres ont déjà trouvé et évalué positivement (Su et Khoshgoftaar 2009). Par exemple, dans la vie réelle une personne qui veut lire un livre ou voir un film, demande l’opinion de ses amis qui pourra lui être utile pour faire son choix. Ainsi, un item est d’autant plus pertinent que la proportion d’utilisateurs ayant un profil similaire et ayant apprécié cet item est élevée. Ju et Xu s’appuient sur le regroupement des utilisateurs en utilisant l’algorithme de colonies artificielles d’abeilles pour effectuer une recommandation collaborative (Ju et Xu 2013).
Les auteurs dans (Xue et al. 2009) ont amélioré la performance de la recherche en développant un modèle de langage d’utilisateur qui utilise les comportements des utilisateurs dans le même groupe pour la recherche collaborative personnalisée. (Cai et al. 2014)ont amélioré les méthodes traditionnelles de FC en adoptant l’idée de typicité d’objet dans la science cognitive.
En outre, dans les systèmes d’étiquetage social, l’objectif général de la recommandation de données est d’assurer la quantité et l’adéquation des ressources recommandées. Nous citons le travail de Huang et al., qui a proposé un système de recommandation qui utilise les étiquettes des utilisateurs les plus récemment identifiés et préférés(Huang et al. 2011). (Zanardi et Capra 2011) ont proposé une méthode conçue pour étendre les capacités de recherche des collections numériques visant des domaines universitaires et éducatifs. De leur part, Beldjoudi et al., ont proposé une méthode d’analyse des profils utilisateurs afin d’améliorer la recommandation des ressources (Beldjoudi et al. 2011b) (Beldjoudi et al. 2012). L’objectif est d’enrichir les profils utilisateurs avec les ressources pertinentes tout en résolvant le problème d’ambiguïté des variables lors de la recommandation.
Cependant, le problème majeur avec tous ces systèmes réside dans le fait qu’ils nécessitent un degré de participation suffisant des utilisateurs en termes d’évaluations de ressources ( le cas des systèmes classiques), et d’étiquetage (dans le contexte social), et un nombre suffisant d’utilisateurs. Ce problème est communément connu par le problème dit en anglais « sparcity problem » qui réfère à une situation où les données transactionnelles manquent ou sont insuffisantes. En outre, les nouveaux objets doivent être évalués ou étiquetés avant d’être suggérés, ce problème est connu sous le nom de démarrage à froid d’un nouvel objet. D’autre part, le système n’a pas besoin d’analyser le contenu des éléments à recommander, il n’évalue que la proximité des utilisateurs en fonction de leurs intérêts et propose les éléments associés à ces utilisateurs.
Technique de recommandation hybride
Ce type de recommandations vient atténuer les limitations rencontrées par les deux techniques abordées dans les deux sections précédentes lorsque chacune d’elle est utilisée individuellement, et ceci par l’introduction de tous les facteurs liés au filtrage des données (utilisateurs, ressources, étiquettes, ressources voisines, utilisateurs voisins, etc.). Nous citons à titre d’exemple le problème de démarrage à froid d’un nouvel objet, rencontré par le FC, ce problème peut être atténué en rapprochant le nouvel objet avec les autres objets du système à travers le FC fondé sur la similarité entre objets. Tel qu’il a été soulevé plus haut, dans certaines situations, le système n’est pas en mesure d’établir la similitude entre les objets non structurés, le FC peut suggérer des objets en se basant sur les évaluations des utilisateurs similaires (Desrosiers et Karypis 2011) .
De cette façon, chaque technique peut corriger les limitations spécifiques de l’autre. Actuellement, les SRP les plus efficaces sont basés sur une approche hybride. Plusieurs approches ont adopté cette hybridation, dans (Lops et al. 2013), les auteurs proposent une hybridation basée sur une combinaison linéaire de deux mesures de similarité utilisées. (Gonzalez et al. 2007)introduisent des concepts émotionnels spécifiques aux utilisateurs dans un système de recommandation. Le profil utilisateur proposé est composé d’informations issues d’une base de données sociodémographique et des journaux de navigation Web.
Lee et ses collègues ont incorporé des données sociales dans le modèle de FC afin de déterminer le nombre d’utilisateurs voisins pouvant être automatiquement connectés sur une plate-forme sociale (Lee et Brusilovsky 2010). Pour améliorer les résultats de la recommandation de ressources au cours de la période de démarrage à froid du système de marquage collaboratif CiteULike. Les auteurs dans (Umbrath et Hennig 2009) ont proposé une approche hybride basée sur l’analyse sémantique latente probabiliste. Par ailleurs, un modèle bayésien à effets mixtes a été proposé par (Condli et al. 1999), il intègre les notes des utilisateurs, les caractéristiques des utilisateurs et des ressources dans un seul cadre unifié.
Réseaux de confiances
Les réseaux de confiances utilisent des techniques semblables au FC et intègrent d’autres critères pour évaluer la similarité entre les utilisateurs. Ils utilisent la relation de confiance entre les utilisateurs qui peut encourager les nouveaux utilisateurs à sélectionner un objet (Jamali et Ester 2009). Cette hypothèse se base sur l’idée que dans la vraie vie, les gens demandent souvent conseil à des personnes de leur entourage à qui ils font confiance, pour choisir un produit commercial, regarder un film, lire un livre, etc. Cette technique a été exploitée dans diverses approches dans le but d’atténuer le problème de démarrage d’un nouvel utilisateur. Ceci représente un principal avantage, car il permet à un nouvel utilisateur de recevoir du contenu en se basant sur son réseau qui se fonde sur les relations de confiance entre utilisateurs.
Dans ce contexte (Marsh 1994) distinguent deux types de confiance, une confiance interpersonnelle liée à un contexte précis, et une confiance impersonnelle qui décrit la confiance d’un utilisateur qu’il pour son entourage du groupe. Dans (O’Donovan et Smyth 2005), les auteurs adoptent le FC au sein d’un réseau qui permet à un utilisateur de demander conseil à son entourage lorsqu’il cherche un produit. L’entourage d’un utilisateur est déterminé en évaluant les cotes semblables entre utilisateurs fournis, qui aident à déterminer le degré de fiabilité entre eux. Plusieurs d’autres approches ont adopté l’idée de confiance entre utilisateurs, chacune d’entre elles l’adopte dans un contexte précis. Ces nombreuses propositions ne peuvent pas être toutes énumérées, pour un aperçu plus détaillé le lecteur est invité à lire les écrits de (Baby et Murali 2016).
Techniques de détection de motifs
Une autre direction sur laquelle s’orientent les SRIs pour effectuer des recommandations est celle de la fouille des données. Ce domaine inclut un ensemble de techniques visant à extraire des connaissances au sein de grandes collections de données (Han et Kamber, 2006). La détection des motifs est une des techniques de la fouille de données qui peuvent être utilisées pour calculer les recommandations. Pour ce faire, différentes méthodes sont adoptées dont les plus utilisées sont : le regroupement, la classification, la découverte des motifs séquentiels (Adda et al. 2007) et les règles d’association. Dans les systèmes de recommandation de données, les règles d’association sont généralement utilisées afin de découvrir les motifs de comportement des utilisateurs qui se répètent dans leurs historiques de transactions avec le SRI.
De manière générale, l’extraction de ces règles nécessite une analyse des actions effectuées par les individus pour déterminer les éléments qui apparaissent ensemble pour la représentation de la dépendance entre eux. Par exemple, si dans un centre d’achat la plupart des clients achètent des lingettes pour bébé et des couches, puis lors d’un futur achat du lait pour bébé, alors le système pourrait créer une règle qui indique que s’il y a des lingettes et des couches dans un même panier, il est fort probable que l’utilisateur achètera du lait. Elle est de la forme X →Y, où X et Y représentent un ensemble d’objets. L’ensemble d’objets X est nommé la prémisse de la règle, et l’ensemble Y est la conclusion de la règle. Dans le domaine de la RI, cette règle nous renseigne sur la dépendance entre les objets de contenu consommés par les utilisateurs qui peuvent être de différents types (documents web, étiquettes (Beldjoudi et al. 2011b), articles commerciaux, films, livres, etc.).
En général, l’extraction des règles d’association passe par trois étapes:
La préparation des données : il s’agit de sélectionner les données de la base de départ et les transformer en base de données transactionnelle. Chaque transaction de données représente un sous-ensemble d’objets, nommé un itemset, et identifié par un identificateur unique (cf. tableau II.1).
L’extraction des itemsets fréquents : cela consiste à déterminer les itemsets qui apparaissent le plus fréquemment dans la base de données transactionnelle, par rapport à un support minimal fixé par le système (cf. définition II.1). C’est l’étape est la plus coûteuse en termes de temps d’exécution puisque le nombre des itemsets fréquents dépend exponentiellement du nombre d’items manipulés. Pour d items, on a (2d -1) itemsets manipulés (cf. figure 2.7). Ainsi, pour M transactions dans la base de données, la complexité avec cette étape est de O (N*M) où N est le nombre d’itemsets manipulés (N= 2d).
Résolution du démarrage à froid d’un nouvel utilisateur
Dans certaines situations, les systèmes de recommandation n’arrivent pas à proposer des objets de contenu aux nouveaux utilisateurs avec des profils vides. Pour surmonter ce problème, plusieurs approches ont été suggérées. On distingue les approches qui utilisent des réseaux de confiance (Haydar et al. 2012; Rohani et al. 2014). D’autres ont intégré un modèle d’utilisateur avec des réseaux de confiance et de méfiance pour identifier les utilisateurs dignes de confiance (Chen et al. 2013; Guo 2013). Bien que de telles approches soient prometteuses, le fait qu’elles se basent sur les relations existantes entre les utilisateurs présente une limitation lorsqu’un utilisateur est déconnecté du réseau social. D’autres approches ont amélioré les technologies classiques de démarrage à froid en exploitant les données disponibles à froid, telles que l’âge, l’occupation, l’emplacement, etc. pour associer automatiquement les meilleures communautés aux nouveaux utilisateurs (Meng et al. 2013) (Zhang et al. 2013) (Barjasteh et al. 2015). Dans (Safoury et Salah 2013), les auteurs ont évalué l’influence des attributs démographiques sur les évaluations des utilisateurs.
Cependant, de telles approches exigent un minimum d’informations sur l’utilisateur, qui ne sont pas toujours disponibles. D’autres sources de données ont été utilisées, telles que les opinions des utilisateurs (Almazro et al. 2010) (Wang et al. 2011), les étiquettes sociales (Zhang et al. 2010) (Preisach et al. 2010), des agrégats géographiques (Lanzi et al. 2012) (Cuong et al. 2012) (Cuong et Long 2013), des arbres de décision (Meng et al. 2013), des ontologies (Missaoui et al. 2007), etc. En instance, nous distinguons le travail de Sun et ses collègues qui s’appuient sur un arbre de décision intégrant des données démographiques pour associer des utilisateurs existants à un nouvel utilisateur (Sun et al. 2011).
Dans (Missaoui et al. 2007), les auteurs s’appuient sur les concepts et les relations ontologiques à différents niveaux d’abstraction pour développer et enrichir l’ensemble des objets candidats à recommander aux utilisateurs. De leur côté (Zhou et al. 2011) ont proposé un schéma d’optimisation itératif qui alterne entre la construction de l’arbre de décision et l’extraction du profil latent afin d’affiner progressivement les profils similaires à l’utilisateur cible. (Zaïer 2010) ont proposé une approche basée sur une discrimination de voisinage entre utilisateurs, pour chaque utilisateur deux groupes de voisins sont sélectionnés (utilisateurs fortement connectés et faiblement connectés). Cependant, le problème avec cette approche est qu’elle s’appuie sur un profil édité manuellement par l’utilisateur. Dans le même objectif, d’autres auteurs ont introduit le problème des noeuds critiques dans un réseau social en détectant les connecteurs importants dans chaque communauté du système, élus comme responsables à l’assistance des nouveaux utilisateurs (Chekkai et al. 2012) (Chekkai et al. 2013).
Cependant, nous pensons que dans la vie réelle un assistant n’est pas toujours disponible pour diriger les nouveaux utilisateurs. Un nouvel utilisateur doit être guidé dans ses recherches d’information par le système même lorsque les représentants ne sont pas disponibles.
Évaluation des SRIs adaptatifs : systèmes personnalisés et sociaux
Cette section concerne l’évaluation des systèmes qui prennent en considération la dimension de l’utilisateur dans la RI. L’objectif de l’évaluation d’un SRI, quelle que soit sa nature, est de mesurer ses performances vis-à-vis du besoin de l’utilisateur formulé par une requête de recherche. Les cadres d’évaluation des SRIs classiques sont basés sur les approches orientées laboratoire, cette technique se base sur l’utilisation d’une collection de tests où les requêtes sont les seules ressources clés qui traduisent le besoin en information de l’utilisateur. De plus, le jugement de pertinence est purement thématique et totalement indépendant du contexte de recherche de l’utilisateur. Ceci ne permet pas de considérer la dimension de l’utilisateur dans le protocole d’évaluation des systèmes, et engendre par conséquent des limitations pour l’évaluation des systèmes de recherche orientée utilisateur, en particulier les systèmes interactifs et contextuels (Dumais 2009).
Ces systèmes ont pour objectif de délivrer de l’information pertinente correspondante à différents paramètres contextuels liés à l’utilisateur, tels que son profil qui englobe ses centres d’intérêt, son environnement, ou autres. Ceci a motivé les chercheurs à réfléchir sur des modèles d’évaluation plus adaptatifs à cette dimension.
Les premières tentatives effectuées dans le cadre de cette recherche ont été proposées dans TREC à travers les tâches interactives et HARD. Ces taches intègrent les caractéristiques spécifiques de l’utilisateur dans le processus de RI, appelées les métadonnées utilisateurs. Cette proposition est effectuée en vue d’améliorer la performance du système pour des requêtes difficiles, en particulier les requêtes courtes et ambigües. Les métadonnées utilisateur englobent des critères tels que la familiarité, la langue du document, le genre du document, etc. Toutefois, ces critères sont un peu restreints et ne permettent pas d’évaluer un SRI intégrant des aspects contextuels plus larges, tels les centres d’intérêt des de l’utilisateur, le comportement utilisateur mobile, ses informations sociales, etc. Cette limitation a conduit donc à l’émergence des approches d’évaluations fondées sur l’utilisation des contextes de recherche extraits réellement ou par simulation. Comme son nom l’indique, la simulation des contextes de recherche consiste à simuler des utilisateurs et leur interaction avec le système.
Un tel cadre est proposé dans (Tamine-Lechani et al. 2007) (Tamine-Lechani et al. 2008), il représente une extension des cadres d’évaluation TREC via l’enrichissement de leur collection de tests par des profils utilisateurs simulés. Pour ce faire, les auteurs se basent pour la création des contextes sur les interactions hypothétiques fournies par les jugements de pertinence de TREC.
Par ailleurs, l’évaluation par utilisation de contextes réels fait appel à de vrais utilisateurs pour une étude de cas basée sur des contextes de recherche et des interactions réelles de l’utilisateur avec le système. Ces utilisateurs interagissent en deux façons différentes pour la préparation des données de test: i) dans le processus de reformulation des requêtes afin de définir celles qui sont reliées à un même besoin en information définissant une session de recherche. La deuxième façon consiste à utiliser une interface de recherche (l’API Google, Bing ou autre) pour formuler des requêtes selon des besoins spécifiques. Dans ce cas, les documents pertinents sont extraits par une analyse du comportement implicite des utilisateurs en vue d’extraire des fichiers logs, tels que l’analyse des clics, la considération du temps passé sur une page, etc. En occurrence, nous citons le cadre d’évaluation proposé par (Anick, 2003), qui permet d’évaluer un modèle de RI sur des données réelles extraites implicitement à travers le comportement des utilisateurs à partir des fichiers logs.
D’autres protocoles d’évaluation ont été proposés afin d’intégrer la dimension de l’utilisateur. Nous citons les travaux de (Sieg et al. 2007) qui proposent de simuler le comportement des utilisateurs en construisant des scénarios de recherche en vue d’évaluer le modèle selon des cas d’étude bien particuliers.
Conclusion: synthèse et présentation des aspects exploités dans cette thèse
Nous avons présenté au cours de ce chapitre les principaux fondements de la RI classique et ses limitations en présence des requêtes complexes, ambigües et imprécises. Cela est relatif à plusieurs facteurs, en l’occurrence, l’inadéquation des deux langages de représentation requête-document, et aussi à l’utilisateur lui-même, notamment, à son niveau d’expertise et de connaissances sur les domaines de ses recherches. Ces principales limitations ont conduit à l’émergence de différentes techniques d’adaptation du processus RI. Celles-ci se distinguent par les catégories d’information qui sont exploitées dans la représentation des ressources système et de la requête utilisateur en dehors de leur contenu initial.
Ces techniques avancées font l’objet de la RI adaptative. Bien que ces techniques aient apporté des solutions pour l’amélioration du processus de recherche, certaines d’entre elles présentent des limitations qui peuvent être énumérées comme suit :
Impact du niveau d’expertise de l’utilisateur: les techniques d’adaptation du besoin informationnel de l’utilisateur exprimé par une requête de recherche s’appuient sur la reformulation du contenu initial de cette requête. Cette reformulation peut-être interactive, c’est-à-dire, le processus a besoin de l’interaction de l’utilisateur pour l’ajout des termes d’expansion. Un degré d’expertise de l’utilisateur sur la recherche cible est nécessaire pour l’atteinte d’un résultat pertinent et amélioré. La performance de ce processus de reformulation est donc liée à ce degré d’expertise.
Manque de rétroaction explicite de l’utilisateur: le processus de reformulation de la requête peut aussi être automatique. Il s’appuie pour l’extraction des termes d’expansion sur les feedbacks des utilisateurs (les jugements de pertinence). Cela demande ainsi l’interaction de l’utilisateur, et dépend fortement de l’aptitude de ces utilisateurs à donner des évaluations correctes, et principalement à leur niveau d’interactivité en temps réel.
La non-considération de la dimension utilisateur : Les ressources linguistiques exploitées pour l’enrichissement du contenu (documents et/ou requêtes) ou pour adapter l’affichage des résultats, ne prennent pas en considération les préférences de l’utilisateur et son contexte de recherche dans ce processus d’adaptation. Cela engendre une certaine limitation liée à la pertinence des résultats. Les systèmes peuvent retourner pour la même requête, les mêmes résultats pour différents utilisateurs. Cependant, ces utilisateurs peuvent avoir différents besoins en information.
Exploitation de l’aspect contextuel dans la RI. Pour améliorer la recherche de l’utilisateur, des techniques plus élaborées ont considéré le contexte de recherche de l’utilisateur dans le processus de RI et l’ont introduit à différents niveaux de ce processus. Nous avons vu au cours de ce chapitre que le contexte peut faire référence à plusieurs paramètres. D’une façon générale, ce sont les facteurs qui interviennent dans le processus de RI pouvant influencer positivement ou négativement sur la pertinence de l’utilisateur et celle du système. Ces facteurs traduisent le contexte de la recherche utilisateur et sont déterminés selon les besoins de cette recherche. Dans la RI contextuelle, cette notion de contexte couvre plusieurs dimensions, parmi les éléments les plus traités dans la littérature nous citons les centres d’intérêt de l’utilisateur connus aussi sous le nom du contexte cognitif, le contexte de la requête de recherche, les préférences de recherche en termes de mode de présentation de résultats et de qualité du contenu offert par le système (ex. fraicheur, crédibilité, etc.). Nous citons aussi le contexte temporel et géographique de recherche, et le contexte d’interactions avec le système connu aussi sous le nom de l’environnement de recherche. Celui-ci peut être cognitif, social ou autre.
Ces paramètres contextuels peuvent être classés en deux catégories : le contexte à court terme et le contexte à long terme. La première catégorie inclut des éléments contextuels qui peuvent changer d’une recherche à une autre, tels que la localisation géographique de l’utilisateur, la nature de la tâche de recherche ou le type de besoin, etc. La deuxième catégorie quant à elle inclut les éléments contextuels qui peuvent persister et évoluer dans le temps, tels que les centres d’intérêt, les préférences de recherche, etc. Cette notion de contexte ne se limite pas à ces paramètres, plusieurs taxonomies ont été proposées dans la littérature pour définir un contexte multidimensionnel (Daoud 2009; Djalila 2014).
Dans cette thèse, nous considérons deux principales dimensions du contexte: i) le contexte du système, et ii) le contexte de l’utilisateur (cf. figure 2.8).
1. Contexte du système : il englobe les caractéristiques qui sont liées au SRI, notamment le niveau représentatif des données (documents, requêtes de recherche, profil utilisateur) et le niveau interactionnel qui définit les stratégies de recherche et de navigation.
a. Niveau représentatif: il définit le modèle de représentation des documents ainsi que le modèle d’interprétation d’une requête de recherche. Ce niveau inclut le contexte du document et le contexte de la requête utilisateur.
Contexte du document : ce sont les diverses catégories d’information qui sont définies pour représenter et enrichir un document.
Contexte de la requête : ce sont les diverses catégories d’information qui sont définies pour interpréter la requête de l’utilisateur et adapter son contenu aux besoins de l’utilisateur.
b. Niveau interactionnel : ce sont les caractéristiques d’interaction qui s’associent au modèle de recherche et de navigation des données sur l’interface utilisateur. Ces caractéristiques définissent de leur côté le type d’environnement offert à l’utilisateur (classique, social ou hybride). Ce niveau définit également le type d’informations qui peuvent être utiles pour faciliter l’exploration des résultats de recherche. Ces informations s’associent au modèle navigationnel offert par le système. Elles peuvent être de différentes catégories : facettes de données, valeurs de facettes, menus, liste de documents, liens d’exploration, etc. Ce niveau définit aussi la technique d’extraction des données d’intérêt de l’utilisateur qui aident à améliorer ses recherches.
2. Contexte de l’utilisateur : il englobe les caractéristiques personnelles de l’utilisateur. Trois niveaux sont définis, à savoir le niveau cognitif, social, et temporel.
a. Niveau cognitif : ce niveau englobe le contexte des taches de recherche de l’utilisateur et ses centres d’intérêt qui sont recueillis durant ses activités de recherche. Ce niveau sert d’une part à offrir à l’utilisateur des résultats de recherche personnalisés, et d’une autre part à la création d’un aspect collaboratif entre les utilisateurs par la formation de groupes d’intérêts similaires. Cet aspect collaboratif aide à améliorer la recherche de l’utilisateur en lui offrant de nouvelles expériences de recherche à base des groupes d’intérêt formés.
b. Niveau social : il permet de définir l’aspect social de l’utilisateur qui peut être collaboratif lorsqu’il appartient à un groupe d’intérêt, ou individuel dans le cas contraire. Il définit aussi le rôle social de l’utilisateur dans le système.
c. Niveau temporel : cette dimension vient définir le contenu des deux niveaux précédents en terme chronologique. Cela consiste à annoter temporellement les données d’intérêt de l’utilisateur. Ceci permet de déterminer leur fraicheur à chaque période de temps. Cette dimension temporelle permet aussi de définir des groupes d’intérêts évolutifs. Puisque, les intérêts des utilisateurs changent au fil le temps, les groupes d’intérêts changent également à leur tour.
d. Niveau fréquentiel : ce niveau permet de définir le type de besoin de l’utilisateur en deux catégories: temporaire et persistant. Un besoin en information est considéré comme persistant lorsqu’il traduit des centres d’intérêt récurrents qui se répètent à plusieurs activités de recherche. Il est considéré temporaire dans le cas contraire. Cette récurrence aide à définir les données de préférence de l’utilisateur en termes de fréquence.
Approche hybride de personnalisation de recherche d’information
Introduction
La personnalisation de données orientée-utilisateur consiste à intégrer le profil de cet utilisateur dans le SRI afin de l’aider à accéder aux informations qui sont liées à ses préférences et à ses intérêts, et/ou à ceux des autres utilisateurs similaires. Le chapitre précédent a montré comment ces données d’intérêt sont recueillies, représentées, et enrichies au sein d’un modèle générique de profil utilisateur. Dans ce chapitre, nous proposons deux méthodes de personnalisation qui les exploitent en deux façons différentes pour répondre aux besoins spécifiques de l’utilisateur exprimés par des requêtes de recherche.
Il consiste à définir pour chacune de ces deux méthodes proposées, le niveau et la technique d’intégration de ces intérêts dans le système de recherche en vue de répondre à la pertinence des résultats (cf. section I.1.4). Une analyse comparative entre nos propositions et quelques principaux travaux de la littérature est ensuite présentée. Elle est effectuée en termes de plusieurs critères, tels que les types d’intérêts qui sont exploités dans cette personnalisation, les ressources exploitées (couche de traitements et espace mémoire requis pour cette personnalisation), et les stratégies de recherche qui sont offertes par ces différentes techniques.
Intégration du profil utilisateur
Nous avons vu dans les précédents chapitres (chapitre 2 et 3) qu’un SRI se compose de trois principales tâches, à savoir, l’indexation des documents, l’interprétation de la requête utilisateur et le processus de mise en correspondance « requête-document ». Ce processus localise le contenu de la requête dans l’index documentaire et retourne les documents triés selon leur score de correspondance. La question importante est de savoir comment les données d’intérêt de l’utilisateur peuvent être intégrées dans le système pour mieux influencer et accélérer la RI. Selon la littérature, ces intérêts peuvent être intégrés selon diverses façons et à différentes étapes du processus RI. En effet, l’intégration peut être effectuée au niveau de la représentation des documents (Bouadjenek et al. 2013) (Bouhini et al. 2013b), durant le traitement de la requête (De Meo et al. 2010; Bouhini et al. 2016) (Zhou et al. 2017), ou dans le réordonnancement des documents résultats (Daoud et al. 2010b) (cf. section II.2.2).
Dans ce chapitre, nous proposons deux techniques d’intégration de ces intérêts dans le SRI. La première les intègre au niveau de la description des documents dans l’index, et la deuxième les exploite dans le réordonnancement des résultats. Ces techniques tiennent compte en plus des intérêts individuels de l’utilisateur, de ceux des autres utilisateurs similaires. Pour cela, une technique de détection des utilisateurs similaires est également proposée. Ces utilisateurs définissent le voisinage de l’utilisateur cible, ils sont appelés aussi les utilisateurs voisins. Ce voisinage évolue au fur et à mesure de l’évolution des intérêts des utilisateurs. Une technique de détection automatique de ce voisinage est donc proposée.
Démarche I: description personnalisée des documents
Tel qu’il a été vu dans le chapitre précédent, les requêtes de recherche et les étiquettes d’annotation décrivent les besoins de l’utilisateur dans son profil. Ces deux entités décrivent également les documents dans le système d’analyse de données QF (cf. figure 4.3) (Hannech et al. 2016c). En considérant cela, ces données d’intérêt sont exploitées dans notre SRI pour l’enrichissement de l’index documentaire. Dans le chapitre 3, nous avons proposé un modèle d’indexation multidimensionnelle qui permet de décrire les documents selon plusieurs espaces de données. Parmi les espaces proposés, nous citons l’espace social qui décrit le contenu de ces documents avec les étiquettes d’annotation qui sont employées par différents utilisateurs. Ces étiquettes sont toutes mélangées dans l’index sans faire la distinction entre celles qui proviennent d’un même utilisateur et sans faire référence à ces utilisateurs (cf. figure 5.1 partie 1). Cela ne permet d’avoir qu’une seule description commune pour tous les utilisateurs.
Dans ce chapitre, nous proposons une extension de ce modèle d’indexation qui permet d’apporter un aspect descriptif centré utilisateur à l’univers de représentation des documents (cf. figure 5.1 partie 2). Il consiste à décrire ces documents selon chaque utilisateur, ce qui aide à filtrer leurs résultats de recherche selon leurs intérêts. Cela est possible en enrichissant l’univers d’indexation avec les requêtes de recherche et les étiquettes de chaque utilisateur. Ceci aide à promouvoir les documents dont le contenu correspond aux intérêts récurrents de l’utilisateur.
Pour illustrer l’idée générale de cette contribution, considérons l’exemple suivant. Supposons que deux utilisateurs u1 et u2 souhaitent chacun obtenir des informations à propos des logiciels et des conceptions des logiciels. Ils soumettent alors la requête « software design ». L’utilisateur u1 est un informaticien qui s’intéresse aux processus de conception des logiciels. L’utilisateur u2 quant à lui est un architecte, il est donc beaucoup plus intéressé par les logiciels destinés à la conception des maquettes, des bâtiments, etc. Comme nous pouvons le voir, malgré le fait que ces utilisateurs ont formulé la même requête, leur besoin d’information est différent. Nous supposons que nous avons des documents d1, d2 et d3 qui contiennent un nombre d’occurrences différent des jetons de la requête (cf. tableau 5.1)
En se basant sur la distribution des jetons du tableau 5.1, un SRI classique renverrait pour les deux utilisateurs la même liste de documents qui répond à leur requête de recherche et dans le même ordre basé sur leur score de pertinence. Tandis qu’un SRIP, qui prend en compte les préférences des utilisateurs stockées dans leurs profils, considère que le jeton « Software » de la requête est plus important pour u1 par rapport au jeton « Design » et inversement pour u2. Ainsi, il considère que les documents d2 et d1 sont plus pertinents que d3 pour l’utilisateur u1, et d3 est plus pertinent que d1 et d2 pour l’utilisateur u2.
Les questions qui pourraient être posées maintenant sont les suivantes : comment formaliser une représentation personnelle d’un document dans un cadre hybride8, multidimensionnel9 et collaboratif10, qui aide à l’adaptation de l’index documentaire aux intérêts des utilisateurs et contribue à personnaliser leur recherche ? Quelle stratégie adaptative de l’index doit être définie afin de tenir compte de ce formalisme de représentation dans la description globale des documents ? Cette formalisation nécessite en premier lieu, la préparation des données d’intérêt pertinentes pour cette adaptation, et en second lieu la proposition d’une technique de combinaison qui tient compte de la nouvelle représentation.
Préparation des données pour une représentation personnalisée du document
Cette étape consiste à déterminer les données pertinentes pour enrichir la description des documents dans l’index multidimensionnel. Cette tâche est effectuée en plusieurs étapes :
1. Préparation des données d’intérêt de chaque utilisateur qui vont être exploitées dans cette tâche d’enrichissement. Ainsi, deux ensembles de données sont considérés pour chaque utilisateur ??, à savoir, l’ensemble de ses requêtes de recherche noté par ??? qui est exploité dans l’enrichissement des documents au sein des deux espaces, identitaire et sémantique, de l’index, et l’ensemble de ses étiquettes d’annotation noté par ??? qui est exploité au sein de l’espace social.
Adaptation orientée utilisateur de l’index documentaire
Cette étape propose une méthode qui intègre dans l’index multidimensionnel la représentation personnalisée des documents. Dans notre modèle d’indexation, les documents sont organisés en plusieurs espaces et sont structurés au sein de chaque espace en champs de description. Cela permet au système d’effectuer des recherches personnalisées qui ciblent un ou plusieurs espaces d’indexation, cibler ou un ou plusieurs champs de contenu au sein d’un espace donné. Il permet également de privilégier certains d’entre eux selon le besoin d’un ou plusieurs utilisateurs ou selon un paramètre de personnalisation défini par le système. Cela est effectué en appliquant des coefficients de pondération. Ainsi, pour cette adaptation orientée utilisateur, chaque document est enrichi avec plusieurs champs où chacun référence les intérêts d’un utilisateur (ses requêtes de recherche au sein des deux espaces, identitaire et sémantique, et ses étiquettes au sein de l’espace social). Il s’agit d’étendre la description de chaque document ?? au sein de son univers de description avec les intérêts de chaque utilisateur. La figure 5.2 illustre une instance de cette représentation étendue pour un document ??.
Principe de la pondération des jetons d’indexation
Un document est indexé en attribuant des scores de pondération aux jetons qui décrivent son contenu. Ces pondérations représentent leur importance relativement à ce contenu. Elles se basent généralement sur le calcul des occurrences de ces jetons et sur d’autres propriétés qui aident à calculer le score global d’un document par rapport à une requête de recherche. Il existe plusieurs modèles de pondération dans la littérature (cf. section II.1.2.2). Nous avons choisi le modèle BM25F, il est souvent utilisé dans le cas des documents qui sont structurés en plusieurs champs d’information où « F » fait référence aux différents champs (Fields) qui constituent le document (Lu et al. 2006) (Pérez-Agüera et al. 2010). Ce modèle répond exactement à la structure de nos documents dans l’univers d’indexation. Nous commençons dans cette section par donner un rappel sur la fonction de pondération ???,??? d’un jeton ???dans un document ?? structuré en plusieurs champs F. Nous présentons dans la section qui suit le nouveau modèle de pondération étendue.
Modèle de construction du voisinage utilisateur
Définition et motivations
La notion du voisinage est utilisée pour indiquer un groupe d’utilisateurs qui sont similaires à un utilisateur donné. Ce voisinage est intégré dans notre étude pour la définition d’une représentation personnalisée des documents selon un utilisateur donné. Cette représentation du document est considérée comme étant dynamique puisque le contenu du voisinage intégré est de son côté dynamique. Elle est utilisée à la volée lors de l’interrogation de l’index documentaire en personnalisant l’accès sur un sous-ensemble de champs qui décrivent les documents selon l’utilisateur cible et son voisinage. L’intégration de ce voisinage est basée sur les motivations suivantes: considérer seulement les intérêts individuels de l’utilisateur dans la représentation des documents peut engendrer une baisse du rappel système lorsque la recherche actuelle de cet utilisateur représente un nouveau besoin en information pour lui ou elle est exprimée différemment par rapport à ses précédents intérêts. Le système peut alors ignorer les documents qui couvrent ce besoin et qui ne correspondent pas aux intérêts précédents de cet utilisateur. Ces documents peuvent être intéressants pour cet utilisateur.
Dans de tels cas, le voisinage de l’utilisateur peut aider à enrichir cette représentation en bénéficiant des intérêts des autres utilisateurs similaires pour étendre la représentation personnalisée des documents. Aussi, un document peut avoir un score de correspondance faible lorsqu’il est mal décrit par l’utilisateur cible (le cas de la description sociale) ou ne correspond pas à un intérêt récurent de l’utilisateur. La considération d’une description collaborative du document selon un utilisateur et son voisinage peut augmenter son score de correspondance et aide à le promouvoir, en particulier lorsque sa requête correspond à un intérêt récurrent chez ses voisins.
En se référant à la figure 5.3, supposons que les utilisateurs 1 et 4 forment le voisinage de l’utilisateur 2. Lorsque cet utilisateur fait une recherche avec la requête q1, une correspondance « requête-document » qui se base uniquement sur les intérêts individuels de cet utilisateur (la représentation « A »), ne permet pas de localiser le document ??, contrairement à la représentation hybride « B » qui permet d’étendre la représentation de ce document avec les intérêts de son voisinage (la représentation « C »). Ceci permet de localiser ce document. Cette représentation hybride aide aussi à promouvoir ce document en augmentant son score de correspondance avec la requête lorsque l’appariement qui se base uniquement sur la représentation individuelle de l’utilisateur 2 est faible. C’est le cas avec la requête q2 qui se compose des jetons : a, b, et h. Cette promotion est rendue possible en augmentant la fréquence d’apparition des jetons a et b de la requête q2 dans la représentation personnalisée du document lorsqu’elle est étendue avec la représentation « C ». Ceci permet aussi d’étendre la liste des jetons du document qui correspond au contenu de la requête. Cette liste est augmentée avec le jeton « h » qui est absent dans la représentation individuelle « A ». Ceci aide à augmenter son score de correspondance.
Construction du voisinage utilisateur
Ce voisinage est calculé en identifiant pour chaque utilisateur le groupe SFC le plus représentatif de sa recherche actuelle. Contrairement à la prédiction des intérêts, dans une recherche full texte, le besoin de l’utilisateur est explicitement exprimé à travers une requête de recherche. Cette requête n’est pas toujours claire, mais elle peut aider le système à identifier le besoin en information de l’utilisateur qui aide à son tour à définir son voisinage. Ce voisinage dépend ainsi de la recherche actuelle de l’utilisateur et évolue avec l’évolution de ses taches de recherche. Pour ce faire, le système identifie le sujet de recherche qui couvre le contexte de la requête utilisateur au sein des sujets d’intérêt des utilisateurs stockés dans le système QF. Le système crée alors le profil de la requête (cf. définition 5.2) et le projette sur les sujets du système QF. Le résultat est le sujet qui couvre le contexte de cette requête. Lorsque la requête est ambiguë, le système peut identifier plusieurs sujets qui couvrent son contenu, le système doit alors identifier parmi les sujets résultants celui qui représente le plus les attentes de l’utilisateur en se basant sur son profil.
Ce processus sera détaillé dans la section V.2.2 (cf. page 188). Le sujet sélectionné est utilisé pour identifier le groupe SCF pertinent pour la recherche de l’utilisateur. Il s’agit du groupe SCF qui englobe le sujet identifié. Les utilisateurs qui partagent le même groupe SCF représentent une communauté d’intérêt. Pour chaque utilisateur cible, les utilisateurs appartenant à sa communauté d’intérêt forment son voisinage.
Modèle de recherche d’information personnalisée
Ce modèle propose une fonction qui calcule le score de correspondance ???(??,?,??,?) d’un document ?? pour une requête q soumise par un utilisateur ?? au sein de l’index multidimensionnel ?. Cette fonction compare le contenu de cette requête avec celui du document en fonction de chaque espace de recherche ?? et de l’utilisateur cible ??. La correspondance se base sur le calcul des occurrences des jetons qui appartiennent à la fois au contenu du document dans l’espace interrogé ?? et à celui de la requête ?..
|
Table des matières
CHAPITRE 1 : INTRODUCTION GENERALE
I.1. QUESTIONS DE RECHERCHE
I.1.1. SURCHARGE/SURABONDANCE D’INFORMATION
I.1.2. CHANGEMENT ET ÉVOLUTION DU BESOIN INFORMATIONNEL DE L’UTILISATEUR
I.1.3. REPRÉSENTATION DU CONTENU INFORMATIONNEL DES DOCUMENTS
I.1.3.1. Rigidité des modèles de représentation et de recherche d’information monodimensionnelles
I.1.3.2. Modèles multidimensionnels standards et non personnalisés
I.1.4. PERTINENCE DU CONTENU POUR UN UTILISATEUR
I.1.5. COLLECTE DE DONNEES RELATIVES A L’UTILISATEUR
I.1.6. DEMARRAGE A FROID D’UN NOUVEL UTILISATEUR
I.1.7. IMPACT DE L’AVENEMENT DU WEB INTERACTIF CENTRE UTILISATEUR: LE WEB SOCIAL
1.1.8. UTILISABILITE DE L’INTERFACE DE RECHERCHE
I.2. OBJECTIFS
I.2.1. DEVELOPPEMENT D’UN MODELE THEORIQUE ETENDU POUR LA REPRESENTATION DES FACETTES DE DONNEES
I.2.2. MODELE UNI-UTILISATEUR DE PROFILS DE DONNEES D’INTERET.
I.2.3. EXTENSION DU MODELE DE PROFIL DE DONNEES D’INTERET : PASSAGE D’UN MODELE UNI-UTILISATEUR A UN MODELE COLLABORATIF
I.2.4. DEVELOPPEMENT D’UNE APPROCHE DE PERSONNALISATION DE DONNEES
I.3. METHODOLOGIE ET DEMARCHE SCIENTIFIQUE
I.3.1. DEVELOPPEMENT D’UN MODELE ETENDU POUR LA REPRESENTATION DES FACETTES
I.3.2. INTRODUCTION D’UN MODELE UTILISATEUR DE PROFILS DE DONNEES D’INTERET ET DE GROUPES D’INTERET
I.3.3 EXPLOITATION DU PROFIL UTILISATEUR
A. Indexation personnalisée des documents
B. Développement d’une approche de personnalisation de données
I.4. MISE EN OEUVRE ET EVALUATIONS
I.5. ORIGINALITE
I.6. PLAN DE THÈSE
CHAPITRE 2: RECHERCHE D’INFORMATION CLASSIQUE ET EMERGENCE DES APPROCHES AVANCEES
II.1. PARTIE 1 : RECHERCHE D’INFORMATION CLASSIQUE
II.1.1. INTRODUCTION
II.1.2. SYSTEME DE RECHERCHE D’INFORMATION
II.1.2.1. Concepts de base et définitions
II.1.2.2. Fonctionnement du système de recherche d’information
II.1.3. STRATEGIES DE RECHERCHE
II.1.3.1. Recherche par mots clés
II.1.3.2. Recherche par navigation
II.1.3.3. Recherche facettée
II.1.4. MODELES DE RECHERCHE D’INFORMATION
II.1.4.1. Modèles booléens
II.1.4.2. Modèles vectoriels
II.1.4.3. Modèles probabilistes
II.1.5 ÉVALUATION DES SYSTEMES DE RECHERCHE D’INFORMATION
II.1.5.1 Protocoles d’évaluation
II.2. PARTIE 2 : ÉMERGENCE DE LA RECHERCHE D’INFORMATION ADAPTATIVE
II.2.1. FACTEURS D’EMERGENCE
II.2.2. DIMENSIONS D’ADAPTATION
II.2.2.1. Adaptation du contenu informationnel des documents
II.2.2.2. Adaptation de la requête utilisateur
II.2.2.3. Adaptation de l’accès à l’information
II.2.2.4. Adaptation de l’affichage de données
II.2.3. SYSTEMES DE FILTRAGE D’INFORMATION
II.2.3.1. Techniques de recommandation de données
II.2.4. ÉVALUATION DES SRIS ADAPTATIFS : SYSTEMES PERSONNALISES ET SOCIAUX
II.3. CONCLUSION: SYNTHESE ET PRESENTATION DES ASPECTS EXPLOITES DANS CETTE THESE
CHAPITRE 3 : NOUVEAU PARADIGME DE RECHERCHE D’INFORMATION SUR LE WEB BASE SUR UN INDEX D’INTERPRETATION MULTI-ESPACES ET UN ENSEMBLE D’OPERATIONS DE PROJECTION
PARTIE 1 : CADRE CONCEPTUEL D’UN MODELE DE RI MULTI-ESPACES
III.1. INTRODUCTION
III.2. PRINCIPAUX FONDEMENTS THEORIQUES
III.3. NIVEAU STRUCTUREL
III.3.1. INDEXATION DU CONTENU WEB
III.3.1.1. Document web et jetons
III.3.1.2. Espace de jetons
III.3.1.3. Relation de projection et univers de projection
III.3.1.4. Index documentaire multi-espaces
III.3.2. INTERPRETATION DE LA REQUETE UTILISATEUR
III.4. NIVEAU COMPORTEMENTAL
III.4.1. PROCESSUS DE RECHERCHE D’INFORMATION
III.4.2. NAVIGATION MULTIDIMENSIONNELLE
III.5. BILAN ET CONCLUSION
PARTIE 2 : MODELE D’INSTANCIATION D’UN FORMALISME DE RI MULTI-ESPACES
III.1. ARCHITECTURE GENERALE DU SYSTEME
III.2. EXPLORATION ET PREPARATION DE DONNEES
III.3. INDEXATION DES DOCUMENTS WEB
III.4. PROCESSUS DE RECHERCHE D’INFORMATION
III.4.1. INTERPRETATION DE LA REQUETE DE RECHERCHE
III.4.1.1. Processus de construction des clusters de requêtes
III.4.1.2. Modèle de désambiguïsation de sens de mot basé sur le concept de Skyline
III.4.2. RECHERCHE D’INFORMATION ET EXPLORATION DES RESULTATS
III.5. ÉTUDES DE CAS COMPARATIVES
III.6. BILAN ET CONCLUSION
CHAPITRE 4 : PROFIL UTILISATEUR GENERIQUE BASE SUR UNE REPRESENTATION MULTI NIVEAUX DE DONNEES D’INTERET
IV.1. INTRODUCTION
IV.2. CADRE GENERAL ET MOTIVATION
IV. 3. DÉFIS MAJEURS ET OBJECTIFS SPÉCIFIQUES
IV.4. SYNTHESE
IV.5. SYSTEME DE CONSTRUCTION DU PROFIL UTILISATEUR
IV.5.1. ANALYSE COMPORTEMENTALE DE L’UTILISATEUR
IV.5.2. DESCRIPTION FORMELLE D’UN SYSTEME D’ANALYSE DE DONNEES
IV.4.3. PRINCIPAUX CONCEPTS ET NOTATIONS
IV.5.4. MODELE DE CONSTRUCTION DU PROFIL UTILISATEUR
IV.5.4.1. Construction d’un centre d’intérêt utilisateur
IV.5.4.2. Enrichissement du profil utilisateur à base de ses activités de recherche
IV.5.4.3. Illustration du processus de construction du profil utilisateur et son évolution à travers les activités de recherche
IV.5.4.4. Enrichissement du profil utilisateur à base d’un processus d’inférence collaborative de données d’intérêt : recommandation hybride basée sur l’exploitation des règles d’association
IV.7. BILAN ET CONCLUSION
CHAPITRE 5 : APPROCHE HYBRIDE DE PERSONNALISATION DE RECHERCHE D’INFORMATION
V. 1. INTRODUCTION
V. 2. INTEGRATION DU PROFIL UTILISATEUR
V.2.1. DEMARCHE I: DESCRIPTION PERSONNALISEE DES DOCUMENTS
V.2.1.1. Préparation des données pour une représentation personnalisée du document
V.2.1.2. Adaptation orientée utilisateur de l’index documentaire
V.2.1.3. Modèle de recherche d’information personnalisée
V.2.1.4. Classement des résultats de recherche à base des facettes d’intérêt de l’utilisateur
V.2.1.5. Synthèse
V.2.2. DEMARCHE II: PERSONNALISATION DE DONNEES BASEE SUR LE REORDONNANCEMENT CONTEXTUEL DES RESULTATS DE RECHERCHE
V.2.2.1. Proposition de nouveaux documents pour l’utilisateur
V. 3. ANALYSE ET CONCLUSION
CHAPITRE 6 : STRATEGIE DE RECOMMANDATION A DEMARRAGE A FROID BASEE SUR UNE CARTE DE COMMUNAUTES ET L’IDENTIFICATION D’UTILISATEURS CENTRAUX
VI.1. INTRODUCTION
VI.2. SYNTHESE
VI.3. IDEE GENERALE
VI.4. CONCEPTS DE BASE
VI.4.1. ANALYSE DES RESEAUX SOCIAUX
VI.4.2. MESURES D’IMPORTANCE
VI.5. APPROCHE PROPOSEE
VI.5.1. SCENARIO ILLUSTRATIF DU PROBLEME
VI.5.2. MODELISATION DU RESEAU SOCIAL
VI.5.3. CONNECTIVITE ENTRE UTILISATEURS BASEE SUR LA QUALITE DU FLUX D’INFORMATION
VI.5.4. IDENTIFICATION DES UTILISATEURS IMPORTANTS DANS UNE COMMUNAUTE
VI.5.4.1. Mesure d’importance composée
VI.5.5. CONSTRUCTION DU PROFIL D’UN NOUVEL UTILISATEUR
VI.6. CONCLUSION
CHAPITRE 7 : PROTOCOLE D’IMPLEMENTATION ET D’EVALUATION D’UN SYSTEME DE RECHERCHE D’INFORMATION MULTI-FACETTES
VII.1. INTRODUCTION VII.2. MISE EN OEUVRE D’UN PROTOTYPE FONCTIONNEL D’UN SYSTÈME DE RECHERCHE D’INFORMATION PAR FACETTES
VII.2.1. MODULE D’EXTRACTION ET PREPARATION DE DONNEES
VII.2.2. MODULE D’INDEXATION DE DOCUMENTS MULTI-ESPACES
VII.2.3. MODULE DE RECHERCHE D’INFORMATION MULTIDIMENSIONNELLE
VII.2.4. INTERFACE DE RECHERCHE ET DE NAVIGATION PAR FACETTES DE DONNEES
VII.3. CADRE D’ÉVALUATION D’UN SRI MULTIDIMENSIONNEL
VII.3.1 CONSTRUCTION D’UNE COLLECTION DE TESTS ÉTENDUE
VII.3.2. STRATÉGIE D’ÉVALUATION
VII.4.EVALUATION DU MODÈLE DE LA RECHERCHE D’INFORMATION MULTIDIMENSIONNELLE
VII.4.1. EFFICACITE DES FACETTES DE DONNEES ET DES VALEURS DE FACETTES
VII.4.2. ÉVALUATION DU MODÈLE DE DÉSAMBIGUÏSATION DE LA REQUÊTE UTILISATEUR
VII.4.3. MISE À L’ÉCHELLE
VII.5. ÉVALUATION DU MODELE DE RI PERSONNALISEE
VII.5.1. ÉVALUATION DE LA QUALITE DU PROFIL UTILISATEUR
VII.5.1.1. Construction du profil utilisateur
VII.5.1.2. Évaluation de la qualité des données conceptuelles du profil utilisateur
VII.5.1.3. Évaluation de la qualité des données sémantiques du profil utilisateur
VII.5.1.4. Évaluation de la qualité des données contextuelles du profil utilisateur
VII.5.2. ÉVALUATION DU MODULE D’ENRICHISSEMENT DU PROFIL UTILISATEUR PAR RECOMMANDATION COLLABORATIVE D’INTERETS
VII.5.2.1. Évaluation du processus d’extraction des itemsets fréquents
VII.5.2.2. Extraction des règles d’association
VII.5.2.3. Évaluation du processus d’inférence de données
VII.5.2.4. Évaluation de la personnalisation du processus d’inférence de données
VII.5.3. ÉVALUATION DU SYSTEME DE RECHERCHE D’INFORMATION PERSONNALISE (SRIP) PAR INTEGRATION DU PROFIL UTILISATEUR
VII.5.3.1 Évaluation du modèle de l’indexation personnalisée des documents
VII.5.3.2 Évaluation du modèle de personnalisation par intégration du profil utilisateur au niveau du réordonnancement des résultats
VII.6. EXEMPLE RECAPITULATIF
VII.7. CONCLUSION
CHAPITRE 8 : CONCLUSION GÉNÉRALE
VIII.1. CONTRIBUTIONS
VIII.2. LIMITATIONS DU SYSTEME PROPOSE
VIII.3. DIFFICULTES RENCONTREES
VIII.4. FUTURS TRAVAUX