Télécharger le fichier pdf d’un mémoire de fin d’études
Modèles probabilistes
Les modèles probabilistes ont été proposés par (Robertson, 1997), basés principalement sur les probabilités. Ils permettent la modélisation de la notion de pertinence, en estimant la probabi-lité de pertinence d’un document par rapport à une requête. L’idée de base est de sélectionner les documents ayant à la fois une forte probabilité d’être pertinents et une faible probabilité d’être non pertinents. Autres modèles de type probabiliste sont ceux fondés sur les réseaux bayésiens et le modèle de langue. La mesure de similarité document/requête est fondée sur une estimation de probabilité. Différentes approches de calcul de probabilités ont été introduites dans le domaine de la RI, afin d’optimiser les performances de recherche (Robertson, 1997; Song et Croft, 1999), nous citons les approches suivantes :
1. Approche par modèle classique : à partir d’un document et d’une requête, on détermine la probabilité d’avoir l’évènement « le document est pertinent pour la requête ».
2. Approche par réseau d’inférence : à partir du contenu d’un document, on détermine la probabilité pour que la requête soit vraie.
3. Approche par modèle de langue : déterminer la probabilité pour qu’une requête soit gé-nérée à partir d’un document.
Ainsi, on modélise la pertinence comme un évènement probabiliste : pour une requête donnée q, il s’agit d’estimer P (q|d) la probabilité qu’on obtienne une information pertinente par le document d. On peut estimer de la même façon P (N R|d) la probabilité de non pertinence de d. On retourne le document d si P (R|d) > P (N R|d). D’après le théorème de Bayes, la probabilité que le document d soit pertinent pour la requête q est donnée par : Y (1.8) P (R, d|q) ∝ P (R, d|t) t∈q ou P (R, d|t) est la probabilité que le document d soit pertinent en observant le terme t. Plus en détail, cette formule peut être représentée comme suit : P (t, d|R) ∗ P (R) P (R, d|t) = (1.9).
Reformulation de la requête
La reformulation du besoin en information consiste à redéfinir le besoin de l’utilisateur au fur et à mesure de la session de recherche. Cette étape peut être effectuée de différentes manières :
— Manuellement, dans le cas où l’utilisateur soumet lui-même une nouvelle requête.
— De façon automatique, lorsque le système de RI s’appuie sur les termes importants dans les documents les plus pertinents ou visités par l’utilisateur, qui sont réutilisés.
L’approche automatique suppose que l’utilisateur soumet une requête au SRI afin de récupérer les documents pertinents, sinon cette requête devrait être ré-écrite ou reformulée afin de récupérer plus de documents pertinents. La Figure 1.4 donne un aperçu du principe de la reformulation de requête dans le cadre d’un SRI.
La reformulation de requête est un processus qui a pour objectif de générer une nouvelle requête plus adéquate afin d’obtenir un ensemble de résultats plus pertinents, à partir de connaissances du domaine cible, en utilisant les concepts clés contenus dans les documents. La requête initiale est formulée par l’utilisateur, sa modification peut se faire soit par réin-jection de pertinence (relevance feedback) (Salton et Buckley, 1997), soit par expansion de requêtes (query expansion) (Efthimiadis, 1996).
La reformulation de la requête se fait en deux étapes principales, à savoir : (i) trouver des termes d’extension à la requête initiale, et (ii) re-pondérer les termes dans la nouvelle requête.
Le principe fondamental de la stratégie d’expansion de requête est de comparer simplement le contenu de la requête avec les documents de la collection. L’ensemble des documents pertinents restitué est alors très souvent incomplet. Des travaux de recherche ont proposé d’ajouter d’autres termes contenus dans les documents pertinents ou d’ajouter des termes sémantiquement proches ou encore d’ajouter des termes voisins en utilisant des calculs de poids de similarité entre termes. Différentes méthodes d’expansion de requêtes ont été proposées dans la littérature (Xu et Croft, 1996; Adriani et Rijsbergen, 1999; Baziz et al., 2003; Latiri et al., 2012; Carpineto et Romano, 2012; Nawab et al., 2016). L’objectif de ces méthodes d’expansion est d’augmenter le nombre de documents pertinents retrouvés ainsi que d’améliorer le classement des documents les plus pertinents.
Reformulation par réinjection de la pertinence
La réinjection de la pertinence est une technique utilisée pour améliorer la performance de la RI (Rocchio, 1971; Salton et Buckley, 1997). Au cours de ce processus, l’utilisateur utilise une requête initiale, puis fournit un retour sur la pertinence des documents. Les termes de ces documents (jugés pertinents) sont donc ajoutés à la requête initiale. La reformulation par réinjection de la pertinence est une technique qui vise à améliorer la qualité de recherche lorsque la seule évaluation de la similarité entre les requêtes et les documents n’est plus suffisante. Le principe de la reformulation par réinjection de pertinence se résume en quatre étapes principales, à savoir :
1. Les utilisateurs effectuent une première requête ;
2. Des documents sont retournés en fonction de cette première interrogation ;
3. Les utilisateurs doivent ensuite indiquer parmi les documents retournés, lesquels sont pertinents, et/ou lesquels ne le sont pas ;
4. La requête de départ est alors modifiée automatiquement pour tenir compte des juge-ments des utilisateurs.
La méthode de la réinjection de la pertinence a été utilisée dans différents domaines de re-cherche, integrée dans des SRI (Kwan et al., 2015), utilisée dans le cadre de la RI d’image (Duan et al., 2016) ou encore pour la recherche de vidéos (Fernandez-Beltran et Pla, 2016). Ces travaux ont montré une amélioration de performance en utilisant cette méthode par rapport aux techniques standards de recherche.
Reformulation par pseudo-réinjection de la pertinence
La reformulation par pseudo-réinjection de la pertinence (Blind Feedback ou encore Pseudo Relevance Feedback, notée PRF) utilise des techniques de réinjection automatique à l’aveugle pour construire la nouvelle requête. L’idée de base de la PRF est basée sur l’hypothèse que les premiers documents pertinents contiennent de nombreux termes utiles qui aident à distinguer les documents pertinents des non pertinents. En général, les termes d’expansion sont extraits soit selon leur distribution dans les documents retournés, ou selon la comparaison entre la dis-tribution de termes dans les documents retournés et l’ensemble de documents de la collection. Plusieurs autres critères ont été proposés par exemple idf (Rocchio, 1971). De plus, la PRF est une technique courament utilisée pour faire face à l’explosion de l’information sur le web afin d’améliorer la performance de recherche (Buckley et al., 1992; Yu et al., 2003).
L’utilisation de Pseudo-Relevance Feedback a fait l’objet d’un grand nombre d’études depuis plusieurs décennies et beaucoup de modèles ont été proposés dans ce cadre (Thesprasith et Jaruskulchai, 2014; Min et al., 2010; Hammache et al., 2013). À titre d’exemple, dans (Hammache et al., 2013), les auteurs additionnent les poids des relations d’un terme candidat avec chacun des termes de la requête pour déterminer les termes d’expansion. Les termes candidats sont choisis s’ils sont fortement en relation avec les termes de la requête. Ils ont intégré cette technique dans le cadre de modèle de langue. Dans le même cadre du modèle de langue, dans une étude plus récente (Hazimeh et Zhai, 2015), les auteurs procèdent à une analyse des méthodes de lissage dans les modèles de langue pour la PRF. Par ailleurs, (Li et Wang, 2012) a utilisé la technique de PRF pour estimer la difficulté des requêtes permettant d’estimer la performance de la recherche pour les requêtes de recherche d’images. Le Tableau 1.1 montre quelques fonctions de classement de termes basées sur la distribution des termes dans les documents de pseudo-réinjection de la pertinence.
La notation dans le Tableau 1.1 est comme suit :
— t est un terme ;
— w(t, d) indique le poids du terme t dans le document de pseudo-réinjection de pertinence d ;
— p(t|R) et p(t|C) représentent respectivement la probabilité d’occurrence du terme t dans les documents de la pseudo-réinjection de pertinence R ainsi que dans toute la collection de documents C.
Évaluation des performances en RI
L’évaluation est un processus primordial pour toutes les tâches de recherche d’information afin d’estimer leur performance. C’est une stratégie qui permet d’étudier les systèmes de RI et d’identifier l’impact des méthodes et techniques employées dans les approches de recherche. Un but d’un SRI est de satisfaire au mieux le besoin en information des utilisateurs, en retournant les documents pertinents. De ce fait, la qualité des résultats par rapport au besoin exprimé par l’utilisateur ainsi que la capacité du système à retourner ces résultats d’une manière optimale en temps et avec facilité représentent les principaux facteurs pour évaluer un SRI (Heuwing et Mandl, 2007).
Dans cette section, nous présentons le cadre d’évaluation d’un système de RI ainsi que les mesures d’évaluation sous-jacentes.
Collections de test
Les collections de test permettent de comparer directement des résultats obtenus par des systèmes en utilisant des modèles différents. Nous détaillons ci-dessous différents éléments de ces collections.
— Les requêtes sont un ensemble de besoins en information utilisés pour le test. Cet ensemble est appelé également topics dans le jargon des campagnes d’évaluation telles que TREC, CLEF, etc. Le nombre de requêtes doit être important afin d’être le plus représentatif possible de la réalité et pour avoir une évaluation objective. Il faut au moins 25 requêtes pour garantir la qualité de l’évaluation au regard de la statistique (Buckley et Voorhees, 2000). Les requêtes sont souvent créées par les assesseurs des organismes qui organisent l’évaluation. Toutefois, elles peuvent être de vraies requêtes extraites à partir des logs des moteurs de recherche (Baeza-Yates et al., 1999).
— Le corpus de documents est l’ensemble de documents pré-sélectionnés. Il existe plu-sieurs corpus disponibles. Ces corpus diffèrent selon plusieurs critères en fonction de la tâche de recherche que l’on veut évaluer, des documents plus ou moins généraux, plus ou moins spécialisés dans un domaine, exprimés dans une ou plusieurs langues, etc.
— Les jugements de pertinence identifient les documents pertinents pour une requête et représentent la vérité du terrain. Un score de pertinence graduel peut éventuellement être associé à chaque couple document/requête. La réalisation de ces jugements est loin d’être une tâche facile. Il s’agit d’un processus long et coûteux impliquant des humains. Pour de petites collections comme celle de Cranfield (Cleverdon, 1991), il existe des jugements de pertinence exhaustifs pour chaque paire requête-documents. Cependant, pour les grandes collections modernes, les jugements ne se font généralement que pour un sous-ensemble des documents pour chaque requête.
Ces éléments constituent le contexte de l’évaluation, en d’autres termes, ils représentent les éléments principaux qui vont servir à évaluer un modèle de RI. Ce cadre d’évaluation correspond au paradigme de Cranfield (Cleverdon, 1997) qui a suscité la mise en place de plusieurs campagnes d’évaluation. Ces dernières permettent de cibler une tâche particulière et d’évaluer l’efficacité des SRI répondant à cette tâche.
Campagnes d’évaluation
Les campagnes d’évaluation les plus réputées sont :
1. La campagne TREC 2 (Text REtrieval Conference) est une campagne de référence en RI permettant d’évaluer des SRI au regard de la dimension thématique. C’est le protocole le plus utilisé pour évaluer les performances de la RI, fournissant plusieurs collections de test. Initiée en 1992 comme une partie du programme TIPSTER, la campagne TREC est un projet du NIST 3 et la DARPA 4.
2. La campagne CLEF 5(Conference and Labs of the Evaluation Forum) est une initiative permettant de promouvoir la recherche d’information multilingue basée sur les langues européennes. Nous trouvons plus de détails sur l’évaluation à base de différentes collec-tions de test dans (Clough et Sanderson, 2013).
3. La campagne INEX (Initiative for the Evaluation of XML Retrieval) oriente ses tâches de recherche vers des collections de documents structurés.
4. Le projet NTCIR 6 a développé diverses collections de test de tailles similaires aux col-lections de TREC, en se concentrant sur les langues d’Asie de l’Est et la recherche d’in-formation multilingue. Les requêtes sont faites dans une langue, toutefois, les collections de documents contiennent des documents dans une ou plusieurs autres langues.
Nous détaillons dans ce suit les deux campagnes les plus populaires TREC et CLEF ainsi que quelques tâches associées.
Protocole d’évaluation TREC
Les différentes méthodes et mesures d’évaluation sont le cœur des campagnes d’évaluation TREC (Text REtrieval Conference) (Voorhees, 2005). TREC vise à fournir une plate-forme commune pour évaluer les systèmes de recherche d’information en développant des collections de test. Comme présenté ci-dessus une collection de test est constituée d’un corpus de documents, un ensemble de requêtes et un ensemble de jugement de pertinence fournis par des utilisateurs experts. Le corpus de documents et les requêtes associées sont mises à la disposition des différentes équipes participant au TREC.
Les équipes utilisent les méthodes de recherche qu’ils ont développé pour exécuter les requêtes et soumettre les résultats aux organisateurs, sous forme d’une liste ordonnée de documents. Ces derniers évaluent donc les soumissions de chacune des équipes selon les jugements de pertinence.
TREC traite plusieurs domaines et concerne les documents des collections de blogs (Ounis et al., 2006), de vidéos (Smeaton et al., 2006), de tweets (LaRock et al., 2014) et la RI biomédicale dans le cadre de TREC Genomics (Hersh et Voorhees, 2009).
L’évaluation de performance des résultats renvoyés par les différentes approches de RI est principalement basée sur le modèle de Cranfield (Voorhees, 2002). Cette approche d’évalua-tion est basée sur l’hypothèse que chaque document de la collection est jugé pertinent ou non-pertinent pour chaque requête à évaluer (Cleverdon, 1991). Selon le protocole de TREC, la collection de test contient des documents originaux et elle est fournie pour chaque groupe participant. Une première phase est d’indexer la collection selon une technique choisie par les participants. Ensuite, le SRI retourne les 1000 premiers documents pour chaque requête. Les résultats finaux sont soumis à TREC pour être évalués d’une manière officielle.
Plusieurs tâches sont apparues, considérant diverses dimensions et domaines de la RI, telles que la RI orientée utilisateur, la RI médicale, la RI contextuelle, etc. Parmi ces tâches, nous citons :
1. La tâche TREC Filtering : c’est une tâche dans laquelle l’algorithme de recherche décide uniquement si un document est pertinent (cas ou il a été sélectionné) ou pas (cas ou il n’a pas été sélectionné).
2. La tâche TREC Interactive : c’est une tâche qui consiste en la résolution d’un besoin complexe. L’utilisateur interagit avec les systèmes de RI pour sélectionner les documents pertinents.
3. La tâche TREC NLP : le but de cette tâche est de vérifier si les algorithmes basés sur le traitement du langage naturel présentent des avantages comparés aux algorithmes traditionnels de RI basés sur les termes de l’index.
4. La tâche Cross language : c’est une tâche ad-hoc dans laquelle les documents paraissent dans une seule langue mais les requêtes sont de diverses langues.
5. La tâche TREC Contextual Suggestion : elle consiste en une suggestion de lieux d’activités à partir d’un ensemble de profils utilisateur et d’un contexte, traduisant respectivement les préférences et la localisation des utilisateurs.
Protocole d’évaluation CLEF
Cette campagne offre une infrastructure pour diverses tâches, à savoir : évaluer les systèmes multilingues et multimodaux ; possibilité de réglage de paramètres et d’évaluation ; possibilité d’utiliser et d’accéder aux données non structurées, semi-structurées ou très structurées ainsi que les données sémantiquement enrichies ; création des collections de test réutilisables pour les analyses comparatives ; exploration de nouvelles méthodes et approches d’expéri-mentations et d’évaluation innovantes ; et possibilité de discuter les résultats, comparer les approches et échanger les idées afin de partager les connaissances.
CLEF propose différentes pistes d’évaluation : Ad-Hoc Track editions in CLEF pour la recherche de documents multilingues (de 2000 à 2009), Cross-Language Retrieval in Image Collections (ImageCLEF)(de 2003 à 2009), Multilingual Web Track (WebCLEF)(de 2005 à 2008) et beaucoup d’autres pistes comme GeoCLEF et videoCLEF. Plus de détails sur l’évaluation à base de collections de test sont donnés dans (Sanderson, 2010).
Différentes tâches apparaissent au fil du temps dans le cadre de plusieurs initiatives CLEF, telles que :
1. CLEF eHealth : cette tâche explore des scénarios dont le but est d’aider les patients à comprendre et accéder à l’information médicale en ligne « eHealth ». Le but est de dé-velopper des méthodes et des ressources dans un cadre multilingue afin d’améliorer la compréhension des textes médicaux difficiles. Dans le cadre de CLEF eHealth, il existe deux tâches :
— Tâche 1 – Information Extraction from Clinical Data : elle comprend deux parties, à savoir : (a) Clinical speech recognition et (b) Named entity recognition from clinical narratives in European languages.
— Tâche 2 – User-centered Health Information Retrieval qui comprend deux parties, à savoir : (a) Monolingual IR (English), et (b) Multilingual IR (Chinese, Czech, French, German, Portuguese, Romanian).
2. ImageCLEF : ImageCLEF offre quatre tâches dans un objectif global de l’évaluation automatique des annotations et d’indexation des images. Cette tâche s’adresse à différents aspects problématiques de l’annotation dans différents domaines, à savoir :
— Tâche 1 – Image Annotation : cette tâche a pour but de développer des systèmes pour l’annotation multi-concept des images, de la localisation ainsi que la génération des descriptions médicales.
— Tâche 2 – Medical Classification : propose de résoudre le problème de la séparation des figures composées de la littérature biomédicale.
— Tâche 3 – Medical Clustering : résout les problèmes de l’agrégation des images repré-sentant différentes parties du corps en radiologie médicale (x-rays).
— Tâche 4 – Liver CT Annotation : permet d’étudier les rapports automatiques struc-turés en offrant un système qui aide à annoter automatiquement les scanners appelés aussi computed tomography.
3. Question answering (QA) : dans le cadre de cette tâche, un effort pour améliorer les requêtes ou les questions de utilisateurs. En effet, répondre à une question initiale écrite en langage naturel peut demander des données liées à cette requête, des inférences textuelles ou encore un requêtage en texte libre. Les tâches associées sont donc :
— Tâche 1 – QALD : Question Answering over Linked Data ;
— Tâche 2 – Entrance Exams : Questions from reading tests ;
— Tâche 3 – BioASQ : Large-Scale Biomedical Semantic Indexing ;
— Tâche 4 – BioASQ : Biomedical Question answering.
Afin d’accomplir la tâche d’évaluation expérimentale, des SRI expérimentaux ont été dévelop-pés, les deux principaux dans le domaine de la RI, étant Terrier 7 et Lemur 8. Terrier est un moteur de recherche à accès libre très flexible, efficace et facilement déployable sur les grandes collections de documents. Il offre des fonctionnalités pour différentes tâches de RI, comme l’indexation, la recherche et l’évaluation expérimentale sous la dernière version (Terrier 4.0). Le projet Lemur développe et offre des moteurs de recherche, les barres d’outils, des outils d’analyse de texte, et les ressources de données qui appuient la recherche et le développement de la RI ainsi que des outils de fouille de textes. Ces deux moteurs de recherche expérimentaux sont les plus utilisés par la communauté de RI. Dans le cadre de notre travail, nous avons utilisé la dernière version de Terrier (Terrier 4.0).
Mesures d’évaluation en RI
En RI, l’évaluation des résultats de SRI est une phase essentielle et primordiale basée sur les composants (documents, requêtes, jugements) décrits précédemment. La phase expérimentale suppose l’utilisation des métriques d’évaluation qui visent à comparer les modèles utilisés et mettre au point leurs paramètres. En effet, le SRI sélectionne des documents de la collection en utilisant un modèle de RI spécifique et les renvoie à l’utilisateur. Pour mesurer la capacité d’un SRI à retrouver les documents pertinents et à rejeter ceux qui ne le sont pas, deux mé-triques de base sont utilisés pour évaluer l’efficacité de la RI, à savoir : la précision et le rappel.
Soit |B| le nombre de documents renvoyés par le système pour la requête q, |S | le nombre de documents pertinents dans la collection pour cette requête et |S + | le nombre de documents pertinents renvoyés par le système (cf. Figure1.5).
Nous présentons dans la suite les mesures les plus classiques de « Rappel » et de « Précision », ainsi qu’un ensemble de mesures les plus courantes. Le Tableau 1.2 présente les notations utilisées pour les mesures d’évaluation.
Aperçu du domaine de la RI médicale
Enjeux et défis du domaine
La RI médicale se réfère à des méthodologies et des technologies qui visent à améliorer l’accès aux archives d’informations médicales via un processus de RI. Ces informations sont potentiellement accessibles à partir de nombreuses sources, y compris le Web en général, les médias sociaux, des articles de journaux, et les dossiers hospitaliers. Le contenu médical, ainsi que l’information sur la santé est le sujet le plus abordé par les utilisateurs sur internet (Sadasivam et al., 2013), ce qui rend ce domaine important pour les travaux de RI.
L’information médicale est d’intérêt à un large éventail d’utilisateurs, y compris les patients et leurs familles, les chercheurs, les médecins généralistes, les cliniciens et les praticiens ayant une expertise spécifique. De ce fait, il existe plusieurs services dédiés qui cherchent à rendre cette information plus facilement accessible, tels que les systèmes de recherche médicaux sur internet « Health on the Net », destinés au public général et aux praticiens 2.
Malgré la popularité du domaine médical pour les utilisateurs de moteurs de recherche, et de l’intérêt actuel qu’accorde la communauté en RI à ce sujet, le développement des technologies de recherche et d’accès demeure particulièrement difficile et sous exploré. Un des problèmes principaux dans le domaine de la RI médicale est la diversité des utilisateurs de ces services, correspondant à des différences dans les types et les champs de leurs besoins individuels. Autrement dit, la nature de la question médicale dépend des objectifs des utilisateurs, qui ont généralement des niveaux de connaissance médicale très variés. Ces compétences sont en étroite relation avec le comportement des utilisateurs ainsi que leur stratégie de recherche lors de la tâche de RI.
Ces défis peuvent être résumés comme suit :
1. La diversité des besoins en information (Clarke et al., 2013; Dixon et al., 2013) : Un patient avec une maladie récemment diagnostiquée bénéficie généralement d’une in-formation introductrice à sa maladie et son traitement. Les patients vivants avec une maladie et qui essayent de gérer leur état de santé à long terme sont, quant à eux, à la recherche d’une information plus avancée, ou encore de groupes de discussion et de forums de santé.
De la même façon, un médecin généraliste a besoin de l’information de base rapidement pendant une consultation pour conseiller le patient, mais d’une information plus détaillée lors de la prise de décision pendant la consultation. Cependant, un clinicien spécialiste pourrait chercher/être intéressé par une liste exhaustive de cas semblables ou de do-cuments/articles scientifiques liés au cas des patients qui cherchent a être conseillés et guidés. Comprendre les différents types d’utilisateurs et leurs besoins en information est l’un des enjeux de la RI médicale. Ainsi, adapter le processus de RI pour mieux traiter ces besoins en vue de développer des systèmes efficaces, potentiellement personnalisés, est un des plus grands défis du domaine.
2. Connaissances médicales différentes (Zickuhr, 2006) : Les différentes catégories d’utilisateurs de SRI médicaux ont des niveaux très variés de connaissances médicales. De plus, la connaissance médicale des différents individus au sein de la catégorie d’uti-lisateurs peut varier considérablement. Cela affecte la façon avec laquelle les personnes soumettent les requêtes au système et aussi le niveau de complexité de l’information qui doit être retournée, ou encore le type de support pour la compréhension et la désambi-guisation qui s’avère nécessaire pour appréhender les résultats de recherche.
3. Compétences linguistiques différentes (Pang et al., 2014) : Étant donné les différents profils d’utilisateurs, experts ou néophytes, la tâche de RI reste une tâche difficile. En effet, les experts médicaux comme les praticiens médecins et professionnels de santé se focalisent sur la structure PICO pour formuler leurs questions. De plus, ils se basent sur leurs connaissances du domaine en utilisant des ressources externes comme les ontologies du domaine. Cependant, les utilisateurs néophytes comme les patients et leurs familles, manifestent des difficultés dans la tâche de recherche dans les choix des termes.
Ainsi, plusieurs problèmes se posent, nous citons les plus abordés par la communauté de RI :
— La quantité importante de littérature médicale (Nourbakhsh et al., 2012; Califf et al., 2013). Prenant l’exemple de Entrez 3 qui publie des références de plus de 34000 journaux chaque année (plus d’un million d’articles de journaux au total). Cela rend la tâche de trouver l’information spécifique au besoin en information difficile.
— Expression des besoins en information d’une manière inadéquate (Soldaini et al., 2015c; Hanbury, 2012). La plupart du temps, les médecins ignorent leur besoin en information, ce qui rend difficile d’exprimer leur besoin avec des requêtes appropriées. Par ailleurs, exprimer des requêtes claires et spécifiques, par les experts ou les non experts du domaine médical demeure une tâche compliquée.
— La nature de la tâche de RI médicale avec la contrainte du temps « Time-consuming » (Keenan et al., 2013). En raison de la grande quantité de littérature médi-cale, le temps nécessaire pour trouver les documents pertinents dans la littérature liés aux patients s’est considérablement élargi. Dans la plupart des cas, le processus de collecte prend plus de temps que le médecin peut épargner. Selon (Merry et Korsmeyer, 1997), une tâche de recherche de plus de 30 secondes n’est pas acceptable pour les médecins.
Typologie de l’information médicale
Dans (Hersh, 2009), l’auteur a classé l’information médicale selon deux catégories, à savoir :
(1) la littérature du domaine médical et (2) l’information qui concerne le patient.
La première catégorie représente la littérature primaire qui englobe les informations qui ap-paraissent dans les livres et les rapports. Ce sont les publications des travaux de recherche, produits par des chercheurs, comme les brevets, les rapports, les articles originaux de la presse spécialisée, conférences, livres, thèses et mémoires, nous citons :
— La littérature grise, qualifiée aussi de « non conventionnelle » ou de « souterraine », est consti-tuée de la multitude de documents qui échappent aux circuits commerciaux traditionnels de l’édition (rapports de recherche, thèses, actes de congrès etc.). Ils ont la particularité d’être mal diffusés et mal répertoriés dans les bases bibliographiques.
— Les documents EBM (Evidence Based Medicine) constitués des consensus et recomman-dations faisant partie de cette catégorie. Il s’agit de documents émanant d’instances officielles comme l’ANAES ou l’AFFSAPS ou semi officielles comme les sociétés savantes.
En plus de l’information primaire, la première catégorie englobe l’information secondaire. Cette dernière est la synthèse de la littérature primaire comme les articles de revue dans les journaux et les livres. Elle comprend les données bibliographiques et les commentaires des documents primaires. L’information secondaire concerne les informations spécifiques aux patients visant à informer ceux qui cherchent une information précise sur la maladie du patient, les praticiens et peuvent être présentes sous forme de comptes-rendus médicaux.
Nous détaillons dans ce qui suit les deux catégories principales d’information biomédicale susmentionnées.
La littérature biomédicale
La littérature biomédicale comprend l’information disponible dans les bases de données bibliographiques, faisant référence aux revues scientifiques et aux comptes rendus des conférences du milieu médical. MEDLINE est la base de données de référence dans le domaine. Créée et gérée par la National Library of Medicine 4 (NLM), MEDLINE contient des citations de journaux et des résumés pour la littérature médicale regroupant des informations et des références de millions d’articles scientifiques indexés en langue anglaise. Ces informations couvrent toute l’information du domaine de la médecine, de la médecine dentaire, des soins infirmiers, la médecine vétérinaire, des para-médicaux, etc. PubMed est un portail dédié à fournir un accès gratuit à l’information dans MEDLINE ainsi qu’aux liens des résumés d’articles ou d’articles en texte intégral. Couvrant plus de 24 millions de citations de la littérature biomédicale de MEDLINE, les citations et résumés de Pub-Med comprennent les champs du domaine biomédical et de santé, la science de la vie, la science du comportement, les sciences de la chimie, et la bio-ingénierie. De plus, PubMed fournit l’accès à des sites web supplémentaires pertinents et des liens pour d’autres res-sources de la biologie moléculaire du National Center for Biotechnology Information (NCBI 5). La base MEDLINE est constituée d’un ensemble de documents, qui sont produits par un ensemble de spécialistes de l’information de la NLM, à savoir : (1) les bibliothécaires qui obtiennent les revues et vérifient les problèmes récurrents des journaux ; (2) les indexeurs humains, qui sont des spécialistes du domaine médical, analysent les contenus des articles et décrivent les concepts présentés en utilisant le vocabulaire contrôlé MeSH 6. Plus précisément, l’indexation est soit manuelle ou semi-automatique en utilisant les termes MeSH ; et (3) les spécialistes de l’informatique et de l’information, qui développent et entretiennent le système ou le moteur de recherche.
Pour la langue française, un catalogue des sites médicaux en langue française a été crée : CiSMeF 7. Ce portail fournit une sélection de sites, d’articles et de documents en libre accès. D’une manière générale, une classification de la littérature médicale est donnée par le Tableau 2.1.
Par ailleurs, une classification de l’information textuelle médicale est donnée dans le Tableau 2.2.
Les dossiers médicaux des patients
Le dossier médical d’un patient ou personnel (DMP) est un dossier médical informatisé. Il per-met aux professionnels de santé qui prennent en charge le patient de partager les informations de santé. Il rassemble les informations médicales, strictement nécessaires à la coordination des soins : prescriptions, synthèses médicales, comptes rendus d’hospitalisation, résultats d’ana-lyses, antécédents médicaux et chirurgicaux, etc. Il est organisé en huit espaces : synthèse médicale, traitements et soins, comptes rendus (hospitalisations, consultations), imagerie mé-dicale (radios, IRM, etc.), analyses de laboratoire (sang, urine, etc.), prévention (rappels de vaccination) et certificats et déclarations. Le DMP peut être créé lors d’une consultation mé-dicale ou lors d’une admission dans une structure de soins. Il constitue le noyau fondamental de la qualité des soins dans les hôpitaux et a deux objectifs principaux, à savoir :
— Fournir au médecin traitant l’information la plus complète pour qu’il puisse proposer le traitement ou les examens les plus adaptés et également d’éviter des redondances inutiles d’examens ou de prescriptions.
— Accélérer les capacités de l’ensemble des acteurs à produire et à partager des données de santé de manière sécurisée, dans le but de mieux coordonner les soins.
Quelques ressources termino-ontologiques du domaine biomédical
Les professionnels de santé ont recours à une terminologie spécifique au domaine de la Santé pour exprimer des besoins divers. De nombreuses terminologies médicales existent et chacune d’entre elles a été créée pour répondre à un besoin donné. Les besoins sont globalement de quatre natures : (1) coder l’information, en particulier l’information de soin de patient ou la Santé Publique ; (2) indexer des documents, en particulier la littérature biomédicale ; (3) représenter les entités dans les systèmes experts et les systèmes d’aide à la décision en général ; et (4) servir de support « en interface » pour le recueil d’informations.
Nous présentons dans ce qui suit les terminologies les plus utilisées dans le domaine médi-cal : MeSH et UMLS, qui sont des ontologies médicales, la nomenclature SNOMED et Gene Ontology (GO).
Thésaurus MeSH
Créée par la NLM 8 en 1954, le thésaurus MeSH (Medical Subject Heading) permet d’indexer, classer et rechercher des documents (notamment ceux de MEDLINE). MeSH comprend essen-tiellement des termes qui désignent les concepts biomédicaux, des descripteurs, des relations et des qualificatifs. Concrètement, MeSH a un moteur de recherche en ligne qui évolue chaque année. Il est régulièrement mis à jour, et la traduction vers le Français a été assurée par l’INSERM 9. La structure de MeSH est hiérarchique avec une arborescence composée de :
— Terme : Un terme est un mot ou un ensemble de mots ayant un sens particulier.
— Concept : Un concept est constitué de un ou plusieurs termes synonymes et il est désigné par le nom de l’un de ces termes appelé terme préféré (preferred terms).
— Relation : Elle représente les relations qui existent entre les concepts dans la hiérar-chie MeSH. Il existe deux types de relations : les relations hiérarchiques et les relations associatives (associé à). La hiérarchie dans MeSH est représentée par un code reflétant l’arborescence à laquelle le concept appartient et peut véhiculer plusieurs sens, tels que à titre d’exemple :
1. relation « est une partie de » (méronymie), par exemple le concept « nez » (A01.456.505.733) est une partie de « visage » (A01.456.505).
2. relation « est sémantiquement proche de » (aboutness), par exemple le concept « sécu-rité » (G03.850.110.060.075) est sémantiquement proche de « accidents » (G03.850.110).
3. relation « est un type de » (hyponymie), par exemple le concept « prémolaire » (A14.549.167.860.200) est un type de « dent » (A14.549.167.860).
— Descripteur : connu sous le nom de Main Headings (MH), un descripteur est constitué d’un ou plusieurs concepts ayant des significations proches et porte le nom d’un de ses concepts dit préféré. Les autres concepts présentent des relations sémantiques avec le concept préféré, soit hiérarchiques soit associatives. Les descripteurs MeSH sont répartis en 16 catégories recouvrant différents domaines de la médecine.
Chaque catégorie est structurée en arborescence hiérarchique pouvant comprendre jus-qu’à 11 niveaux de hiérarchie. Chaque descripteur est représenté par un code alpha-numérique, la lettre indiquant la catégorie et la séquence numérique précisant la lo-calisation dans la hiérarchie (Cf. Tableau 2.4). Un descripteur peut avoir plusieurs localisations, au sein d’une même catégorie ou de catégories différentes, et plusieurs codes alphanumériques représentant chacun une localisation. Par exemple, le descripteur « Pain » appartient à plusieurs hiérarchies, C10.597.617, C23.888.592.612, C23.888.646, F02.830.816.444, G11.561.600.810.444.
— Qualificatif : Les qualificatifs servent à décrire un aspect particulier sur les entrées MeSH, qui sont utilisés seuls ou associés à un descripteur. Notons que le sens du descrip-teur est plus précis quand il est accompagné du qualificatif
|
Table des matières
1 Contexte et problématique
2 Contributions
3 Organisation de la thèse
4 Publications dans le cadre de la thèse
I Recherche d’information et domaine médical : Synthèse des travaux de l’état de l’art
1 Recherche d’information : Concepts et modèles
1 Introduction
2 Concepts de base de la RI
2.1 Fondements
2.2 Mise en œuvre d’un SRI
2.2.1 Indexation
2.2.2 Interrogation
3 Taxonomie des modèles de RI
3.1 Modèle booléen
3.2 Modèle vectoriel
3.3 Modèles probabilistes
4 Reformulation de la requête
4.1 Reformulation par réinjection de la pertinence
4.2 Reformulation par pseudo-réinjection de la pertinence .
5 Évaluation des performances en RL
5.1 Collections de test
5.2 Campagnes d’évaluation
5.2.1 Protocole d’évaluation TREC
5.2.2 Protocole d’évaluation CLEF
5.3 Mesures d’évaluation en RI
6 Conclusion
2 Recherche d’information médicale : principes de base
1 Introduction
2 Aperçu du domaine de la RI médicale
2.1 Enjeux et défis du domaine
2.2 Typologie de l’information médicale
2.2.1 La littérature biomédicale
2.2.2 Les dossiers médicaux des patients
2.3 Quelques ressources termino-ontologiques du domaine biomédical
2.3.1 Thésaurus MeSH
2.3.2 Méta-thésaurus UMLS
2.3.3 Nomenclature SNOMED
2.3.4 Gene Ontology GO
3 Étude des besoins en information médicale
3.1 Catégories de requêtes médicales
3.2 Caractéristiques des requêtes médicales
3.2.1 Caractéristiques selon les utilisateurs
3.2.2 Caractéristiques linguistiques
3.2.3 Sujet de la requête
3.3 Stratégies et comportements de recherche
4 Techniques et modèles de RI médicale
4.1 Expansion de requêtes
4.2 Expansion de documents
5 Modèles de RI basées sur le paradigme PICO
5.1 EBM et paradigme PICO
5.2 Identification des éléments PICO
5.3 Modèles de RI basés sur les facettes PICO
6 Campagnes d’évaluation pour la RI biomédicale
6.1 Campagne d’évaluation TREC
6.2 Campagne d’évaluation ImageCLEF
7 Aperçu de systèmes de RI médicaux
7.1 PubMed
7.2 EMERSE
7.3 CisMef
7.4 Doctissimo
7.5 iMed
7.6 MedSearch
8 Conclusion
II Analyse et évaluation de requêtes médicales
3 Analyses statistiques exploratoires des facteurs caractéristiques des requêtes expertes
1 Introduction
2 Motivations et questions de recherche
2.1 Motivation
2.2 Objectifs et questions de recherche
3 Définition et formalisation des attributs de requêtes
3.1 Longueur de la requête
3.2 Spécificité de la requête
3.3 Clarté de la requête
4 Caractérisation du besoin en information des experts du domaine médical
4.1 Description des données d’analyses
4.1.1 Collections de la campagne d’évaluation TREC
4.1.2 Collections de la campagne d’évaluation CLEF
4.2 Analyses et résultats
4.2.1 Identification des Caractéristiques de requêtes
4.2.2 Analyses de corrélation des attributs de requêtes
4.3 Synthèse et discussion
4.3.1 Analyses multidimensionnelles des corrélations entre les attributs
4.3.2 Impact des attributs des requêtes sur les performances de recherche
5 Caractérisation des requêtes PICO
5.1 Analyses descriptives
5.2 Analyses de corrélations entre attributs de requêtes PICO
6 Bilan et conclusion
4 Évaluation des requêtes cliniques : Modèles sémantiques pour mieux répondre aux questions PICO
1 Introduction
2 Motivations et hypothèses
3 Aperçu général de nos contributions
4 Processus d’élicitation sémantiques des requêtes PICO
4.1 Méthode de génération de graphes
4.2 Identification de concepts les plus pertinents
5 Évaluation des requêtes cliniques
5.1 Expansion sémantique des requêtes clinique
5.2 Modèle d’ordonnancement basé sur un opérateur d’agrégation prioritaire des scores
5.2.1 Cadre général
5.2.2 Calcul de scores de pertinence des documents
6 Évaluation expérimentale
6.1 Données expérimentales
6.2 Évaluation de l’approche d’expansion de requêtes
6.2.1 Métriques d’évaluation et modèles de référence
6.2.2 Ajustement des paramètres
6.2.3 Analyse de l’efficacité de la recherche : évaluation comparative
6.2.4 Discussion
6.3 Évaluation du modèle d’ordonnancement de documents
6.3.1 Objectifs
6.3.2 Métriques et protocole d’évaluation
6.3.3 Efficacité du modèle de pertinence basé sur l’agrégation des scores
6.3.4 Analyse de la robustesse du modèle d’agrégation de pertinence
6.3.4.1 Analyse globale
6.3.4.2 Analyse au niveau requête
7 Bilan et conclusion
Conclusion générale
Synthèse des contributions
Perspectives
Bibliographie
Télécharger le rapport complet