Methodologie et structuration d’un outil de decouverte de connaissances base sur la litterture biomedicale

Les professionnels de l’information biomédicale exercent dans un environnement où les bases de données bibliographiques sont nombreuses et généralement très bien structurées, employant codes (molécules, gènes, protéines) et thesaurus. Le volume d’information qu’elles mettent à leur disposition est conséquent. Pour situer le contexte dans lequel a été réalisé ce travail, nous présentons ici brièvement les bases de données que nous utilisons dans notre pratique quotidienne :

• Medline, produite par la National Library of Medicine, comptant à ce jour plus de 13 millions de citations. Chaque citation est indexée avec les descripteurs du MeSH, thesaurus développé par la NLM. Medline est accessible gratuitement par l’interface PubMed mais également par des serveurs commerciaux (DataStar, STN, Dialog, …). Medline/PubMed et le MeSH sont les sources que nous utilisons pour le présent travail.
• Embase , produite par Elsevier Science BV (Amsterdam), comptant près de 10 millions de citations indexées par le thesaurus EMTREE.
• SciSearch, dont la particularité est de permettre la recherche par référence citée. Elle est produite par Thomson ISI.
• Biosis, produite par Thomson ISI, comptant plus de 13 millions de citations.

Embase, SciSearch et Biosis sont accessibles par des serveurs commerciaux (DataStar, STN, Dialog …). D’autres sources, comme Pascal, les Derwent Drug Files ou ToxLine sont également employées.

Le contexte de l’industrie pharmaceutique

La majorité des publications abordant le travail de Swanson est d’origine académique ou universitaire. Si l’on se base sur la littérature, l’industrie ne semble pas encore s’être réellement penchée sur le sujet. Or, il est aujourd’hui courant de trouver des articles sur le datamining ou le traitement de grands volumes de données par des méthodes bioinformatiques dans les revues de drug discovery. A notre connaissance, seuls Mack et Hehenberger ont abordé le sujet dans ce cadre [Mack, 2002]. Revenant sur le défi que représente la gestion de volume croissant d’informations, ils exposent quelques méthodes d’extraction d’informations et abordent, entre autres, l’exemple de la maladie de Raynaud et de l’huile de poisson. Mack et Hehenberger insistent sur le fait que les technologies aujourd’hui utilisées dans la découverte de nouveaux médicaments produisent de grandes quantités de données : le séquençage de génomes, le séquençage de protéines, les puces à ADN, les tests à haut débit (HTS, high throughput screening), etc…

Le processus de recherche et développement d’un médicament est long car il faut compter une dizaine d’années avant de pouvoir mettre une molécule sur le marché. Le taux d’attrition est très élevé, puisqu’une molécule sur 10.000 aura peut-être la chance d’être mise sur le marché [Lawrence, 2002]. Le coût de développement d’un médicament est estimé en moyenne à 802 millions de dollars US [DiMasi, 2003]. Les laboratoires pharmaceutiques prennent donc beaucoup de risques car ils ne peuvent compter que sur un nombre limité de produits pour financer leur R&D.

Aujourd’hui, l’industrie pharmaceutique a mis en place des stratégies de traitement à haut débit pour la phase précoce de découverte de molécules – drug discovery – [Warne, 2003] : il s’agit de gagner en productivité dans les étapes où il est possible d’automatiser les manipulations répétitives.

Maladie de Raynaud et huile de poisson : la première découverte de Don Swanson et le modèle ABC

En 1986, Don Swanson, professeur à l’Université de Chicago, publie le premier article d’une longue série, dans lequel il expose une méthode originale de découverte de connaissances dans les bases de données bibliographiques [Swanson, 1986a]. Une des idées majeures qui a guidé les travaux de Swanson est qu’avec l’explosion du nombre de publications scientifiques et la fragmentation des communautés de chercheurs autours de thèmes toujours plus complexes, il existe certainement des connections latentes à découvrir. Supposons qu’un champ de la médecine lie une substance A avec des symptômes B et qu’un autre champ de la médecine, bien distinct du premier, lie ces mêmes symptômes B à une maladie C. Si ces deux faits sont décrits séparément dans la littérature, il existe une connexion cachée implicite et logique entre A et C, à travers B. Cependant, jusqu’à ce qu’un chercheur étudie de concert les littératures AB et BC, ce lien restera latent. Son travail sur la maladie de Raynaud conduit Swanson à formuler l’hypothèse selon laquelle l’huile de poisson pourrait agir sur cette pathologie. A l’époque de ces travaux, il était bien établi que les patients atteints de la maladie de Raynaud avaient des problèmes d’agrégation plaquettaire et une viscosité sanguine élevée. Il était également connu que l’huile de poisson a pour effet, entre autres, d’inhiber l’agrégation plaquettaire et de diminuer la viscosité sanguine. Ces deux faits étaient largement repris à travers la littérature. Par contre, il n’existait aucune publication suggérant que l’huile de poisson pourrait traiter la maladie de Raynaud. Après analyse de la littérature, Swanson fut le premier à proposer d’utiliser l’huile de poisson comme traitement pour la maladie de Raynaud. On peut ainsi décrire le modèle de Swanson [Pierret, 2004] : entre un savoir sur une substance thérapeutique A et une maladie C, il existe des liens B, classiquement des phénomènes physiologiques. A travers la littérature biomédicale, les connaissances sur les liens AB et BC peuvent exister bien que la connexion implicite AC ne soit pas connue. Swanson a montré à plusieurs reprises [Swanson, 1986a, 1988, 1990a] que des parties disjointes de la connaissance biomédicale peuvent être connectées en étudiant leurs littératures respectives selon ce modèle transitif où :
• A désigne une substance active (bien souvent un médicament ou une substance chimique, mais également des vitamines, oligo-éléments, minéraux, protéines, …),
• B désigne les aspects physiologiques au sens large (physiopathologie) et l’anatomie,
• et C désigne les pathologies.

Historique de la découverte de Don Swanson

Don R. Swanson est physicien de formation et a manifesté tout au long de sa carrière un grand intérêt pour l’information biomédicale. Professeur émérite de l’Université de Chicago, il a reçu la plus haute distinction de l’ASIST en 2000 (ASIST Award of Merit) pour l’ensemble de ses travaux sur le KDD. Au début des années 80, Don Swanson remarque un article sur l’alimentation des esquimaux. La consommation de poissons et de mammifères marins, riches en acides gras poly insaturés longs, diminue le facteur de risque de maladies cardiovasculaires, d’où leur moindre incidence chez les esquimaux [Dyerberg, 1982] et [Dewailly, 2001]. Swanson effectue alors une série de recherches bibliographiques dans ce sens et il trouve que :
• l’huile de poisson, composée en grande partie de tels acides gras, était connue pour diminuer la viscosité du sang et l’agrégation des plaquettes (favorise la prévention des thromboses et de l’athérosclérose) et pour agir sur la réactivité vasculaire, d’une part,
• et d’autre part, dans la maladie de Raynaud la viscosité du sang et l’agrégation plaquettaire augmentent et il se produit une vasoconstriction exagérée.

Le lien est évident et Swanson fut le premier à formuler l’hypothèse selon laquelle l’huile de poisson est un traitement potentiel de la maladie de Raynaud. En effet, avant 1986, aucun document ne lie l’huile de poisson et la maladie de Raynaud. Une publication détaille son hypothèse d’un point de vue physiologique [Swanson, 1986a] et une autre expose brièvement la méthode employée [Swanson 1987]. En 1989, une équipe de cliniciens d’Albany Medical College à New York montre que même si l’huile de poisson ne permet pas de guérir de la maladie de Raynaud, elle contribue à améliorer l’état des malades [DiGiacomo, 1989].

Swanson résume ainsi le contexte de sa découverte : « In 1985, I was struck by lightning and have never recovered » [Swanson, 2001a]. Il a réalisé que deux informations issues d’articles médicaux différents suggèrent, lorsqu’on les juxtapose, une hypothèse que personne ne connaissait alors. La connexion de deux informations disjointes peut créer une nouvelle connaissance. Son approche était plus intuitive que structurée. En 1986, dans un article publié un an plus tard, il regrette de ne pouvoir décrire de processus systématique de recherche de connexions cachées [Swanson, 1987]. Mais il élabore rapidement une stratégie basée sur l’utilisation de bases des données bibliographiques Medline, Embase et SciSearch, baptisée explore/exclude ou trial-and-error. Cette stratégie permet de rechercher les connections entre deux articles (literatures), non interactifs (ne se citent pas) et complémentaires afin de générer une nouvelle information absente des deux articles considérés séparément [Swanson, 1989a]. Son travail portera principalement sur l’amélioration de sa méthode de KDD et la découverte de nouvelles hypothèses.

Le cadre épistémologique

Bien avant de publier ses travaux sur la maladie de Raynaud et l’huile de poisson, Don Swanson s’est intéressé à la diffusion de l’information biomédicale, principalement dans l’optique d’en améliorer l’accès. Il proposait de travailler, entre autre, sur la précision et le rappel par l’utilisation d’index de citations d’articles et de la notion de couplage bibliographique [Swanson, 1974]. Swanson décrira la recherche d’information, dans le cadre d’un travail scientifique, comme un processus trial-and-error [Swanson, 1977]. Selon lui, la recherche d’information est un processus proche de celui qui conduit à élaborer une théorie scientifique, c’est-à-dire le travail de recherche scientifique. La découverte scientifique ne commence pas avec un sujet, mais avec un problème, le chercheur étant quelqu’un de curieux, persévérant, préoccupé par ce problème. Une hypothèse initiale ou au moins un embryon de solution doit également préexister dans l’esprit du chercheur. La théorie ne naît pas de l’observation. De nouvelles observations peuvent conduire à une théorie, seulement en corrigeant ou en modifiant une théorie préexistante. La connaissance grandit par un processus d’essais et d’erreurs. De manière similaire, la recherche d’information a pour base une hypothèse ou une conjecture et est guidée par une idée que le chercheur souhaite tester. L’attrait principal de la technique trial and-error ne réside pas tant dans son usage direct pour retrouver des documents pertinents que dans le fait qu’elle permet de reformuler une requête. La requête, point de départ de la recherche d’information, est la description imparfaite par le chercheur des attributs qu’il considère qu’un document relavant doit posséder. C’est une estimation – une conjecture – qu’il teste en examinant les documents ramenés par cette requête. Chaque article ainsi trouvé doit être principalement considéré comme un stimulus pour un nouvel essai de requête, sans avoir de critères absolus permettant de dire que la recherche d’information est terminée. Parce que chaque article contribue généralement à dessiner une nouvelle requête, le chercheur apprend en corrigeant ses erreurs. Retrouver des documents non relevants peut parfois s’avérer important dans l’amélioration de la requête, tout comme le font les documents pertinents. Se tromper, faire des erreurs est essentiel dans le processus de recherche. Swanson est convaincu que le processus trial-and-error joue un rôle central dans la recherche documentaire. Il est intéressant de noter que, dans ce papier, Swanson discute ensuite du concept de pertinence – relevance – non dans le but d’en donner une définition absolue, mais plutôt pour aider à dessiner ou évaluer des systèmes de recherche documentaire. Il nous livre deux propositions. Sa première est – du point de vue du présent travail – la plus intéressante, puisqu’un document est défini comme pertinent s’il peut être pris comme un élément qui permet au chercheur de créer un nouveau savoir, au regard de son besoin d’information. Ce nouveau savoir est très subjectif et ne peut être estimé que par le chercheur lui-même. Dans ce sens, la pertinence ne peut pas vraiment être mesurée et c’est un critère qui ne peut être assigné aux documents que par le chercheur lui même. En quelque sorte, selon cette proposition, la relevance est une supposition inscrite dans le cadre du processus trial-and-error, proposition pour laquelle le document jugé pertinent a servi de stimulus. Sa seconde proposition, dit que la relevance est synonyme de « du même sujet », un article pertinent, dans ce contexte traite du sujet à partir duquel – ou pour lequel – la requête a été formulée. Ici, la pertinence est synonyme de trivialité puisque les documents sélectionnés par une requête sont attendus.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
Augmentation du volume d’informations
…et fragmentation du savoir
…vers un nouveau mode d’exploitation des bases de données
bibliographiques
Le contexte de l’industrie pharmaceutique
Maladie de Raynaud et huile de poisson : la première découverte
de Don Swanson et le modèle ABC
Pour résumer
Plan de la thèse
Première Partie : état de l’art
1.1 Historique de la découverte de Don Swanson
1.2 Le cadre épistémologique
1.3 Maladie de Raynaud et huile de poisson
1.3.1 Introduction du modèle ABC
1.3.2 Méthode bibliographique
1.3.2.1 Etude des co-citations
1.3.2.2 Etude du couplage bibliographique
1.3.2.3 Analyse des littératures complémentaires : effet plausible de l’huile de poisson sur la maladie de Raynaud
1.4 Migraine et magnésium, une seconde découverte à partir de la méthode bibliographique
1.5 La méthodologie explore/exclude ou trial-and-error
1.5.1 Première partie : exploration
1.5.2 Seconde partie : exclusion
1.5.3 Résumé de la méthode bibliographique
1.6 Le modèle ABC
1.6.1 Le savoir public caché
1.6.2 Processus de découverte ouvert ou fermé
1.6.3 Logique non-booléene
1.7 Systèmes d’aide à la découverte de connaissance
1.7.1 Arrowsmith
1.7.2 Le DAD
1.7.2.1 Générer C→B
1.7.2.2 Générer B→A
1.7.2.3 Tester A→B←C
1.7.2.4 Etude DAD sur de nouveaux usages potentiels de la thalidomide
1.7.2.5 Effets indésirables désirables
1.7.3 Autres systèmes
1.8 Conclusion de la première partie : valeur de la méthode de Swanson
Deuxième partie : le DPM (Diseases – Physiopathology – Molecules)
2.1 Anamnèse
2.2 Les sources de la National Library of Medicine
2.2.1 La citation Medline
2.2.2 Le MeSH
2.2.2.1 Le MeSH Tree
2.2.2.2 Descripteurs et subheadings
2.2.2.3 Descripteurs majeurs
2.2.2.4 Explosion : utilisation de la hiérarchie
2.2.2.5 Supplementary Concepts Records
2.2.2.6 Mises à jours du MeSH
2.3 La première expérience DPM
2.3.1 Constitution des dictionnaires
2.3.2 Interrogation de Medline sur la maladie de Raynaud
2.3.3 Extraction des concepts B
2.3.4 Interrogation de Medline à partir des concepts B
2.3.5 Extraction des concepts A
2.3.6 Au-delà de l’huile de poisson
2.3.7 Epilogue de la première expérience DPM
2.4 La deuxième expérience DPM
2.4.1 Extraction des concepts B de la littérature sur la maladie de Raynaud
2.4.2 Extraction des concepts B de la littérature sur l’huile de poisson
2.4.3 Identification des concepts B communs aux deux littératures : tester C→B←A
2.4.4 Une première modification du tableau des concepts communs
2.5 La troisième expérience DPM
2.5.1 Etape 1 : définition de la physiopathologie
2.5.2 Etape 2 : requêtes Medline
2.5.3 Etape 3 : extraction des concepts, création des tableaux
2.5.3.1 Extension du calcul du coefficient à n colonnes
2.5.3.2 Autres tableaux
2.5.3.3 Présentation graphique
2.5.4 Etape 4 : analyse par l’expert
2.6 Les biais du DPM
2.6.1 La nature du lien entre deux concepts
2.6.2 L’utilisation du MeSH
2.6.3 Choix des phénomènes physiologiques
2.6.4 Problèmes de hiérarchie
2.6.5 Thesaurus et résultats négatifs
2.7 Conclusion de la deuxième partie
Troisième partie : Evolutions possibles du DPM
3.1 Le DPM et Medline
3.1.1 DPM et texte libre
3.1.1.1 Travail sur les titres seuls
3.1.1.2 Travail sur les titres et abstracts
3.1.1.3 Remarques sur le travail sur les titres et/ou abstracts
3.1.2 DPM et champs contrôlés
3.1.2.1 EC/RN Number
3.1.2.2 Secondary Source ID
3.2 Découverte de connaissances et autres sources d’information
3.2.1 Bases de données bibliographiques
3.2.2 Découverte de connaissances et Internet
3.3 Conclusion de la troisième partie
Conclusion
4.1 DPM, industrie pharmaceutique et expertise
4.2 Diffusion du modèle de Swanson
4.3 Retour sur le travail de Swanson
Bibliographie