Défi de l’élicitation des connaissances
L’âge de Fer
La prochaine phase de l’évolution du Web fût nommée en 2004 : le Web 2.0. Il sera aussi appelé Web Social vu la nature très sociale de ce changement. Cette nouvelle évolution allait inclure une nouvelle masse d’utilisateurs, producteurs et consommateurs, en plus des ingénieurs et académiques qui avaient débuté le projet ainsi que de nouveaux types de contenus (vidéo, musique). Nous en don-nons la définition suivante : Définition – Web Social, Web 2.0 L’expression « Web 2.0 » désigne l’ensemble des techniques, des fonctionnali-tés et des usages qui ont suivi la forme originelle du World Wide Web, carac-térisée par plus de simplicité et d’interactivité. Les internautes peuvent d’une part contribuer à l’échange d’informations et interagir de façon simple, à la fois au niveau du contenu et de la structure des pages, et d’autre part entre eux, créant notamment le Web social. L’internaute devient, grâce aux outils mis à sa disposition, une personne active sur la toile.
C’est alors l’explosion des services d’échange instantané ou asynchrone qui donna l’impulsion initiale à ce changement. Dans les nouveaux réseaux sociaux, les blogs et fora, on pouvait créer des groupes de discussion, créer des évènements ou partager des contenus ne nécessitant aucune connaissance technique. La démocratisation de la création de contenus sur le Web fut facilitée par l’évolution des technologies permettant l’amélioration de l’ergonomie des interfaces telles qu’Ajax12. Toutes ces fonctionnalités très banales de nos jours visant à améliorer le quotidien du plus grand nombre permi-rent la popularisation de l’usage du Web. La plateforme MSN avec son client Windows Live Messen-ger13, en 1995, était un précurseur dans le marché sur ce chemin de l’appropriation du Web par les masses. Ceci dit, le boom de l’utilisation de ces services du Web Social est également dû à la démo-cratisation de l’accès au matériel informatique et à une connexion Internet. D’ailleurs, MSN est le lointain descendant d’un système d’enseignement à distance nommé PLATO développée dans les années 1960. PLATO était une plateforme d’apprentissage à distance qui offrait plusieurs moyens (chats, fora, visualisations etc). La Figure 1 montre une visualisation offerte par PLATO pour l’apprentissage de la chimie.
Cette nouvelle dimension sociale du Web étendait les modes de navigation. Il était possible de navi-guer de page en page, il était possible de faire une recherche sur l’ensemble du Web. L’interconnexion sociale représentée dans les réseaux sociaux permet maintenant aussi une naviga-tion dans l’environnement social. Et les résultats de cette navigation sont le produit d’une indexation classique et du réseau social (partages, feedbacks). Il s’agit d’une nouvelle façon de filtrer l’information sur le Web. Le boom des usages du Web et des services que nous mentionnons s’incarne aussi dans la façon dont les connaissances se créent par l’effort collectif de masse. De plus en plus de sources démontrent le nombre croissant de références à Wikipédia dans la presse aca-démique la complétude de Wikipédia. Il existe par exemple des études sur des sujets spécifiques comme les médicaments [6] ou celle de Temin Kim Park [7] sur la visibilité des publications de Wiki-pédia sur Google Scholar. Ainsi, la transition principale du Web des documents aux Web Social est celle d’une archive documentaire à une communauté qui construit sur ses interactions.
La navigation et la découverte des connaissances qui s’opéraient soit dans une approche la plus lo-cale avec la navigation de site en site soit dans une approche globale de recherche sur tout le Web s’enrichi d’un nouveau mode de navigation. En effet, le Web Social comble l’espace entre ces deux « extrêmes » en permettant à l’utilisateur de découvrir de la connaissance dans son voisinage social (un ami ayant partagé un lien sur le mur de son réseau social favoris) et de naviguer sur le Web de voisinage social en voisinage social. Mais l’évolution des services qui ont permis cette popularisation de l’usage du Web encouragea le développement d’une nouvelle couche du Web. Les services devaient disposer d’une représentation au moins partielle de la connaissance humaine afin de raisonner sur cette connaissance pour s’améliorer. Une grande entreprise d’élicitation des connaissances devait permettre cette évolution. Cela mena à l’ajout d’une nouvelle couche dans le Web : le Web sémantique. Autour de l’utilisateur – central dans le paradigme du Web Social – les connaissances se structurent aussi autour des Con-cepts – brique élémentaires de sens – qui permettent aux machines de raisonner dessus.
Plan
Nous entamons cette dissertation par une étude de l’état de l’art dans laquelle nous inspecterons (i) les avancées dans les formalismes de représentation des connaissances, (ii) les mesures séman-tiques exploitant ces formalismes, (iii) une réflexion sur la notion de point de vue et de subjectivité ainsi que (vi) un développement sur la découverte des connaissances. C’était la base qui a nourri notre réflexion dans la conception du formalisme qui se construit sur (i) les forces et faiblesses des approches de représentation des connaissances existantes, (ii) des méthodes pour exploiter ce nou-veau formalisme afin de donner de nouveaux services aux utilisateur favorisant la découverte de connaissances. Le mécanisme de perspective que nous proposons se base sur (iii) la préservation de la subjectivité de la connaissance dans tout son parcours de la donnée brute à la connaissance inter-prétée.
Nous nous positionnons aussi par rapport aux deux trajectoires de l’élicitation des connais-sances : la construction consensuelle de l’intelligence collective ou son émergence venant de la con-frontation des interactions entre agents. Ce tour d’horizon que nous proposons dans le Chapitre 2 nous permet de commencer à spécifier le formalisme que nous présentons dans le Chapitre 3. Dans ce chapitre central nous introduisons tout le vocabulaire ViewpointS – les objets, méthodes – ainsi que l’implémentation de cette approche dans une API (Interface de Programmation Applicative) permettant de le rendre opérationnel. Nous y décrivons les structures de stockage pour les connais-sances dans l’approche Viewpoints ainsi que les choix architecturaux. Nous expliquons le rôle de la double clé de voute de l’architecture de Viewpoints que sont les viewpoints et les perspectives. L’ensemble des méthodes qui exploitent la topologie de connaissances subjective que nous propo-sons y sont aussi détaillées.
Le Chapitre 4 décrit les expérimentations qui ont été menées et les réflexions qui en sont le produit et qui nous ont permis d’évaluer l’approche. Nous nous basons sur le vocabulaire développé dans le chapitre précédent pour proposer au lecteur plusieurs mises en situation de l’approche ViewpointS. Nous abordons plusieurs jeux de données aux structures différentes afin de démontrer (i) la capacité d’apprentissage du graphe de connaissances, (ii) l’efficacité des méthodes exploitant ce graphe (voi-sinage et distance sémantique) et (iii) l’opérationnalité de l’approche grâces aux prototypes dévelop-pés. Pour finir, le Chapitre 5 résume toute la contribution scientifique et d’ingénierie de cette thèse par rapport au projet ViewpointS. Nous examinerons ce que cette thèse laisse comme outils mais aussi comme opportunités, pistes de recherches, à la prochaine génération d’étudiants, de chercheurs ou d’ingénieurs qui contribuera au projet. Nous faisons état du prototype de moteur de recherche ViewpointsWebApp ainsi que l’API qui permet l’implémentation du modèle ViewpointS. Nous syn-thétisons les résultats précédents dans le Chapitre 6 afin de conclure cette thèse.
Histoire de l’ingénierie des connaissances
Un part importante du travail de la communauté IC a été premièrement de représenter les connais-sances humaines dans un grand nombre de domaines pour qu’elles puissent être traitées par les al-gorithmes. Mais qui élicite cette connaissance et pourquoi ? Les systèmes à base de connaissance trouvent application dans divers domaines. La représentation des connaissances permet premièrement une meilleure indexation des données [13] car elle prend en compte les relation sémantiques entre documents grâce aux ontologies. En effet l’annotation, c’est-à-dire le processus de rattacher des concepts d’ontologie dans les documents ou autres res-sources permet de rattacher les ressources du Web au Web Sémantique. Par exemple, le projet SIFR15 qui soutient financièrement cette thèse a comme sujet central l’indexation sémantique des ressources biomédicales afin d’améliorer leur recherche.
L’annotateur français de SIFR[14] utilise des méthodes statistiques de Traitement Automatique du Langage Naturel (TALN) afin de repérer les mots-clés les plus représentatifs de la ressource que nous souhaitons indexer puis fait correspondre ces mots-clés avec des concepts dans des ontologies biomédicales françaises telles que MeSH fran-çais16 produit par l’Inserm qui est une traduction de MeSH anglais. Si l’indexation sémantique permet d’améliorer la recherche d’information ce n’est pas le seul apport du Web Sémantique à la Recherche d’Informations (RI). Il permet aussi de compléter des requêtes incomplètes et/ou aussi de retrier les résultats de manière plus efficace [15], [16]. De la même manière que l’IC ouvre des voies d’amélioration en RI les systèmes de recommandation peuvent tirer les mêmes bénéfices comme ces exemples de systèmes de recommandation pour l’apprentissage[17], [18].
Les communautés IC ont envisagé diverses approches complémentaires pour organiser collective-ment cette connaissance. Des représentations très structurées sont constituées par consensus par des cercles d’experts, acteurs de la construction du Web sémantique (ex., les ontologies[19] ou les données liées[20]). Une ontologie[21],[22] est l’ensemble structuré des termes et concepts représen-tant le sens d’un champ d’informations, que ce soit par les métadonnées d’un espace de noms, ou les éléments d’un domaine de connaissances. C’est le cas par exemple pour certaines ontologies dans le domaine biomédical nécessitant de l’expertise comme la GeneOntology[23]. Il s’agit d’un projet de bio-informatique inscrit dans la démarche plus large d’Open Biomédical Ontologies17 visant à repré-senter nos connaissances génétiques actuelles. Le domaine biomédical est particulièrement riche d’ontologies telles qu’UMLS (Unified Medical Language System), MeSH (Medical Subjects Headings) ou MedLinePlus18. D’autres domaines nécessitant une expertise comme l’agronomie ont représentés les connaissances qu’ils ont récoltées sur les phénotypes des plantes dans la CropOntology[24]. Toutefois l’élicitation de la connaissance humaine pour permettre à l’IA de la traiter est une très grande entreprise qui nécessite la participation du plus grand nombre. Le Web Social (ou Web 2.0) a ouvert l’accès de masse à la création de contenus sur le Web. Il s’agit d’une opportunité clairement identifiée par Donan ou Quinn dans leurs réflexions sur les perspectives du crowdsourcing aussi dési-gnée comme « Distributive Human Computation » [25], [26].
|
Table des matières
Remerciements
Préface
Abstract
Résumé
Introduction
1.1 Brève histoire du Web
1.1.1 L’âge de Bronze
1.1.2 L’âge de Fer
1.1.3 L’âge d’or : Vers une interconnexion maximale dans le Web
1.2 Découverte de la connaissance
1.3 Partage de connaissances
1.4 Problème abordé dans la thèse
1.5 Plan
État de l’art
2.1 Défi de l’élicitation des connaissances
2.1.1 Histoire de l’ingénierie des connaissances
2.1.2 Représentation du Web Computationnellement Sémantique
2.1.3 Représentation des connaissances par point de vue
2.2 Découverte des connaissances, la surprise de la Sérendipité
2.3 Positionnement de l’approche ViewpointS
2.4 Méthodes topologiques d’exploitation des connaissances
2.4.1 Etat de l’art des mesures de similarité sémantique
2.4.2 Verrous technologiques et perspectives
2.5 Le Point de Vue, brique de base de sémantique individuelle
2.6 La subjectivité dans les systèmes de recommandation
L’approche ViewpointS
3.1 Introduction
3.2 Formalisme
3.2.1 Graphe de connaissances
3.2.2 Perspectives et Knowledge Maps (KMs)
3.3 Méthodes de gestion et d’exploitation du KG
3.3.1 Création de ressources et viewpoints
3.3.2 Méthodes exploitant le graphe de connaissances
3.3.3 Calcul de voisinage sémantique
3.3.4 Calcul de distance sémantique
3.3.5 Métriques sur la structuration des connaissances
3.3.6 Renforcement et affaiblissement des synapses et influence sur les voisinages
Expérimentations
4.1 Preuve de concept sur la capacité de d’apprentissage du graphe de connaissances
4.1.1 Objectifs
4.1.2 Graphe de connaissance
4.1.3 Déroulement de l’expérimentation
4.1.4 Résultats
4.2 Recherche de connaissances dans une base de publications scientifiques
4.2.1 Objectifs
4.2.2 Graphe de connaissance
4.2.3 Fonctionnalités
4.2.4 Exemple d’utilisation
4.2.5 Discussions
4.3 Simulation des stratégies de navigation web en regard de l’apprentissage par Sérendipité
4.3.1 Objectifs
4.3.2 Graphe de connaissance
4.3.3 Déroulement de l’expérimentation
4.3.4 Hypothèses
4.3.5 Résultats
4.3.6 Discussions
4.4 Recommandation de films
4.4.1 Objectifs
4.4.2 Graphe de connaissance
4.4.3 Déroulement de l’expérimentation
4.4.4 Résultats
4.4.5 Discussions
4.5 Benchmark des distances sémantiques de ViewpointS
4.5.1 Objectifs
4.5.2 Graphe de connaissances
4.5.3 Déroulement de l’expérimentation
4.5.4 Résultats
4.5.5 Discussions
4.6 Évaluation de la suggestion de traductions dans ViewpointS
4.6.1 Objectifs
4.6.2 Graphe de connaissance
4.6.3 Déroulement de l’expérimentation
4.6.4 Résultats
4.6.5 Discussions
ViewpointS Web Application
5.1 Objectifs
5.2 Spécifications
5.3 Présentation de VWA
5.4 Architecture
5.5 API ViewpointS
5.5.1 Architecture
5.5.2 Module d’import/export/indexation
5.5.3 Accessibilité
5.6 Cas d’utilisation
5.7 Pistes d’amélioration
Conclusion
6.1 Résultats obtenus
6.1.1 Subjectivité de la Perspective
6.1.2 Subjectivité des viewpoints
6.2 Pistes pour le passage à l’échelle et l’optimisation de perspectives
6.3 Viewpoint final de l’auteur
Annexe 1 Guide de départ rapide
Annexe 2 Benchmark de passage à l’échelle
Méthode
Résultats
Discussions
Annexe 3 Ouverture sur l’optimisation de Perspective
Problématique soulevée
Introduction sur les algorithmes génétiques
Fonctionnement de l’optimisation de Perspective
Génération de la population initiale
Evaluation des individus
Sélection
Création d’une nouvelle population
Utilisations
Annexe 4 La société ViewpointS
Encadrements de stage
Chercheurs associés
Publications de la thèse
Liste des figures
Liste des tables
Liste des algorithmes
Bibliographie
Télécharger le rapport complet