Raisonnement incrémental sur des flux de données

La quantité de données produites chaque seconde sur Internet est devenue gigantesque ces dernières années. L’Homme a créé au cours des 18 derniers mois autant de données que depuis le début de son existence. En 2015, 29 téraoctets de données sont publiés chaque seconde sur le Web . Toutes ces données sont souvent brutes et représentées sous de nombreux formats. Le Web Sémantique a pour vocation de représenter ces données de façon à ce qu’elles soient interprétables tant par une machine que par un humain. Grâce à cette formalisation, les données brutes présentes sur le Web deviennent des connaissances structurées. Cette quantité phénoménale de données peut alors être automatiquement traitée par des machines, ce qui serait impossible par des méthodes de traitement manuelles. Une des opérations permises par cette formalisation des données du Web est le raisonnement. Son objectif est de rendre explicites d’éventuelles informations implicites grâce à un ensemble de déductions logiques. Par exemple, sachant qu’un chat est un félin et qu’un félin est un animal, il est logique de déduire qu’un chat est un animal. Ce genre de déductions logiques est utilisé pour appliquer le raisonnement. C’est à cette opération que nous nous intéressons dans cette thèse, plus particulièrement au raisonnement par règles d’inférence. La matérialisation correspond au stockage des connaissances implicites extraites par cette opération.

Le Web Sémantique

Historique

Le concept de modèle de réseau sémantique apparaît dès à la fin des années 1960 [9–11], introduisant l’idée de représenter des connaissances de manière structurée. Lors de la création du Web à la fin des années 80, le principe de mise en relation des documents est introduit. Par la suite, le réseau de liens hypertextes des pages Web est étendu en y ajoutant des métadonnées interprétables par une machine, leur permettant d’accéder aux pages de manière plus intelligente et d’effectuer des traitements automatiques.

Peu après sa création, le W3C publie en 1997 les premières recommandations sur le Web sémantique et pose ainsi les bases de ce nouveau concept de Web. Pour devenir universels, les outils du Web sémantique se doivent d’être libres et ouverts à tous.

Tim Berners-Lee, réputé fondateur du W3C et instigateur du Web sémantique, en présente en 1999 sa vision :

“J’ai fait un rêve pour le Web [dans lequel les ordinateurs] deviennent capables d’analyser toutes les données sur le Web – le contenu, les liens, et les transactions entre les personnes et les ordinateurs. Un « Web Sémantique », qui devrait rendre cela possible, n’a pas encore émergé, mais quand ce sera fait, les mécanismes d’échange au jour le jour, de bureaucratie et de nos vies quotidiennes seront traités par des machines dialoguant avec d’autres machines. Les « agents intelligents » qu’on nous promet depuis longtemps vont enfin se concrétiser.”

C’est en 2001 que Berners-Lee, Lassila et Hendler vulgarisent le Web sémantique [5] et en 2006 que Berners-Lee introduit la notion de Linked Data [70], ou données liées, renforçant l’importance de l’interconnexion des données. En 2009, il lance le “Raw Data Now” (ou “des données brutes maintenant”), qui incite chacun, qu’il soit politique, scientifique, professionnel ou toute autre personne, à ouvrir ses données afin de les connecter.

Les objectifs du Web sémantique, définis il y a maintenant plus de vingt ans, perdurent et dirigent toujours son évolution.

Depuis la création du Web, la quantité de données disponibles n’a cessé de croître de manière exponentielle, particulièrement ces dernières années. L’objectif premier du Web sémantique est d’étendre le Web afin de faciliter la recherche, le partage et l’agrégation de connaissances au sein de cet océan d’informations. Les opérations fastidieuses, comme la recherche d’information, seront déléguées aux machines alors capables d’interpréter les demandes des utilisateurs à un niveau sémantique. Pour cela, il est nécessaire de rendre le Web compréhensible à la fois par les humains et les machines. Le Web sémantique apporte également une standardisation tant dans la forme de la représentation des connaissances que dans la représentation elle-même. En effet, le partage permet d’unifier les concepts définis et crée un pont entre les applications, les systèmes et les utilisateurs qui échangent dans un langage commun. Mais derrière ces objectifs se cachent des défis conséquents que devra surmonter le Web sémantique pour atteindre son but.

Tout d’abord, les technologies du Web sémantique devront donc être capables de passer à cette échelle du Big Data [76]. La quantité de données accessibles sur le Web est devenue au fil des années plus que gigantesque. À titre d’exemple, en 2014, chaque minute plus de 3 millions de partages sont effectués sur les principaux réseaux sociaux, 72 heures de vidéos sont envoyées sur YouTube et 200 millions de courriels sont transmis, le tout par 2,3 milliards d’utilisateurs . Afin de traiter de tels volumes de données, un travail important est nécessaire que ce soit au niveau de la conception des algorithmes qui composeront les outils du Web sémantique, ou de l’infrastructure capable de passer à l’échelle. Ce travail représente une première barrière significative à l’application du Web sémantique. En plus de la quantité phénoménale de données à traiter, la fréquence extrêmement élevée à laquelle de nouvelles informations sont créées [13] rend le problème encore plus complexe. Il ne s’agit pas seulement de gérer la quantité déjà considérable d’informations existantes, mais également de prendre en charge celles continuellement générées, au fur et à mesure de leur arrivée. Il est indispensable de gérer ces données aussi vite qu’elles arrivent, car le flux est ininterrompu, donc tout retard dans le traitement des données se répercuterait sur la suite et pourrait devenir irrécupérable ou engendrer des pertes de données.

Un autre obstacle porte sur la difficulté de représentation des connaissances. Le Web sémantique vise en effet à décrire des concepts flous, incertains, imprécis avec potentiellement une infinité de variantes, et ce dans un langage formel, précis, exact et logique [52]. Ce langage devra donc permettre de représenter ces concepts avec le plus de précision, tout en conservant ses caractéristiques formelles, afin de pouvoir y appliquer des traitements logiques. Certains travaux permettent déjà de représenter des connaissances introduisant des probabilités [7, 21, 24]. Mais l’utilisation de ces connaissances probabilistes amène une complexité supplémentaire aux traitements qui y sont appliqués. Ceci nous ramène au défi du point précédent, concernant le passage à l’échelle.

La confiance que nous plaçons dans les informations qui nous sont accessibles, que ce soit sur internet ou n’importe quel autre média, est une problématique capitale datant de bien avant l’apparition du Web. Même une fois écartées les erreurs de saisies, les erreurs de « bonne foi » sont toujours possibles, commises sans mauvaises intentions par des personnes dont les connaissances sont erronées. Mais le plus grand problème reste la tromperie. Lorsque les données sont unifiées, il devient difficile d’évaluer la confiance que l’on peut accorder à une information. Cette confiance, bien qu’elle soit guidée par une opinion globale, est personnelle et différente pour chaque individu, comme le précise Richardson dans un article de 2003 [63]. Il est donc nécessaire de mettre en place des mécanismes permettant de déceler d’éventuelles erreurs dans les données accessibles, mais également de donner à l’utilisateur des indications pour l’aider à estimer la confiance qu’il peut accorder aux connaissances qui lui sont présentées.

Cette liste n’est bien sûr pas exhaustive, mais permet d’entrevoir la complexité du travail à accomplir pour atteindre les objectifs du Web sémantique. Certains défis n’ont été que partiellement traités, et d’autres ne seront mis au jour qu’avec l’avancement de la mise en place du Web sémantique.

Critiques

Le Web sémantique possède un certain nombre de détracteurs et il est important de fournir une vision équilibrée du Web sémantique dans ce chapitre. L’association des données permet de retrouver directement des informations liées à un concept grâce au réseau de liens qui compose ce concept. Cette facilité de récupération des données, prônée par les défenseurs du Web sémantique, inquiète ses détracteurs pour des raisons de sécurité et de respect de la vie privée. La critique principale du Web sémantique concerne sa faisabilité. Le Web sémantique s’appuie sur le partage de modèles et de connaissances. Ce paradigme nécessite donc une collaboration et une entente entre les acteurs du Web. Une telle coopération semble difficile étant donné les enjeux actuels de la possession d’information et du contrôle des échanges. En 2001, Doctorow [14] présente une liste de sept obstacles mettant en défaut la fiabilité du Web sémantique :
• Les gens mentent ;
• Les gens sont paresseux ;
• Les gens sont stupides ;
• Il est difficile de se décrire soi-même ;
• Les classifications ne sont pas neutres ;
• L’unité de mesure retenue influence les résultats ;
• Il y a plusieurs façons de décrire une même chose.

Il note également que les données ne sont pas éternellement vraies, et qu’elles ne peuvent pas intégrer de nouveaux concepts. Il en déduit donc que le Web sémantique ne pourrait pas fournir des données exactes et valides. Le temps et la complexité nécessaires à la création et à la publication de nouvelles ressources sont, du fait de la formalisation inhérente au Web sémantique, plus chronophages et plus complexes que pour des données brutes. Ces opérations nécessitent également la maîtrise d’outils ou langages supplémentaires pour la sémantisation des données. Cette surcharge est cependant contrebalancée par la simplification des tâches de recherche et de traitement des informations amenées par la sémantique. D’autres critiques du Web sémantique portent sur la lourdeur de la formalisation, extrêmement verbeuse et volumineuse pour le stockage de chaque donnée. Malgré ces réserves, le Web sémantique continue d’évoluer et de plus en plus d’applications intègrent des données sémantiques. On peut citer DBPedia [27] qui a pour objectif d’extraire des données de Wikipedia et de les structurer, pour ensuite les mettre à disposition sur le Web. Le vocabulaire FOAF (Friend Of A Friend) [73], qui permet de décrire les informations sur un individu et les relations qui le lient avec d’autres individus, est de plus en plus utilisé comme référence pour le stockage de profil. BioPortal 6 regroupe une grande quantité d’ontologies dans le domaine du biomédical afin de les rendre facilement accessibles.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

I Introduction
1 Introduction
1.1 Contexte
1.2 Motivations
1.3 Contributions
1.4 Organisation du manuscrit
II État de l’art
2 Notions préalables
2.1 Le Web Sémantique
2.2 Représentation des connaissances
2.3 Le raisonnement
2.4 Formalisation
2.5 Conclusion du chapitre
3 Solutions pour le raisonnement
3.1 Types de raisonnement et applications
3.2 Raisonnement par lots
3.3 Raisonnement incrémental
3.4 Points clés des solutions étudiées
3.5 Bilan sur les solutions de raisonnement
III Contribution
4 Système pour le raisonnement incrémental
4.1 Problématique
4.2 Formalisation du raisonnement incrémental
4.3 Caractéristiques attendues du système
4.4 Fonctionnement détaillé
4.5 Indépendance au fragment
4.6 Paramètres de l’architecture
4.7 Modes d’inférence
4.8 Bilan de la solution proposée
IV Validation expérimentale
5 Slider : Implémentation du raisonneur incrémental
5.1 Structures de données utilisées
5.2 Exécution parallèle et concurrente
5.3 Conclusion sur l’implémentation
6 Expérimentations
6.1 Présentation des expérimentations
6.2 Étude des paramètres
6.3 Comparaison avec les systèmes de référence
6.4 Évaluation des performances incrémentales
6.5 Priorisation des connaissances inférées
6.6 Reproductibilité
6.7 Bilan des résultats obtenus
V Conclusion
7 Conclusion
7.1 Bilan
7.2 Perspectives
VI Annexes