Le début des années 2000 a vu émerger le Web 3.0, un mouvement guidé par le World Wide Web Consortium (W3C) qui a pour but d’étendre le Web d’origine (Web 1.0) afin de l’améliorer. Cette amélioration se situe au niveau du partage, de la manipulation et de l’utilisation des données à travers les frontières des applications, des entreprises et des communautés (W3C, 2013a). Il s’agit en d’autres mots, de passer du Web dit des documents au Web des données, autre nom donné au Web sémantiques (W3C, 2015c).
Selon le W3C, les deux principes fondateurs du Web sémantique sont, d’une part, l’utilisation de formats communs qui permettent d’intégrer et de combiner ensemble des données, provenant de sources différentes, et, d’autre part, l’utilisation d’un langage de description des données permettant de les mettre en rapport avec le monde réel. Cette mise en relation a pour but de rendre possible la navigation, à la fois pour les êtres humains et pour les machines, entre des bases de données reliées entre elles par des thématiques communes, c’est-à-dire traitant de sujets communs (W3C, 2013a). L’information, dans ce cadre, se veut donc correctement définie au niveau de sa signification afin de permettre un travail coopératif entre les ordinateurs et les êtres humains, sans place pour l’ambiguïté (Berners-Lee, Hendler, & Lassila, The Semantic Web, 2002).
Afin d’atteindre ce but, les données devront être exprimées dans un langage qui permet aux machines d’en saisir non seulement le sens, mais également le contexte, et, aux humains, de pouvoir les lire et, parfois même, les interroger dans un langage dit naturel. Pour ce faire, le W3C a mis en place des formats, langages et outils afin de standardiser les pratiques et permettant ainsi de travailler avec ces données, de les réutiliser et de les partager (W3C, 2013a).
Le projet faisant l’objet du développement logiciel dans ce travail de Bachelor consiste à améliorer le prototype actuel d’application Web mettant en relation le répertoire historisé des communes suisses avec les archivés fédérales suisses sur deux aspects distincts.
Premièrement, la source de données devra passer d’une base de données relationnelle à l’utilisation des données provenant du triplestore LINDAS. Ces données sont au format RDF et les requêtes d’interrogation devront être réécrites en SPARQL Protocol and RDF Query Language (SPARQL), langage spécifique à utiliser avec ce format de données.
Deuxièmement, l’interface graphique de l’application devra être revue afin de proposer un portail plus intuitif et actuel. Ce nouveau portail devra reprendre au minimum les fonctionnalités existantes que sont la recherche d’une commune, les filtres appliqués sur une commune (histoire, période, thème) et l’affichage des unités de description (liste des archives correspondantes).
Introduction au Web sémantique
Linked Data
Le Web sémantique ne peut pas fonctionner uniquement avec des données dans un format standard, atteignables (accessibles) et gérables avec les outils standards proposés par le W3C. En effet, il est nécessaire qu’elles soient reliées entre elles, afin de ne pas exister chacune de leur côté, de manière complètement indépendante, comme le serait une collection de données dans le sens strict du terme. Cela permet de créer une intégration, à large échelle, de données et d’ensemble de données sur le web, ce qui représente le fondement du Web des données (W3C, 2015a).
Pour effectuer ces liaisons, il est nécessaire d’utiliser de bonnes pratiques de publication et de connectivité, afin de les rendre réutilisables même si elles proviennent de sources différentes. D’un point de vue technique, les données, dont le sens doit être défini de manière explicite, doivent être publiées sur le Web en étant atteignables par des machines. De plus, elles doivent être reliées à un autre ensemble de données externe à celui auquel elles appartiennent et offrir une possibilité de connexion à d’autres ensembles de données de sources différentes (Sheth, 2011, p. 206).
Afin de rendre possible cette exploration de données par des êtres humains et par des machines, quatre règles ont été établies et mises en exergue par Tim Berners-Lee, directeur du W3C. La première prévoit que les choses soient nommées par des URI (Uniform Resource Identifiers), courtes chaînes de caractères permettant d’identifier de manière unique des ressources sur le Web (W3C, 2006). La deuxième demande à ce que ces URIs utilisent le protocole d’accès HTTP (Hypertext Transfer Protocol), afin d’offrir la possibilité de rechercher ces noms. La troisième exige que des informations utiles soient fournies lors de la recherche d’une URI et cela grâce à l’utilisation de standards tels que ceux relié au format Resource Description Framework (RDF) ou celui de SPARQL (SPARQL Protocol and RDF Query Language), langage d’interrogation de données au format RDF. La quatrième et dernière règle requiert l’inclusion de liens à d’autres URIs permettant ainsi la découverte de nouvelles choses en rapport avec celles initialement recherchées. Le respect de ces préceptes permet d’obtenir des données reliées entre elles, le linked data, et d’en arriver au Web des données. De plus, cela rend possible leur réutilisation d’une manière réfléchie et prévue, mais aussi d’une manière inattendue, ce qui représente également la plus-value du Web (Berners Lee, Linked Data – Design Issues, 2009).
Le Linked Data et ses quatre principes font que le Web des données est directement lié au Web des documents et s’y superpose en une couche supplémentaire. Ils sont étroitement liés et sont caractérisés par des propriétés similaires, dont notamment le fait d’être générique, le Web des données peut contenir tout type de données, ainsi que la possibilité offerte à tout le monde de publier des données (Sheth, 2011, p. 206).
Linked Open Data
Un exemple de mise en œuvre du Linked Data est le projet Linked Open Data (LOD), mené par le W3C. Ce projet a pour but d’identifier et de convertir des ensembles de données sous licence ouverte (Open Data), c’est-à-dire facilitant la réutilisabilité libre, dans le format standard RDF, en respectant les quatre principes du Linked Data et, finalement, de les publier ensuite sur le Web (Sheth, 2011, p. 208). Ce projet vise, entre autres, à standardiser les pratiques de publication de données publiques et librement accessibles par les gouvernements. Pour ce faire, le W3C a publié une échelle de critères cumulatifs qui qualifient la qualité des LOD allant d’une à cinq étoiles. Plus les données sont qualifiées avec un grand nombre d’étoiles, plus elles seront considérées comme puissantes et réutilisables.
L’amélioration de la qualité et l’augmentation de la quantité de données reliées sur le Web sont directement dépendantes de la publication et la consommation de ces données par les trois grandes entités que sont les gouvernements, les industries et les médias. Cet élan est donné principalement par les gouvernements et pousse de plus en plus les deux autres entités à investir dans le Linked Data, ouvert ou non, considéré comme un moyen rentable, par rapport à ses coûts, d’intégrer des données. L’utilisation d’informations liées entre elles dans des contextes différents permettra de générer toujours plus d’applications et de connaissances (Bauer & Kaltenböck, 2012).
RDF
Afin d’être utilisable par les machines, en plus d’être lisible pour les êtres humains, l’information a besoin d’être structurée d’une certaine manière. Le format RDF a été mis au point par le W3C pour répondre à ce besoin dans le cadre du Web sémantique et du Linked Data. Il permet l’échange d’informations entre des applications, sans perte de sens. Sa structure offre la possibilité d’exprimer des informations à propos de ressources (W3C, 2014b). Celles-ci représentent quelque chose dans le monde qui peut être un concept abstrait, un objet physique ou encore un document (W3C, 2014a). Le modèle de données du format RDF permet de faire des déclarations à propos de ressources. Ces déclarations se font toujours selon la même structure, appelée triplet RDF, qui comprend trois éléments : le sujet, le prédicat et l’objet. Cette manière de représenter les données permet d’exprimer une relation, représentée par le prédicat, entre deux ressources, le sujet et l’objet. Le prédicat désigne la nature de la relation et va toujours dans le même sens, du sujet à l’objet.
Il existe trois façons de désigner une ressource dans le format RDF. La première manière consiste en l’utilisation d’une URI, une chaîne de caractères se rapportant à une ressource disponible en ligne de manière unique, permettant d’éviter toute ambiguïté. Les URI peuvent être employées dans les trois éléments constituant d’un triplet. La deuxième façon de nommer une ressource porte sur l’emploi d’une valeur basique appelée literaI qui n’est pas une URI. Cette valeur est associée à un type de donnée qui permet son traitement par une machine et peut se trouver uniquement dans l’élément objet d’un triplet. La troisième et dernière manière consiste à désigner une ressource sans la nommer en utilisant un nœud anonyme. Les sujets ou les objets d’un triplet peuvent être désignés de cette manière (W3C, 2014b).
|
Table des matières
Introduction
Contexte
Livrables
1. Introduction au Web sémantique
1.1. Linked Data
1.1.1. Linked Open Data
1.2. RDF
1.3. Ontologie
1.3.1. RDF Schema
1.3.2. OWL
1.4. SPARQL
1.4.1. JSON comme résultat de requête
2. État de l’art
2.1. Description des données
2.1.1. Données historisées des communes suisses
2.1.2. Données des archives fédérales suisses
2.2. Analyse de l’application existante
2.2.1. Base de données
2.2.2. Architecture
2.2.3. Fonctionnalités
2.2.4. Conclusion
2.3. Plateforme LINDAS
2.3.1. Normes eCH
2.4. Analyse des données RDF
2.4.1. Données du répertoire historisé des communes de la Suisse
2.4.2. Données des archives fédérales suisses
2.4.4. Conclusion
2.5. Problématique
3. Technologies Web
3.1. Choix de la technologie de base
3.2. Outils et librairies
3.2.1. Angular Material
3.2.2. Angular Generic Table
4. Architecture de l’application
4.1. Fonctionnalités demandées
4.2. Maquettes
4.2.1. Page d’accueil
4.2.2. Liste des communes
4.2.3. Unités de description
4.2.4. Carte
4.2.5. Remarques du mandant
5. Développement
5.1. Communes
5.1.1. Récupération des communes
5.1.2. Affichages des communes
5.1.3. Récupération des cantons et des districts
5.1.4. Recherches parmi les communes
5.1.5. Historique d’une commune
5.2. Archives
5.2.1. Récupération des archives
5.2.2. Affichage des archives
5.2.3. Recherche parmi les archives
5.3. Carte topographique
5.4. Informations à l’utilisateur
5.5. Synthèse
6. Déroulement du projet
6.1. Méthode de travail
6.2. Heures de travail
Conclusion