Interrogation d’un réseau sémantique de documents

Au cours des dernières années, les « données liées » sont apparues comme une nouvelle tendance qui a régi l’évolution du web et l’a transformé d’un espace d’information global de documents liés (avec des liens hypertextes) à un espace d’information où documents et données sont liés avec des liens qui sont typés. En effet, dans le modèle hypertexte classique, la nature de la relation entre deux documents liés est implicite [Heath and Bizer, 2011], ceci est dû au fait que le format de données (HTML) est expressivement insuffisant pour permettre à des entités individuelles décrites dans un document particulier d’être reliées par des liens typés à des entités connexes. Le terme « données liées » (ou Linked Data) décrit une méthode de publication des données structurées (provenant de différentes sources) de sorte qu’ils peuvent être interconnectés. Pour ce faire, les relations entre les données doivent être explicitées afin de créer cet espace global de données interdépendantes (par opposition à une simple collection d’ensembles de données) qui peuvent être interrogées. Determiner comment représenter (quel modèle) et interroger (quelle technique de recherche d’information) une collection de documents inter-reliés est l’enjeu global auquel nous proposons de répondre dans cette thèse.

Avec la croissance continue de l’information disponible et librement accessible en ligne, il est devenu essentiel d’automatiser le processus de représentation des données et d’avoir un processus de recherche et de gestion de contenus capable de traiter toute cette information. Dans la plupart des cas, l’information est représentée par des documents et les utilisateurs exploitent les collections de documents afin de satisfaire leurs besoins en information. Les systèmes de recherche d’information permettent d’automatiser le processus de recherche en construisant une représentation adaptée des documents et des requêtes (opération d’indexation) puis en comparant la représentation des requêtes et des documents pour déterminer si le document est pertinent pour la requête (opération d’appariement). Les techniques classiques de description du contenu et de traitement des requêtes en recherche d’information (RI) sont basées sur des mots-clés. Les systèmes de RI basés sur le modèle classique représentent les documents comme des sacs de mots auxquels sont assignés des poids mesurant leur importance dans le texte (poids binaire, fréquence, etc.). La recherche est ensuite faite sur cet ensemble de mots pondérés. Les moteurs de recherche actuels utilisant une technique de recherche par mots-clés (par ex. Google) introduisent constamment de nouvelles fonctionnalités pour améliorer l’expérience de recherche des utilisateurs (nouveaux mécanismes pour gérer le contenu multimédia, personnalisation des résultats en utilisant l’information contextuelle, etc.).

Visant à résoudre les limitations des modèles par mots-clés, la recherche sémantique (recherche par le sens plutôt que par les chaînes de caractères) a fait l’objet d’une grande vague de recherche dans les communautés de la RI et du web sémantique. Dans le domaine de la RI, plusieurs approches sémantiques ont été définies. Certaines sont basées sur des méthodes statistiques qui étudient la co-occurrence des termes dans le texte, d’autres appliquent des algorithmes basés sur des techniques de traitement du langage naturel tout en s’appuyant sur des thésaurus et des taxonomies (par ex. Wordnet). Le web sémantique a été lancé pour automatiser des tâches qui nécessitent un certain niveau de compréhension conceptuelle des objets impliqués et permettre à des logiciels de combiner les informations et les ressources d’une manière cohérente [Fernández et al., 2011]. L’utilisation des ontologies [Gruber, 1993], élément clé dans les nouvelles technologies du web pour la représentation des connaissances, a permis de surmonter les limites de la recherche par mots-clés dans le domaine de la RI (par ex. en utilisant les annotations sémantiques des documents [Kiryakov et al., 2004a]). La RI sur le web sémantique est différente de la RI sémantique par le fait qu’elle traite principalement des objets, par la complexité des interfaces d’interrogation initialement destinées à manipuler des bases de connaissances et par l’absence des algorithmes de classement de résultats à une grande échelle qu’est le web.

Notre travail s’inscrit dans le projet Légilocal qui vise à rendre l’acte administratif et juridique facilement accessible au citoyen et aux collectivités locales de façon adaptée à leurs besoins [Amardeilh et al., 2013]. Le besoin des citoyens d’être informés et d’interagir dans un espace public est reconnu comme un droit dans la société de l’information. Les citoyens, mais aussi le monde des affaires souhaitent savoir qui est en charge de la conduite des affaires de la communauté, de comprendre les décisions qui sont prises par les collectivités locales et leurs représentants, et d’anticiper les décisions qui peuvent influer sur leur vie quotidienne (par exemple en matière d’urbanisme). De plus, ces acteurs s’interrogent sur les fondements ou la validité juridique des actes qui leur sont apposés. Toutefois, si l’information produite par l’état et par l’UE est généralement disponible à partir de Legifrance  pour les citoyens et les acteurs français, les informations produites par les communautés locales ne sont pas systématiquement disponibles en ligne. Un autre défi pour les administrations locales est la qualité des documents juridiques qu’elles produisent. Les petites municipalités et groupements de municipalités ont peu de personnel. Le secrétaire de mairie qui produit et publie des documents juridiques n’est généralement pas un avocat en soi et de nombreux actes municipaux sont attaqués (peut-être de l’ordre de 15- 20%) pour des motifs de procédure, comme l’inadéquation de visas. Les secrétaires de mairie sont souvent isolés, alors qu’ils ont besoin d’interagir les uns avec les autres, à partager leur expérience et à harmoniser la législation et les décisions locales entre les différents niveaux de collectivités locales ou avec les collectivités voisines. Le projet Légilocal, « La loi locale tout simplement partagée », vise à résoudre ces problèmes en développant les outils et l’infrastructure qui aident les administrateurs locaux à préparer et à publier les actes locaux, décisions et règlements de telle façon qu’ils soient faciles à rechercher pour eux-mêmes et pour les citoyens, assurant ainsi l’accessibilité, la transparence et la qualité de la législation locale. L’originalité de l’approche suivie par le projet consiste à combiner des outils de gestion de contenu et des services de gestion d’interaction dans une plate-forme unique et facile d’accès pour les agents administratifs et les citoyens par le biais de widgets intégrés dans des outils de bureautique (pour l’édition) ou les sites web des municipalités (pour l’accès aux documents) [Amardeilh et al., 2013]. Le projet est mené par Victoires Editions, un éditeur juridique spécialisé dans le droit des communautés locales. Il réunit des partenaires industriels et académiques en charge du développement des technologies et des ressources sur lesquelles la plate-forme Légilocal est construite. Un groupe pilote de petites municipalités est également associé au projet à des fins de test. Pour résumer, le projet possède un triple objectif :
– Faciliter l’accès aux données administratives et juridiques locales (interrogation, consultation) pour les citoyens.
– Faciliter l’accès aux ressources et la collaboration au sein des collectivités locales (la prise de décision locale doit s’appuyer sur les décisions similaires antérieures).
– Permettre aux citoyens de s’informer et de commenter les décisions des collectivités locales. Ces nouvelles fonctionnalités sont mises en œuvre en intégrant les techniques du web sémantique pour une meilleure exploitation du contenu des documents juridiques :
– des ontologies et des standards juridiques sont utilisés pour permettre l’interopérabilité documentaire entre les collectivités locales et l’ouverture aux citoyens ;
– des services web simples sont créés pour la recherche d’information par interrogation (formulation de requêtes) ou par consultation (navigation) ;
– un réseau social unique à l’ensemble des collectivités locales est développé .

Les documents juridiques sont des documents structurés fortement interconnectés. L’accès à l’information dans ce domaine est aussi problématique pour les citoyens qui essayent de comprendre la norme qui s’applique à leur cas particulier que pour les juristes professionnels qui doivent déterminer comment la loi s’applique sur des cas particuliers. Le domaine juridique pose de ce fait des questions spécifiques en terme de recherche d’information.

Structure d’un document La structure du document est importante à prendre en compte. Un texte juridique, notamment le texte d’une loi, est composé d’articles qui ont un cycle de vie autonome. Ils peuvent être modifiés ou même abrogés indépendamment de la loi considérée dans son ensemble. Il est essentiel pour un juriste de pouvoir consolider un texte de loi, c’est-à-dire retrouver toutes les modifications qui s’appliquent à ce texte, et retrouver la version en vigueur à une date donnée, parce qu’il faut pouvoir déterminer le droit qui s’applique à un moment particulier du passé. Il faut également pouvoir ajuster la granularité documentaire (texte complet ou article de ce texte) aux besoins de l’utilisateur et prendre en compte la complexité du cycle de vie du document juridique qui peut être signé, publié, entré en vigueur, promulgué, modifié et abrogé à des dates différentes. Les systèmes actuels d’accès à l’information juridique, comme Normattiva  ou UK Legislation  , prennent partiellement en compte ce type de propriétés quand ils proposent un accès temporel aux sources juridiques (point in time access).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction
1.1 Contexte général
1.1.1 Recherche d’information
1.1.2 Recherche d’information sémantique et sur le web
1.2 Contexte applicatif : le projet Légilocal
1.3 Enjeux de la recherche d’information juridique
1.4 Objectif et contributions
1.5 Structure du document
2 Accès à l’information juridique
2.1 Introduction
2.2 Caractéristiques des données juridiques
2.2.1 Structure et hiérarchie des sources de loi
2.2.2 Réseau de réglementations et complexité juridique
2.3 Efforts de structuration de l’information juridique
2.3.1 Création ou édition de la réglementation
2.3.2 Représentation des documents
2.3.3 Ontologies du droit
2.3.4 Synthèse
2.4 Méthodes d’accès à l’information juridique
2.4.1 Portails généralistes de sources de droit
2.4.2 Outils spécialisés
2.4.3 Données gouvernementales ouvertes sur le web
2.5 Traitement de l’intertextualité
2.6 Conclusion
3 Conclusion

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *