Contexte de recherche Le traitement des informations sur des supports numériques constitue aujourd’hui un enjeu essentiel. Il s’agit de repenser les démarches de gestion de connaissances afin de pouvoir d’une part en assurer une meilleure conservation et d’autre part en faciliter l’accès pour en permettre une meilleure exploitation. Les ressources informationnelles et documentaires sont stockées, classées, organisées, publiées et partagées au sein d’espaces et de systèmes informationnels dispersés et distribués. En effet, après l’organisation documentaire manuelle, le classement traditionnel et l’indexation classique, aujourd’hui la majorité des plateformes et environnements de gestion et d’organisation des documents intègrent un système d’organisation des connaissances (SOC). Dans des environnements technologiques de plus en plus ouverts et générateurs d’informations, les activités d’organisation des connaissances nécessitent d’accéder à des volumes croissants de données, produites et gérées par des écosystèmes numériques hétérogènes. Sous l’impulsion du web 2.0 au sein même des entreprises, ces écosystèmes englobent de plus en plus les documents produits, échangés, partagés parmi les membres de collectifs de diverses tailles (équipes, départements, directions). Afin de tirer profit de ces nouvelles possibilités et en même temps gérer cette complexité croissante, les systèmes d’organisation des connaissances (SOC) « englobent tous les types de schémas permettant d’organiser des informations et de promouvoir la gestion des connaissances » [HUDON et HEDI 2010]. Les SOC doivent faire face à la croissance et aux évolutions rapides des connaissances, législations et régulations ainsi que des processus de création et de diffusion de ressources informationnelles accessibles par le Web. Au sein des entreprises, les SOC sont confrontés à l’évolution des métiers et à la diversification des usages, dont les notions préliminaires sont le travail collaboratif et participatif, l’échange informationnel et la communication (le partage) interne et externe. Ils s’efforcent de tirer profit des normes, standards technologiques et des initiatives autour des métadonnées et du Web socio-sémantique. Les SOC d’entreprises opérant en santé environnementale ou dans la prévention de risques naturels et technologiques doivent par exemple supporter de multiples points de vue (veille scientifique, stratégique et territoriale) et plusieurs normes et standards sectoriels (santé, géographie, . . . .), pour favoriser la génération de nouvelles connaissances.
Le projet Miipa-Doc Dans ce contexte, le projet Miipa-Doc s’inscrit dans le domaine de l’indexation de ressources documentaires. Il a pour objectifs d’explorer des nouvelles méthodes d’indexation ascendantes, en utilisant des termes descripteurs formulés par les individus plutôt que choisis parmi une liste préétablie, pour l’organisation des contenus documentaires complexes au sein des entreprises de large taille, et concevoir l’architecture logicielle correspondante. Ce projet entend étudier les spécificités des procédures et des activités de travail des utilisateurs ainsi que les pratiques individuelles de classement. Il permet aussi de concevoir une méthode de classification multidimensionnelle stable en proposant un accès unifié à l’ensemble de ressources documentaires et informationnelles de l’entreprise ; dispersées dans différents espaces informationnels, entre les postes de travail individuels, les disques partagés, le Cloud, les GED , etc.
Miipa-Doc part de l’idée selon laquelle la combinaison de différentes techniques d’indexation et l’enrichissement progressif des index qui en résulterait, amélioraient la pertinence des réponses proposées par le système de recherche d’information. Plus on ajoute de renseignements, d’entrées dans les index, plus on pourra finement répondre aux requêtes des utilisateurs. Cela permettrait d’enrichir la description des ressources informationnelles et documentaires, à partir des contextes d’activités dans lesquels celles-ci sont produites, reçues, partagées et utilisées, telle est l’approche portée par ce projet.
De la connaissance qui s’organise !
L’organisation des connaissances (OC) est une problématique liée aux domaines de l’entreprise, au Web et aux bibliothèques. Les communautés de l’ingénierie des connaissances, la science d’information et de la documentation, la gestion des connaissances et l’informatique proposent différentes méthodologies, des modélisations et des systèmes d’informations pour organiser les contenus et les documents selon les besoins du domaine d’application. Dans ce chapitre, nous présentons les notions liées à l’OC, nous commençons par le domaine de l’ingénierie des connaissances et sa liaison avec l’OC, la notion de la connaissance et des systèmes d’organisation des connaissances (SOC). Nous abordons aussi la classification en tant que méthode d’organisation, ainsi que la classification documentaire et les structures organisationnelles utilisées dans la bibliothèque et les systèmes de gestion des documents codifiés (comme les environnements de développement informatique et les systèmes de gestion de base des données). A la fin de ce chapitre, nous résumons les différences entre les structures d’organisation et leurs différents utilisateurs.
Ingénierie des connaissances
Le domaine de l’ingénierie des connaissances est apparu à la fin des années 80 comme une branche du domaine de l’intelligence artificielle pour faciliter à l’être humain la réalisation des tâches qui mettent en œuvre des connaissances. Dans ce domaine, les connaissances linguistiques et cognitives sont représentées dans des formes adéquates et adaptés à l’exploitation par des systèmes informatiques. En effet, il regroupe différentes réflexions :
— Linguistique : la formalisation linguistique des connaissances ;
— Terminologique : la conception des connaissances ;
— Psychologique : l’élaboration des méthodes de mise en valeur des connaissances ;
— Logique : l’élaboration des modèles formels ;
— Informatique : l’opérationnalisation des modèles ;
— Sémiotique : l’interprétation de comportements des systèmes [CHALET et al. 2004].
L’ingénierie des connaissances est définie comme la discipline qui correspond à « l’étude des concepts, méthodes et techniques permettant de modéliser et/ou d’acquérir les connaissances pour des systèmes réalisant ou aidant des humains à réaliser des tâches se formalise a priori peu ou pas » [BACHIMONT [2000]]. Elle représente l’embranchement de plusieurs domaines comme l’informatique, la linguistique, la logique et la psychologie. L’objectif de ce domaine est de construire des artéfacts permettant l’organisation des connaissances et l’exercice de la pensée. En effet, les chercheurs et les professionnels de cette discipline proposent des méthodes, des outils, des instruments et des systèmes informatiques pour l’acquisition, la modélisation, la gestion et la capitalisation des connaissances dans différents domaines de recherche liés à l’entité « connaissance » comme l’acquisition des connaissances à partir des corpus de textes, l’organisation des connaissances dans l’entreprise, l’ingénierie des documents, la recherche d’information sur le Web, etc. [BACHIMONT 2000][BACHIMONT 2004][CHALET et al. 2004] Dans son livre « Ingénierie des connaissances et des contenus », Bachimont considère l’ingénierie des connaissances comme une ingénierie des inscriptions numériques des connaissances ayant comme objectif : permettre l’organisation des connaissances, leur interprétation et leur manipulation.
Il aborde deux tendances distinctes :
— L’ingénierie de représentation : qui vise « à formaliser le sens des inscriptions pour instrumenter leur exploitation » ;
— L’ingénierie des contenus : qui vise « à formaliser la forme d’expression des inscriptions et non leur sens, pour obtenir des outils et méthodes permettant de les manipuler et transformer ». [BACHIMONT 2007] .
Connaissance, son organisation et les systèmes d’organisation des connaissances
Connaissance
La connaissance ne représente pas une discipline à part mais l’objet d’étude de plusieurs réflexions comme la modélisation des connaissances, l’organisation des connaissances, l’acquisition des connaissances, etc. Elle représente le savoir faire et la capacité de réalisation d’une action du corps, de l’esprit ou d’un corps complexe comme la société, qui sont transmis à travers des informations inscrites sur des supports numériques et technique, ou bien par la cognition et l’apprentissage (passage oral de l’expérience, mémoire, raisonnement). La représentation de la connaissance dépend du domaine d’exploitation de cette entité, il existe deux modes d’inscription : une représentation formelle avec des langages formels comme les ontologies et une représentation documentaire avec des langages documentaires comme les facettes et les thésaurus. [BACHIMONT 2004] .
Organisation des connaissances
D’après Hjorland , il existe deux sens de l’organisation des connaissances. Le premier est le sens large, dans lequel l’organisation des connaissances est liée à l’organisation sociale du travail intellectuel comme l’organisation des universités et d’autres institutions de recherche et d’éducation, l’organisation sociale des médias, la production et la propagation du savoir, la structure des disciplines et des métiers. Dans le deuxième, sens restreint l’organisation des connaissances évoque des activités comme la description de documents, indexation et la classification [HJORLAND 2008]. En effet, cette discipline est investie par des bibliothécaires, documentalistes, archivistes spécialistes de l’information, informaticiens et tous professionnels du document. Elle englobe toutes activités, études et recherches qui élaborent et traitent les processus d’organisation et de présentation des ressources documentaires utiles dans une organisation. [HJORLAND 2008][HUDON et HEDI 2010] .
Ce domaine s‘étend vers d’autres réflexions dans la linguistique, la sociologie et l’informatique notamment qui permettent de concrétiser ce concept par la gestion et la diffusion de l’information numérique inscrite sur un support matériel. D’après Cotte la notion d’organisation des connaissances « se préoccupe de recenser, qualifier, classifier, organiser, partager le volume global de connaissances que le salariés produisent, brassent, manipulent » [COTTE 2007]. Il est communément admis que les connaissances dans des différents domaines de compétences représentent un capital pour l’organisation, une ressource à gérer comme les ressources matérielles et personnelles. En revanche, il faut mettre en place des méthodes et démarches spécifiques de gestion, appelées démarches de gestion des connaissances (GC) ou knowlege management (KM), qui mettent en œuvre des systèmes d’organisation des connaissances variés [DUDEZERT 2012].
Les Systèmes d’Organisation des Connaissances (SOC)
La problématique de SOC s’inscrit à la fois dans le domaine de sciences d’information et celui d’ingénierie des connaissances. Le terme Système d’Organisation des Connaissances (SOC) ou Knowledge Organisation System (KOS) en anglais vise à regrouper dans une « dénomination unique aussi bien les langages documentaires, les schémas de classification que les langages de représentation des connaissances issus de l’Intelligence Artificielle » [ZACKLAD 2011b]. Il s’intègre dans les plateformes de GED, les plateformes de Web 2.0, les plateformes basées sur le Web Sémantique (comme les moteurs de recherche) et les systèmes de classement et d’indexation documentaire. Les SOC peuvent être différenciés selon plusieurs typologies, nous choisissons celle du degré de formalité proposée par ZACKLAD [2011b]. Il classe les familles des SOC du plus au moins formel :
— Les langages documentaires et les thésaurus ;
— Les ontologies formelles et le web sémantique ;
— Les classifications épistémiques universelles de la bibliothéconomie et les approches à facettes universelles ;
— Les approches multidimensionnelles : les ontologies sémiotiques (web socio-sémantique) et les approches à facettes locales ;
— Les annuaires de ressources internet collaboratifs et les folksonomies ;
— Les indexes automatiques des moteurs des recherches. [ZACKLAD 2011b] .
|
Table des matières
Introduction
I Etat de l’art
1 De la connaissance qui s’organise !
1.1 Introduction
1.2 Ingénierie des connaissances
1.3 Connaissance, son organisation et les systèmes d’organisation des connaissances
1.3.1 Connaissance
1.3.2 Organisation des connaissances
1.3.3 Les Systèmes d’Organisation des Connaissances (SOC)
1.3.3.1 Les Langages documentaires et les thésaurus
1.3.3.2 Les ontologies formelles et le web sémantique
1.3.3.3 Les classifications épistémiques universelles de la bibliothéconomie et les approches à facettes universelles
1.3.3.4 Les approches multidimensionnelles : les ontologies sémiotiques (web socio-sémantique) et les approches à facettes locales
1.3.3.5 Les annuaires de ressources internet collaboratifs et les folksonomies
1.3.3.6 Les index automatiques des moteurs des recherches
1.4 La classification au sens général
1.5 La classification documentaire
1.5.1 Les schémas de classification documentaire
1.5.2 La structure hiérarchique
1.5.3 Le modèle à base de facettes
1.5.3.1 Le terme facette
1.5.3.2 La classification à facette
1.5.3.3 Les avantages de la classification à facette
1.5.4 Les évolutions avec le Web : vers les nouvelles approches collaboratives
1.6 Les applications de la classification documentaire
1.6.1 La classification documentaire bibliothécaire
1.6.1.1 Les classifications énumératives
1.6.1.1.1 Présentation
1.6.1.1.2 Library of Congres Classification (LCC)
1.6.1.2 Les classifications quasi-énumératives
1.6.1.2.1 Présentation
1.6.1.2.2 La Classification Décimale de Dewey (CDD)
1.6.1.3 Les classifications quasi-à-facettes
1.6.1.3.1 Présentation
1.6.1.3.2 La Classification Décimale Universelle (CDU)
1.6.1.4 Les classifications à facettes rigides
1.6.1.4.1 Présentation
1.6.1.4.2 La Colon Classification (CC)
1.6.1.5 Les classifications à facettes libres
1.6.1.5.1 Présentation
1.6.1.5.2 La 4éme édition de CC
1.6.1.5.3 L’analyse par facette
1.6.1.6 Les classifications bibliothécaires et le numérique
1.6.2 La classification des documents codifiés
1.6.2.1 Les structures de la navigation
1.6.2.1.1 Les systèmes hiérarchiques
1.6.2.1.2 Le Web
1.6.2.2 Les structures de l’interrogation
1.6.2.2.1 Les modèles d’interrogation
1.6.2.2.1.1 Modèle booléen
1.6.2.2.1.2 Modèle vectoriel
1.6.2.2.1.3 Modèle logique
1.6.2.2.2 Les modèles de données
1.6.2.2.2.1 Modèle logique
1.6.2.2.2.2 Modèle objet
1.6.2.2.2.3 Les bases de données et les documents
1.6.3 Synthèse
1.7 Conclusion
II Problématique et contributions
2 Problématique et méthodologies
2.1 Introduction
2.2 Cadre de recherche
2.3 Problématique et objectifs
2.4 Propositions et méthodologies
2.4.1 Le rôle des usagers
2.4.1.1 Valorisation des rôles des usagers
2.4.1.2 Responsabilisation des usagers dans un processus d’indexation collaborative
2.4.2 L’approche IDM
2.4.3 Construction du modèle de l’IHM
2.4.3.1 Interface Homme-Machine
2.4.3.2 L’ergonomie
2.4.3.3 Le modèle de l’IHM
2.4.3.4 L’interface graphique
2.4.4 Construction du modèle du SOC
2.4.4.1 Approche orientée métier, fondée sur un SOC folksonomique à facettes
2.4.4.2 Les composants du SOC
2.4.4.2.1 Les vues
2.4.4.2.2 Les facettes
2.4.4.2.3 Les Tags
2.4.4.3 Démarche méthodologique pour la gestion d’évolution du SOC
2.4.5 Construction du modèle orienté infrastructure
2.4.5.1 Approche orientée infrastructure
2.4.5.2 Objectif de l’approche orientée infrastructure
2.4.6 Vers l’interopérabilité du SI
2.4.6.1 Définition de l’interopérabilité
2.4.6.2 Aspects méthodologiques et techniques de l’interopérabilité du SI
2.5 Conclusion
3 Approche dirigée par les modèles
3.1 Introduction
3.2 Le prototype HyperTagging
3.2.1 Description et fonctionnement
3.2.2 Document pour l’action
3.3 Modélisation de l’IHM
3.3.1 Modèle des tâches
3.3.2 Modèle des concepts
3.3.3 Modèle des espaces
3.3.4 Modèle des interacteurs
3.3.5 Modèle des programmes
3.4 Modélisation du SOC et son évolution
3.4.1 Les principes méthodiques et technologiques de la gestion de l’évolution du SOC
3.4.2 Modèle conceptuel pour la gestion des évolutions du SOC
3.4.3 Représentation des métadonnées
3.5 Représentation architecturale et modélisation de la communication
3.5.1 Cadre méthodologique de l’architecture
3.5.2 Choix de l’architecture
3.5.2.1 L’architecture orientée services SOA
3.5.2.2 Les services
3.5.2.2.1 Les services du style d’architecture SOAP
3.5.2.2.2 Les services du style d’architecture REST
3.5.2.2.3 SOAP vs REST
3.5.3 Cadre technologique de l’architecture
3.5.4 Modélisation du style architectural REST
3.5.4.1 Approche d’Alarcon et Wilde
3.5.4.1.1 Cadre méthodologique de l’approche
3.5.4.1.2 Le méta-modèle REST d’Alarcon et Wilde
3.5.4.2 Approche de Schreier
3.5.4.2.1 Cadre méthodologique de l’approche
3.5.4.2.2 Méta-modèle de différents types de ressources
3.5.4.2.3 Méta-modèle de la structure de l’architecture REST
3.5.4.2.4 Méta-modèle du fonctionnement de l’architecture REST
3.5.4.3 REST et l’accès multiples aux ressources
3.5.4.3.1 Cadre méthodologique de l’approche
3.5.4.3.2 Méta-modèle structurel
3.5.4.3.3 Méta-modèle fonctionnel
3.5.4.4 Instance d’HyperTagging
3.6 Modélisation de l’interopérabilité
3.6.1 Exigences applicatives
3.6.2 Protocole CMIS
3.6.2.1 Description
3.6.2.2 Méta-modèle du CMIS
3.6.3 Normalisation de l’approche orientée infrastructure
3.7 Conclusion
4 Evaluer pour positionner
4.1 Introduction
4.2 Objectifs et démarche
4.3 Evaluation des ECM
4.3.1 L’évaluation de Gartner
4.3.1.1 Présentation de Gartner
4.3.1.2 L’évaluation d’ECM chez Gartner
4.3.1.2.1 Les critères de la capacité d’exécution
4.3.1.2.2 Les critères d’analyse du marché
4.3.2 L’évaluation de Forrester
4.3.2.1 Présentation de Forrester
4.3.2.2 L’évaluation d’ECM chez Forrester
4.3.2.2.1 Le critère de l’offre dans le marché
4.3.2.2.2 Le critère de stratégies opérationnelles
4.3.2.2.3 Le critère de la présence sur le marché
4.4 Evaluation des ECM du point de vue de la classification documentaire
4.4.1 Modèle d’évaluation
4.4.2 Cadre et contexte d’évaluation
4.4.3 Processus d’évaluation
4.4.3.1 Classement des environnements d’ECM
4.4.3.1.1 GED (Gestion Electronique des Documents)
4.4.3.1.2 Le travail collaboratif ou Groupware
4.4.3.1.3 Des environnements participatifs issus du Web 2.0
4.4.3.1.4 Des environnements d’ingénierie des connaissances
4.4.3.1.5 Des environnements de publication
4.4.3.2 Détermination des critères
Conclusion