Modélisation de l’information complexe

Télécharger le fichier pdf d’un mémoire de fin d’études

La gestion des connaissances

La gestion des connaissances, plus communément appeléeKM pour Knowledge Management, est un domaine en plein essor dans l’industrie. Sa définition la plus répendue est celle de Malhotra [66]:
Définition 1. La gestion des connaissances répond aux problèmes critiques d’adaptation, de survie et de compétence d’une organisation face aux changements discontinus d’environnements. En particulier, elle englobe les processus qui cherchent à mettre en synergi e les capacités à traiter les données des technologies de l’information, et les capacités à créer et nnoveri des êtres humains. Après une ère de pionniers et d’expériences pilotes, puis une prise de conscience progressive de l’importance du KM par les décideurs, nous sommes à l’aube de l’ère de la maturité. L’enquête réalisée par Knowings2 en 2003 sur la vision des dirigeants en matière de KM [63] montre la grande variété des domaines auxquels la gestion des connaissances s’applique. L’amélioration de la productivité est la priorité et passe d’abord par la préservation et la meilleur exploitation du capital de « connaissances métier » existant dans l’entreprise. Nous retrouvons ainsile KM dans des thèmes tels que l’exploitation des retours d’expériences, la capitalisation et le partagedes savoirs, mais aussi la veille concurrentielle et technologique. Capitaliser, diffuser, collaborer, rechercher, tels sont les principaux besoins des entre-prises en matière de KM.
Alors que certains outils sont encore peu utilisés (ex. : la gestion des compétences), d’autres sont devenus des standards (ex. : les outils de veille ou la gestion électronique de documents). La solution Kaliwatch Server [4] répond par exemple à une importante partie du spectre de besoins couverts par le KM : crawling et surveillance de sources externes et internes, classifica tion automatique, diffusion ciblée et personnalisée, recherche multilingue, travail collaboratif et recherche d’experts. Elle est basée sur une approche sémantique et multilingue exploitant une base de connaissances métiers [33, 45].
La gestion des connaissances étant un domaine très vaste, nous allons nous concentrer par la suite sur l’aspect intelligence économique qui est à l’origine des principaux besoins ayant conduit à ce tte thèse. Le Rapport du Commissariat au Plan a donné en 1994, dans le rapport Martre, une définition de l’intelligence économique qui sert de référence à l’industrie [26] :
Définition 2. L’intelligence économique peut être définie comme l’ensemble des actions de recherche, de traitements et de diffusion (en vue de son exploitation) de l’information utile aux acteurs économiques.
Plus récemment, le gouvernement français a montré son intérêt dans le domaine en commanditant le rapport Carayon [21], puis en prenant des mesures pour empêcher des technologies clés de passer sous contrôle étranger [44, 31].

Flux de l’information

Reprenant les actions de la définition 2, une application en intelligence économique se caractérise par un traitement de l’information passant par trois étapes principales : la collecte, l’analyse et la diffusion. Les figures 2.1 et 2.2 illustrent ce processus.

Collecte

En règle générale, un « veilleur » ou un analyste dispose de nombreuses sources d’informations qui sont externes (Internet, fils de presse, etc.) ou interne s3 (Intranet, bases de données, messagerie électronique, fichiers locaux, etc.). Cette masse d’information étant gigantesque, sa pertinence globale est extrêmement faible. La première étape dans le flux informationnel consiste donc à collecter dans cette masse l’information intéressante par rapport aux besoins.
Cela se fait généralement avec une méthodologie que l’on pourrait qualifier « d’opportunisme di-rigé ». D’un côté, l’analyste s’intéresse de près à des sources précises et identifiées et, d’un autre côté, il s’appuie sur une collecte plus « générale » pour découvrir des informations nouvelles. L’analyse sémantique permet de ne conserver que l’information correspondant aux besoins exprimés tout en exploitant au mieux le contexte métier de l’utilisateur (exprimé dans la base de connaissances). Une approche cross-lingue peut en outre permettre d’exprimer une recherche dans sa langue maternelle et d’obtenir des résultats pertinents dans toutes les langues supportées par la base de connaissances .

Analyse

Une fois la collecte terminée, nous disposons d’un sous-ensemble de l’information disponible qui répond à la demande de l’utilisateur 5 . Même s’il est considérablement réduit par rapport à toute’informaltion disponible, ce sous-ensemble représente cependant une masse d’information encore trop importante pour être traitée manuellement.
Pour aider l’utilisateur dans sa tâche, nous allons donc ent rer dans une phase d’analyse plus fine du contenu des documents rapatriés. L’analyse des documents n’est cependant pas un processus simple et standard.
En effet, la nature et la structure des documents nécessiten de combiner différentes approches. L’ana-lyse d’un texte peut, par exemple, s’attacher à associer des concepts aux mots qui sont lus, alors que l’ana-lyse d’une image va se concentrer sur sa texture et ses couleurs ainsi que sur l’extraction de concepts. Alors que dans une lettre d’information, nous allons nous intéresser à chaque article indépendamment des autres, l’analyse d’une étude de marché doit pouvoir faire ressortir une thématique générale tout en fournissant une analyse fine de chacune de ses parties. Plus important encore, les besoins de l’utilisateur changent en fonction de ses intérêts et du contexte et peut conduire à des analyses et résultats très variés. Le KM touche de nombreux domaines [63] dans lesquels les données n’ont pas toujours le même sens et sont xploitées différemment. Un utilisateur peut être intéressé non pas par un ou plusieurs documents à étatl’ brut, mais par leurs titres et dates, leurs résumés, les différences avec des versions plus anciennes, ou encore la liste des personnes ou organisations qui y sont citées. Ces informations sont autant de points de vue sur les documents.
Le principal outil proposé dans cette étape du flux documentaire est la classification automatique des documents dans une ontologie. En consultant seulement certains nœuds de classement, l’utilisateur peut accéder à l’information de façon contextuelle. Des cro isements entre ontologies lui permettent de visualiser rapidement la répartition des documents, et il peut encore affiner sa recherche en effectuant des requêtes sémantiques sur les documents.
Un module d’analyse de corpus, par exemple K-Mining [32], complète généralement le classement. Il permet, pour un ensemble de documents, d’extraire les thèmes dominants et les entités nommées (personnes, entreprises, etc.). L’analyse des co-occurrences des termes extraits vient étoffer l’information disponible (cela va, par exemple, nous permettre de découvrir l’existence d’un accord de partenariat entre un concurrent et un fournisseur).
D’autres approches viennent compléter ces possibilités. Nous voulons en particulier être capable de :
• Exploiter la structure des documents. Dans le cas de lettres d’information (newsletters) par exemple (source marketing très fréquente), il faut découper les articles pour les traiter indépendamment (la source servant alors de contexte). Cette voie a notamment été explorée dans le cadre du projet AB-STRAT [34], dont le but est de réaliser des résumésdigests() de listes de diffusion.
• Faire un suivi temporel des informations contenues dans une source (ex. : statistiques de citations d’un concurrent dans la presse).
• Détecter les anomalies. En effet, elles sont souvent le résultat d’un événement qu’il est intéressant d’identifier. Prenons l’exemple du marché de la défense : l’augmentation importante à partir du 12 novembre 2004 du nombre de documents dans la presse citant Thales et EADS doit générer une alerte6 .
Le résultat de cette phase d’analyse doit permettre à l’utilisateur d’exploiter au mieux l’information découverte. Pour l’aider dans sa consultation et découvert des liens, l’utilisateur dispose d’une vision fortement « connectée » de l’information. En d’autres termes, d’un simple clic, il lui est possible d’aller d’une information extraite vers les éléments qui ont permisl’extraction (par exemple via une mise en valeur dans le(s) texte(s) d’origine), ou encore d’aller du nom d’un concurrent vers sa fiche complète, etc.

Diffusion

Une fois l’analyse terminée, l’utilisateur dispose d’une nformation fortement « connectée » qu’il peut aisément consulter (par navigation ou par recherche sémantique directe). Cependant, ce format n’est pas adéquat pour une diffusion (typiquement à l’attention d’une direction). Le but de cette troisième phase dans le flux informationnel est donc de produire une syn thèse de l’information collectée et analysée sous un format simple à consulter (facile à imprimer en tant q ue lettre d’information notamment). Le projet AB-STRAT [34] explore notamment ces besoins.
Cette synthèse peut difficilement se faire de façon totaleme nt automatique. Nous proposons donc ici d’apporter une aide à l’utilisateur lui permettant de sélectionner les informations qu’il veut mettre en valeur dans son résumé. La génération du rapport peut en revanche se faire de façon automatique en se basant sur un modèle spécifié.

Deux niveaux d’information

L’objectif premier d’une application d’intelligence économique n’est pas de récolter des documents, mais bien d’enrichir la connaissance d’une entreprise sur son domaine, et notamment sur ses concurrents. Cette connaissance peut bien entendu être apportée manuellement par les experts, mais l’application doit aussi tirer profit de l’importante masse de documents dispon ibles pour en extraire des informations utiles.
Alors que les documents représentent une information brute, nous utilisons des objets métier pour représenter la connaissance structurée du domaine. Ils correspondent aux personnes, entreprises, mar-chés, produits, etc., c’est-à-dire à tous les concepts du do maine, et sont au centre de « l’intelligence » du produit. En complément des descriptions des utilisateurs, l’analyse documentaire les enrichit avec de nouveaux points de vue donnant accès aux informations extraites.
Documents et objets métier se situent donc à deux niveaux complémentaires d’information. Dans le cadre d’une navigation sur le résultat d’une analyse par exemple, lier l’information documentaire à l’information métier est indispensable à une exploitation efficace.

Documents

Les documents constituent la plus grande partie de l’information « brute » sur laquelle nous al-lons nous baser pour découvrir ou générer l’information réellement utile. Ils forment la source primaire d’information. Comme nous l’avons vu en section 2.2.1, ils peuvent provenir de nombreuses sources dif-férentes et sont dès lors de nature peu structurée. Ni leur production, ni leur diffusion n’est contrôlée. En conséquence, il est difficile de trouver un traitement homogène qui exploite l’ensemble des informations disponibles dans les documents.
Pour pallier à leur nature semi-structurée, la majorité desoutils se contente de traiter les documents comme du texte brut. La plupart des informations structurelles ou d’un méta-niveau ne sont pas exploitées (seuls quelques méta-données et les liens HTTP sont généralement extraits).
Découpage et structure. Les lettres d’information constituent une source d’information très fréquente. Elles ont cependant la particularité d’être constituées uned’ liste d’articles traitant de sujets ayant peu de rapports entre eux. Analyser une lettre d’information en tant que document brut n’apporte donc qu’une faible part de l’information réellement disponible. La solution consiste en un découpage des articles en autant de documents indépendants. La figure 2.3 illustre ce découpage avec la lettre du Journal du Net.
Chaque article est extrait de la lettre et peut être considér comme un document à part entière.
Sur le même principe, dès lors qu’un minimum d’information tructurelles est disponible dans un document, il est intéressant de l’exploiter pour identifier ses parties, chaque partie pouvant à son tour être découpée en sous-parties. Alors qu’un document pris nsda son ensemble peut être très éloigné de la problématique d’un utilisateur, une de ses parties peut en revanche être très pertinente.
La découverte de la structure d’un document est d’autant plus efficace que sa source est connue et fournit des documents homogènes. La lettre du Journal du Net(comme la plupart des lettres d’informa-tion) en est un bon exemple : sa structure est toujours la mêmeet nous permet de faire une découpe fine des articles qu’elle contient. Des outils spécialisés pourcertaines sources pourront ainsi collaborer avec des outils moins efficaces mais travaillant dans un cadre plu s général.
Méta-données et enrichissement. Comme nous l’avons vu, l’analyse du contenu d’un document ne peut pas s’appuyer sur une structure forte. À l’opposé, une s imple indexation en texte intégral est fonc-tionnellement très limitée et pose des problèmes de pertinence. Nous allons donc nous intéresser à étendre la description des documents. En premier lieu, nous extrairons des informations comme leurs titres, au-teurs, dates, etc. Mais, au-delà de ces méta-données traditionnelles, de nombreux enrichissements sont possibles.
Des utilisateurs pourront notamment ajouter des annotations ou une simple notation et ainsi enrichir le document avec de nouveaux points de vue. Ces nouvelles méta-données sont d’autant plus pertinentes qu’elles ont été saisies manuellement. Elles doivent donc treê analysées elles aussi et participer au résultat de l’analyse au côté des documents.
Les résultats de l’analyse permettent eux aussi d’enrichir les documents. Ainsi, un nouveau point de vue « sémantique » leur est ajouté. Il sert, par exemple, debase à la création d’autres points de vue contextuels exhibant des extraits pertinents, c’est-à-di re les phrases du texte répondant le mieux à un contexte (ou une requête).
Comme indiqué en section 2.2.2, d’autres outils (existantsou à venir) peuvent amener des enrichis-sements (ex. : la liste des personnes dont le nom apparaît dans le document). La figure 2.4 présente le processus général d’analyse, montrant comment différents outils peuvent collaborer pour enrichir un document avec différents points de vue.
Le modèle de données doit donc tenir compte de l’évolution des analyses et des outils disponibles. Imaginons que les auteurs d’une publication soient enregistrés dans une simple chaîne de caractères. Plus tard, de nouveaux outils sont capables de distinguer les différents auteurs, ainsi que leurs noms et prénoms. Plutôt que de modifier l’ancien point de vue (avec les bogues de mises-à-jour d’un logi-ciel que cela peut occasionner), nous préférerons en créernunouveau, plus détaillé, qui déclenchera la création de l’ancien en renseignant sa valeur. Ainsi, anciennes et nouvelles applications peuvent évoluer progressivement et de façon transparente. En général, de nouveaux points de vue peuvent apparaître dès que de nouvelles analyses sont développées ou que de nouveaux besoins se font jour, en capitalisant éventuellement sur des points de vue existants.
Exploitation et diffusion. L’exploitation des documents ne s’arrête pas à leur analysesémantique et à leur classement. Une fois un document analysé, l’utilisateur peut le consulter simplement, et surtout accéder aux éléments ayant permis de générer l’informationà laquelle il s’intéresse. À partir de la vue lui donnant la liste des entreprises citées, il peut notamment accéder au texte originel ayant permis d’extraire cette information. Cette localisation est simplement faite via une mise en valeur (highlighting) du texte. Des liens vers l’intérieur du document sont donc nécessaire.
La consultation doit aussi être complétée par la diffusionourp atteindre toutes les strates de la dé-cision. En plus de constituer la principale source d’information de l’analyse, les documents restent le moyen le plus utilisé pour diffuser le résultat des analyseset traitements effectués (cf. section 2.2.3). Cela nécessite de fournir aux utilisateurs des outils d’aide à la production. Les rapports ou résumés ainsi produits peuvent l’être dans différents formats en fonctio des besoins (ex. : texte simple, HTML, PDF).
Plusieurs patrons peuvent être fournis pour aider à la génération. Nous pouvons, par exemple, obtenir un rapport suivant le plan suivant :
• quelques informations importantes au début (déterminéesarp le profil ou la requête à l’origine du rapport) ;
• un résumé des événements importants ;
• la liste des documents ayant permis de découvrir les informations résumées au-dessus (selon le format de génération, des liens entre informations synthétiques et documents sources peuvent être conservés).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

I Introduction et analyse des besoins
1 Introduction
2 Problématique
II État de l’art
3 Modélisation de l’information complexe
4 Famille Entité-Association (E/A)
5 Modèles à base de rôles
6 Modèles à base de frames
7 Récapitulatif et conclusion sur l’état de l’art.
III Proposition
8 DOAN : Un modèle flexible
9 Implémentation
10 Performances
IV Conclusion générale
11 Conclusion générale.
Bibliographie
Liste des tableaux
Table des figures
Table des matières
Index
Annexes
A Cycle de vie.
B Code snippets
C Sécurité

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *