L’« accident » et la problématique du forage des données

Le concept d’accident : analyse sémantique

L’unité lexicale « accident » est polysémique et est associée à divers concepts en fonction de ses usages. Dans cette section, nous recherchons les principales significations véhiculées par cette unité lexicale. Nous partons d’une analyse qualitative du sens commun du mot puis nous analysons son espace sémantique selon la méthode exposée par les concepteurs du dictionnaire électronique des synonymes (DES) élaboré par le CRISCO et exposée par Manguin et al. (2004).

Analyse qualitative de l’espace sémantique

Nous nous appuyons sur le modèle sémantique proposé par Victorri et Fuchs (1996a). A une unité lexicale polysémique sont associés deux espaces continus : l’espace sémantique dans lequel le sens d’une expression dans un énoncé est représenté par une région et l’espace co-textuel qui représente la détermination du sens d’une expression par les autres éléments présents dans l’énoncé. Victorri et Fuchs (1996b) modélisent alors la « dynamique » de construction du sens par une fonction de l’espace co-textuel sur l’espace sémantique qui, à tout élément de l’espace co-textuel, associe une fonction de potentiel déterminant la dynamique sur l’espace sémantique (i.e. au minimum de cette fonction sont associés des bassins d’attracteurs de sens). En pratique, dans une première étape, nous recherchons à partir des définitions de sens commun du mot « accident » la structure de son espace sémantique.

Le noyau de sens
Pour la suite, toutes les définitions sont celles proposées par le CNRTL et les références des définitions correspondent à celles de ce corpus. Nous retenons les définitions suivantes du mot « accident » :
• « Ce qui s’oppose à la substance ou à l’essence » (définition I.) ;
• « [P. oppos. à substance]. Ce qui existe, non en soi-même, mais dans un autre ; (…) par ex., la couleur, la forme, qui ne peuvent être que la couleur, ou la forme de quelque chose subsistant en elle-même » (définition I.A.1.) ;
• « [P. oppos. à essence]. Ce qui ne fait pas partie de la nature ou de l’essence d’un être et peut devenir autre sans qu’il y ait changement d’espèce. Par exemple le fait d’être assis, ou couché, d’être à Paris, d’être en face de Pierre » (définition I.A.2.) ;
• « Dans ces emplois le sens glisse insensiblement vers l’idée générale de variation, de variété, qui pour l’œil de l’observateur rompent la monotonie du fond » (définition I.C) ;
• « Évènement fortuit, sans motif apparent et sans lendemain, qui affecte une personne ou un groupe de personnes, en interrompant le déroulement normal, probable et attendu des choses » (définition II).

Environnement sémantique direct et co-textualité de l’unité lexicale «accident»

Dans un second temps, nous examinons comment l’unité lexicale « accident » est utilisée dans la langue et environnée dans le champ lexical, afin de cerner d’éventuelles déterminations co-textuelles des différentes valeurs de l’espace sémantique. En effet, avec Victorri et Fuchs (1996, chap. 3) nous supposons que l’espace sémantique d’un mot (i.e. l’ensemble des sens que peut revêtir ce mot) est structuré par d’autres mots auxquels il est associé dans la langue. Les associations à d’autres mots déterminent ainsi des ensembles de significations que peut prendre l’unité lexicale ; l’unité lexicale en question possède des « valeurs typiques » (les centres des bassins d’attracteurs dans l’espace sémantique considéré). Ces valeurs typiques ont la particularité d’être stables et de livrer un cadre interprétatif invariant pour l’unité lexicale en question. Victorri et Fuchs précisent que les valeurs typiques sont des « dérivations » de la valeur primaire de l’unité lexicale en question et que c’est « […] l’analyse de ces glissements qui permet de définir correctement le noyau de sens, comme justement la partie du sens qui reste invariante lors de ces modifications » (Victorri and Fuchs, 1996, pt. 5.3). Pour cela, nous procédons à une analyse du co-texte, c’est-à-dire de l’environnement lexical de l’unité « accident », formé des syntagmes minimaux jusqu’à la phrase (notre limite pour l’étude). Il s’agit de comprendre à travers les usages du mot s’il existe une induction de l’espace co textuel vers l’espace sémantique génératrice de nouveaux sens, c’est-à-dire des valeurs typiques en sus du noyau de sens.

Nous suivons la méthode proposée par Victorri et Fuchs (1996, chap. 6). Il faut en premier lieu recenser tous les « énoncés occurrences » où l’unité lexicale «accident» est utilisée ; c’est virtuellement impossible. Aussi, nous nous contentons de corpus de textes que nous supposons représentatifs de l’utilisation de la langue française dans toute sa richesse et diversité. Pour cela, nous avons choisi le corpus proposé par Sketch Engine (« Sketch Engine | language corpus management and query system, » n.d.) qui est le corpus frTenTen12 (« French Web corpus (frTenTen) search | Sketch Engine, » n.d.; Jakubíček et al., 2013 ; Suchomel and Pomikálek, 2012). Le corpus frTenTen12 contient près de dix milliards de mots (« Corpus info : French Web 2012 (frTenTen12), » n.d.). Sketch Engine permet une exploration en profondeur de larges quantités de corpus, où l’on peut identifier des combinaisons de mots d’intérêt, dans notre cas des co-occurrences (« Concordance | Sketch Engine,» n.d.), c’est-à-dire des mots qui apparaissent dans la proximité syntaxique immédiate (que nous assimilerons au co-texte) d’une unité lexicale ciblée.

L’analyse porte sur toutes les formes issues de l’unité lexicale « accident », le lemme de base (accidenter, accidentel, etc.). Nous procéderons par recoupements successifs, c’est-à-dire en utilisant différentes approches d’analyse de corpus pour faire émerger la co-textualité et son éventuelle influence.

Word sketch difference

Nous allons utiliser le moteur word sketch difference (« Word Sketch Difference – compare collocations | Sketch Engine, » n.d.) pour étudier deux lemmes : nous regardons comment « accident » et « incident » sont articulés à l’aide de l’adjectif qualificatif car « […] il ajoute à ces substantifs l’idée des qualités ou des manières d’être sous lesquelles ils sont considérés » (Ploux and Victorri, 1998). On regarde donc les deux utilisations en grammaire française de l’adjectif, à savoir comme épithète (prédicat : modifier) et comme attribut (prédicat : adj_sujet_of).

Thesaurus

Nous continuons notre exploration de l’espace co-textuel avec la suite logicielle Sketch Engine et l’utilisation d’un thésaurus généré spécifiquement autour du lemme « accident ». L’algorithme d’élaboration du thésaurus s’appuie sur le calcul d’une distance entre deux lemmes (« Statistics used in Sketch Engine | Sketch Engine, » n.d.). L’indice logDice fournit une liste de co-occurrences. Ensuite, une analyse grammaticale automatique des corpus détecte lorsque l’unité lexicale « nœud » est remplacée dans la phrase par une autre identifiée comme « pertinent » selon l’indice logDice. Par exemple, lorsqu’un même texte contient les phrases « l’accident a fait de nombreux morts » et « la catastrophe a fait de nombreux morts », l’algorithme considèrera « accident » et « catastrophe » similaires, sachant qu’ils sont fortement associés par l’indice logDice. Cette méthode repose sur l’hypothèse de sémantique distribuée (Schütze and Pedersen, 1995).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction générale
Chapitre 1 L’« accident » et la problématique du forage des données
1.1 Le concept d’accident : analyse sémantique
1.1.1 Analyse qualitative de l’espace sémantique
1.1.2 Analyse synonymique de l’accident : aspect théorique
1.1.3 Représentations de l’espace sémantique de l’unité lexicale
« accident »
1.2 Des données de l’accident de Deepwater Horizon
1.2.1 Stratégie de collecte
1.2.2 Les données accessibles par l’Internet
1.2.3 Les rapports d’enquêtes
1.3 Du forage des données relatives à Deepwater Horizon
1.3.1 Le traitement de Deepwater Horizon par la science
1.3.2 L’attribut oil budget
1.3.3 De la nécessité d’organiser les données aux fins d’une connaissance scientifique
Chapitre 2 Connaissances, ingénierie, ontologies
2.1 Le concept d’ontologie
2.1.1 D’une ontologie à l’autre
2.1.2 Les critères de conception des ontologies
2.1.3 Intérêts des ontologies en ingénierie des connaissances
2.2 Ingénierie des ontologies
2.2.1 Structure logique
2.2.2 Les opérations sur l’ontologie
2.2.3 Le modèle de description de ressources dit standard RDF
2.3 Choix d’une ontologie
2.3.1 Tour d’horizon de quelques réalisations
2.3.2 La recherche de l’ontologie « idéale »
2.3.3 DOLCE DnS UL
Chapitre 3 Algorithmes de population automatique d’une ontologie d’accident
3.1 Un algorithme de population automatique des ontologies d’accident
3.1.1 Structure morphosyntaxique et fonctionnelle
3.1.2 Sémantique : lemme, lexique et lemmatisation
3.1.3 Un algorithme NER (Named Entity Recognizer)
3.2 Traitement automatique de la causalité
3.2.1 De la causalité
3.2.2 Traitement automatique du langage naturel et causalité
3.2.3 Une méthode bayésienne de détection des expressions de la causalité
3.3 Notre proposition : une machine qui répond à la question pourquoi ?
3.3.1 Aborder le cheminement causal
3.3.2 La preuve de concept de la machine
3.3.3 Vers un outil opérationnel
Chapitre 4 Application au cas Deepwater Horizon
4.1 Une ontologie de l’accident de Deepwater Horizon
4.1.1 La présentation du cas Deepwater Horizon
4.1.2 Notre ontologie de l’accident de Deepwater Horizon
4.1.3 Cas concrets d’utilisation de l’ontologie
4.2 L’ontologie pour orienter la recherche
4.2.1 Résolution graphique d’un incident d’explication dans la connaissance
4.2.2 A la recherche de l’explication manquante
4.2.3 Causalité contrefactuelle et expression dans DOLCE
4.3 Discussion et limitation des résultats
4.3.1 Les limites de notre étude de l’accident Deepwater Horizon
4.3.2 Les limites des ontologies pour la formalisation des connaissances et le traitement de la causalité
4.3.3 Les limites d’une machine dans la détermination de la causalité exprimée dans un document
Conclusion
Bibliographie