La capacité d’identifier automatiquement les relations lexico-sémantiques est un enjeu important pour les applications de recherche d’information et de traitement du langage naturel telles que les systèmes de question-réponse (Dong et al. 2017), l’expansion de requêtes (Kathuria et al. 2017), ou le résumé de texte (Gambhir and Gupta 2017). Les relations sémantiques incarnent des phénomènes linguistiques symétriques et asymétriques tels que la synonymie (par exemple, vélo ↔ bicyclette), la co-hyponymie (par exemple, vélo ↔ voiture), l’hyperonymie (par exemple, bâtiment → maison) ou la méronymie (par exemple, vélo → roue), mais on peut en énumérer davantage (Vylomova et al. 2016).
La plupart des approches se concentrent sur la modélisation d’une seule relation sémantique et consistent à décider si une relation r donnée existe entre une paire de mots (x, y) ou non (c’est-à-dire une classification binaire). Dans ce contexte, la grande majorité des efforts (Snow et al. 2004, Roller et al. 2014, Shwartz et al. 2016, Nguyen et al. 2017a, Vulić and Mrkšić 2018, Wang and He 2020) se concentrent sur l’hyperonymie qui est le principe d’organisation clé de la mémoire sémantique, mais des études existent sur l’antonymie (Nguyen et al. 2017b), la méronymie (Glavaš and Ponzetto 2017) et la co-hyponymie (Weeds et al. 2014, Jana et al. 2020).
Introduction à l’apprentissage artificiel
L’apprentissage artificiel est une branche de l’intelligence artificielle qui permet aux machines d’apprendre à partir de données d’apprentissage et de s’améliorer au fil du temps, sans être explicitement programmées. Les algorithmes d’apprentissage artificiel sont capables de détecter des similitudes dans les données afin de faire leurs propres prédictions sur des données non explorées. L’apprentissage artificiel peut être utilisé sur des quantités massives de données et peut être beaucoup plus précis que les humains dans certaines situations particulières. Il peut être appliqué à différents domaines tels que le marketing, la gestion de la relation client, l’ingénierie et la médecine, mais on peut en énumérer davantage. Pour comprendre le fonctionnement de l’apprentissage artificiel, nous allons explorer brièvement les méthodes les plus courantes.
L’apprentissage supervisé: les algorithmes d’apprentissage supervisé font des prédictions sur la base de données d’apprentissage étiquetées. Chaque échantillon comprend une entrée et une sortie. Un algorithme d’apprentissage supervisé analyse cet échantillon de données et fait une prédiction sur les données non explorées. Il s’agit de l’approche la plus courante et la plus populaire de l’apprentissage automatique. Elle est dite “supervisée“ parce que ces modèles doivent être alimentés par des échantillons de données étiquetées préalablement pour apprendre.
L’apprentisage non supervisé: les algorithmes d’apprentissage non supervisé permettent de découvrir des relations dans des données non étiquetées. Dans ce cas, les modèles reçoivent des données d’entrée, mais les résultats souhaités sont inconnus. Ils doivent donc faire des déductions sans aucune orientation. L’un des types les plus courants d’apprentissage non supervisé est le partitionnement , qui consiste à regrouper des données similaires. Cette méthode est surtout utilisée pour l’analyse exploratoire et permet de détecter des tendances cachées.
L’apprentissage semi-supervisé: dans ce cas, les données d’apprentissage sont divisées en deux groupes. Une petite quantité de données étiquetées et un ensemble plus important de données non étiquetées. Dans ce cas, le modèle utilise les données étiquetées en entrée pour faire des déductions sur les données non étiquetées, ce qui donne généralement des résultats plus précis que les modèles d’apprentissage supervisé ordinaires pour un même ensemble de données étiquetées. Cette approche gagne en popularité, notamment pour les tâches impliquant de grands ensembles de données, comme la classification d’images. Dans cette thèse, nous nous concentrerons plus particulièrement sur l’apprentissage supervisé.
Apprentissage supervisé
L’apprentissage supervisé traite des données étiquetées, généralement manuellement annotées, afin de trouver une fonction de prédiction qui associe au mieux l’observation d’entrée à sa sortie de telle sorte que l’erreur de généralisation pour toute nouvelle paire d’exemples et sa sortie (non vue par le classifieur) soit la plus faible. Nous supposons que l’entrée X ⊆ Rd se trouve dans un espace vectoriel fini de dimension d et suit une distribution de probabilité P(x), x ∈ X est une observation de l’entrée. Chaque x ∈ X, a une valeur réelle y ∈ Y associée qui suit une distribution de probabilité P(y|x). L’objectif de l’apprentissage supervisé est de trouver la meilleure fonction h∗ ∈ H : X 7→ Y qui fait le moins d’erreurs possibles pour estimer Y. Ceci est fait en suivant le principe de minimisation du risque empirique en considérant un échantillon étiqueté de taille m tiré de manière aléatoire identique et indépendante par rapport à la même distribution de probabilité P.
Classification binaire
Il s’agit d’un processus ou d’une tâche de classification, dans lequel l’entrée X est classée en deux classes Y = {0,1}. Un exemple classique est la classification des emails en deux catégories possibles: spam vs non spam. Dans ce contexte, soit x un email donné, l’espace de sortie Y = {0,1}. 0 fait référence à un spam et 1 à un non spam. Dans les réseaux de neurones, la minimisation de la perte empirique est effectuée en considérant des fonctions erreur qui sont généralement convexes. Ces fonctions permettent l’utilisation de plusieurs algorithmes, comme la descente de gradient, qui s’appuie sur la convexité et la continuité de la fonction qu’il optimise.
Classification multi-classes
La classification multi-classes peut être considérée comme une extension de la classification binaire, où le nombre de sorties possibles est strictement supérieur à deux. Formellement, elle désigne toute configuration de classification qui considère un espace de sortie Y = {1, …,K} avec K > 2.
Pour résoudre le problème de la classification multi-classes plusieurs approches ont été proposées en réduisant le problème multi-classes à un problème binaire: (1) Une première solution consiste à utiliser une approche one-vs-one. L’idée est de construire un classifieur pour chaque couple de classes afin de les discriminer. Par exemple, si nous considérons un problème multi-classes d’analyse de sentiments de Twitter avec trois classes possibles (Positif, Négatif et Neutre), il faudrait apprendre trois classifieurs pour discriminer les couples suivants:
• Positif versus Négatif;
• Négatif versus Neutre;
• Positif versus Neutre;
Métriques pour la classification multi-classes
Lorsqu’il s’agit de classification multi-classes, et contrairement à la classifications binaire, les métriques doivent impliquer toutes les classes. De telles métriques peuvent être calcuées en agrégeant les performances de chaque classe. C’est là qu’interviennent les techniques de calcul de la moyenne.
• Macro: Il s’agit d’une moyenne arithmétique de toutes les métriques entre les classes. Cette technique donne un poids égal à toutes les classes, ce qui en fait une bonne option pour les tâches de classification équilibrée.
• Micro: La micro-moyenne est obtenue en divisant la somme de la diagonale de la matrice de confusion par la somme de toutes les valeurs de la matrice de confusion. Elle correspond à l’accuracy .
• Pondérée: Cette méthode tient compte du déséquilibre des classes en calculant la moyenne des mesures binaires pondérées par le nombre d’échantillons de chaque classe dans la cible. La moyenne pondérée sera calculée en multipliant chaque score par le nombre d’occurrences de chaque classe et en divisant par le nombre total d’échantillons.
Nous définissons enfin deux dernières métriques assez courantes pour la classification multi-classes:
• AUNU (AUC of each class against the rest, using the uniform class distribution): est la moyenne harmonique des AUC de chaque classe.
• AUNP (AUC of each class against the rest, using the a priori class distribution): est la moyenne pondérée des AUC de chaque classe.
|
Table des matières
Introduction
1 Background
1.1 Introduction à l’apprentissage artificiel
1.1.1 Apprentissage supervisé
1.1.2 Classification binaire
1.1.3 Classification multi-classes
1.1.4 Evaluation des modèles
1.1.4.1 Métriques pour la classification binaire
1.1.4.2 Métriques pour la classification multi-classes
1.2 Les plongements lexicaux
1.2.1 Le modèle général word2vec
1.2.1.1 Le modèle skip-gram
1.2.1.2 Le modèle CBOW
1.2.2 Le modèle GloVe
1.3 Les réseaux de neurones
1.3.1 Perceptron multi-couche
1.3.2 Encodage des séquences
1.3.3 Les modèles du langage contextualisés
2 Architectures multi-tâches pour l’identification des relations lexico-sématiques
2.1 Motivation
2.2 Un aperçu de la littérature
2.3 Architecture d’apprentissage
2.3.1 Représentations continues
2.3.2 Représentation des patrons lexicaux
2.3.3 L’architecture shared-private
2.3.3.1 L’architecture générale
2.3.3.2 Architéctures spécifiques
2.4 Expériences
2.4.1 Jeux de données
2.4.2 Extraction des patrons lexicaux
2.4.3 Configurations d’apprentissage
2.5 Evaluation
2.5.1 L’apprentissage concurrent entre deux tâches
2.5.1.1 Interprétation des résultats
2.5.1.2 Jeux de données équilibrés
2.5.1.3 Analyse d’ablation
2.5.1.4 BiLSTM privé
2.5.2 Apprentissage concurrent de trois tâches
2.5.3 Conclusion
3 Etude approfondie des caractéristiques pour l’identification des relations lexicosémantiques
3.1 Analyse des caractéristiques
3.1.1 Caractéristiques symétriques
3.1.2 Caractéristiques distributionnelles asymétriques
3.1.3 Caractéristiques paradigmatiques basées sur les patrons
3.2 Paramètres multi-tâches
3.2.1 Architectures multi-tâches
3.2.2 Jeux de données
3.2.3 Les configurations d’apprentissage
3.2.4 Le fractionnement lexical
3.3 Evaluation
3.3.1 Modèles privés
3.3.2 Modèles multi-tâches
3.3.3 Embeddings sphériques
3.4 Conclusion
4 L’apprentissage multi-classes
4.1 Stratégie one-vs-rest multi-tâches
4.1.1 Architecture générale
4.1.2 Architectures inter-classes
4.2 Jeux de données
4.3 Configurations expérimentales
4.4 Résultats
4.4.1 Modèles multi-tâches
4.4.2 Analyse des boxplots pour le cas des relations lexico-sémantiques
5 Conclusion