Transactions formées des segments de texte

Stabilisation des classes

Pour pallier à ce problème, il convient d’instaurer des routines pour que les classes se stabilisent d’ elles-mêmes. Ceci consiste à modifier les algorithmes de classification pour faire en sorte de recommencer le processus de classification de tous les vecteurs jusqu’à ce que tous les vecteurs soient classés correctement. (Comme nous le voyons dans la représentation de l’algorithme au point 2.3.2) On parvient à cette finalité en modifiant les algorithmes existants. La méthode de calcul du taux d’erreur diffère d’un classifieur à l’autre mais le principe reste le même. Vérifier si la distance entre les vecteurs à classifier et les vecteurs de références (selon le classifieur choisi) ne dépasse pas un certain seuil d’erreur. Si cette valeur est plus petite que celui-ci pour tous les vecteurs, on suppose alors que la position des vecteurs de référence est optimale et que les classes sont donc stabilisées. Sinon, on considère que des vecteurs se retrouvent au sein de mauvaises classes et on ré exécute tout le processus de classification (exception faite du processus d’ apprentissage, celui-ci étant le groupe de vecteurs de référence trouvé lors de la précédente itération). Il est à noter que plus le seuil du taux d’ erreur est minime, plus la classification est précise. Mais en contrepartie, le temps d’exécution sera élevé, dû au nombre d’exécutions exhaustif qui sera nécessaire afin d’ atteindre le seuil demandé.

Relation entre les méthodes de classifications et les règles d’associations maximales Les classes formées par les différentes méthodes de classification varient beaucoup dépendant de l’algorithme de classification utilisé. Elles prennent souvent la forme de liste beaucoup trop volumineuse et souvent difficile à interpréter pour l’ utilisateur. Les règles d’ associations maximales sont, quant à elle, un outil très intéressant pour trouver la relation existante entre les mots d’un texte. Cependant, comme nous l’avons déjà mentionné, la richesse du vocabulaire le composant est un obstacle de taille. Cette méthode devient vite impraticable car le nombre d’association devient beaucoup trop important et les examiner au complet devient alors une tâche trop ardue et trop coûteuse en temps. Elles ont d’ ai lieurs fait l’objet de plusieurs mémoires de maitrise [1] [9]. Une solution envisageable est de combiner les méthodes de classification avec l’ extraction des règles d’associations maximales pour faciliter l’ exploitation des résultats issus de la classification. Dans ce chapitre, Nous avons introduit les règles d’associations et avons ensuite présenté les règles d’association maximales. Pour chacune des deux approches, nous avons décrit leur fonctionnement ainsi que leurs propriétés et leurs opérations. Finalement, nous avons établi la relation existante entre les méthodes de classification et les règles d’associations maximales. Dans le chapitre 4 nous présentons la méthodologie de recherche permettant de combiner les méthodes de classifications et les règles d’ association maximales.

Extraction du vocabulaire

Afin de pouvoir utiliser les différents classifieurs, on doit établir une matrice d’entrée contenant les vecteurs à classifier (figure 17). La matrice d’entrée (figure 18) se présente sous la forme d’un tableau de fréquence à deux dimensions où les colonnes représentent les différents éléments composant le texte à classifier (dimensions de la matrice) et les lignes, chaque vecteur d’ occurrences produit lors de l’ étape de segmentation. Dans l’ application développée, les dimensions de la matrice (représentées ci-dessus par Dl , D2, D3, … ) peuvent contenir deux types d’informations différentes, soit des mots tels que nous les connaissons ou des n-grams. Un n-gram est un découpage de l’ information en n caractères successifs. Nous optons pour ce deuxième type d’unité d’ information car le mot ne convient pas à tous les types de langage tels que l’ arabe, le chinois ou autre contrairement aux n-grams. (Par exemple, O.N.D. peut être considéré comme trois mots alors que dans les faits, il devrait être considéré comme un seul.) Pour que cette adaptation soit réalisable, tous les vecteurs être représentés en fonction des mêmes données. Nous tiendrons donc compte du vocabulaire du texte dans sa totalité et calculerons par la suite la fréquence de chaque donnée au sein de chaque vecteur. La solution préconisée tiendra donc compte de l’ensemble du vocabulaire de tous les vecteurs.

Résultats des analyses lors du processus de classification

Dans le Tableau 2 nous présentons une synthèse des résultats. Les colonnes « Mots » et « Tri-Grams » représentent les résultats obtenus à la suite des classifications des matrices d’ entrées basées sur les unités d’ information mot et tri-gram. La colonne « Mots U TriGrams » représente les résultats obtenues lorsque nous unissons les résultats des deux types d’ unités d’ information (mots et tri-grams). Les unités d’ information sont toutes classées en utilisant ART, SOM et K-Means. Pour chaque unité d’ information, la colonne « Classes » représente le nombre de classes issu des résultats de la classification. La colonne « Mots » représente le nombre de mots obtenus lorsque nous procédons à l’ unification de toutes les classes résultantes. La colonne « segments » représente le nombre de segments obtenu lors de l’ opération de segmentation. Le nombre de segments à classifier (en l’ occurrence, en ce qui nous concerne, des paragraphes) nous donne un aperçu de la taille du texte.

Nous pouvons aussi constater que le nombre de mots obtenu lors de la classification lorsque l’ unité d’ information est le tri-gram est quatre fois supérieur à celui obtenu lors de la classification lorsque l’ unité d’ infom1ation est le mot. C’est une conséquence des choix que nous avons pris afin de réduire la taille de la-matrice lors de l’ étape de nettoyage. Le nombre de mots total lorsque nous faisons l’ union des résultats de tous les classifieurs est identique au nombre de mots le plus élevé. Ce qui est normal car nous ne créons pas de mots comme c’ est le cas pour les classes. Pour identifier .le thème de la partie du livre, nous utilisons l’ensemble des vingt mots les plus fréquents présents dans toutes les classes issues de l’union des résultats des deux types d’ unités d’ information (mots et tri-grams). (242 classes). Ce groupe de mots est le suivant : (ARABES, ARABIE, FAIT, HISTOIRE, PAYS, ARABE, RACE, FAUT, NOMADES, CIVILISATION, PEUPLE, PEUPLES, VILLES, RESTE, MONDE, YÉMEN, GRANDE, MAHOMET, DIT, DIRE) Si nous regardons ce groupe de mots, nous pouvons dire qu ‘ il s’agit de l’ histoire des arabes mais sans toutefois interpréter spécifiquement le thème. Pour vérifier notre interprétation, regardons la table des matières du livre [11] que voici:

Résultats obtenus lors de l’extraction des règles d’associations maximales

Comme ensemble E, nous utilisons un ensemble de 4424 mots. Cet ensemble correspond à la classe la plus large obtenue à la suite de l’ unification des classes résultantes des classifications avec ART, K-means et SOM (voir tableau 1 page 68). Nous avons choisi cet ensemble car nous croyons qu ‘un ensemble E plus large permet d’extraire un plus grand nombre de règles d’associations maximales. Nous choisissons pour les besoins d’extraction des règles d’ association maximales, les quatre mots les plus fréquents présents dans toutes les classes issues de l’union des résultats des deux types d’unités d’ information (mots et tri-grams). Nous établissons donc le sous-ensemble X qui est {ARABES, ARABIE, FAIT, HISTOIRE} duquel nous enlevons le verbe FAIT. Nous avons choisi volontairement d’enlever le verbe FAIT car nous croyons qu ‘ il est un mot fonctionnel n’ ayant pas été en levé lors du nettoyage du vocabulaire. Ceci nous donne donc : X = {ARABES, ARABIE, HISTOIRE}. Bien entendu, d’autres façons de construire l’ensemble X sont possibles. Dans le tableau 3 nous présentons une synthèse quant au nombre de règles d’ association maximales extraites selon la règle {ARABES, ARABIE, HISTOIRE} max ) y avec un seuil minimum de Mconfiance de 50%. Les colonnes « Mots », « Tri-Grams », « Mots U tri-grams », « Mot n Tri-grams» et «Mot n Tri-grams n (Mot U Tri-grams) » représentent le nombre de règles d’association maximales extraites lors de l’utilisation du groupe de classes du classifieur correspondant selon le type d’ unité d’information voulu.

Nous pouvons observer que le nombre de règles d’ associations maximales extraites est plus élevé lorsque nous utilisons les tri-grams. Nous pouvons aussi constater que plus de 86% des ensembles Y se retrouvent à la fois dans l’analyse basée sur les mots et l’analyse basée sur les Tri-grams. Finalement dans 100% des cas, lorsqu ‘un ensemble extrait est présent à la fois dans l’analyse basée sur l’unité d’information « mot» et dans l’analyse basée sur l’unité d’information « tri-gram », il est aussi présent lors de l’analyse basée sur les deux types d’unités d’ information « mot» et « tri-gram ». Les règles choisies sont les règles extraites lors de l’analyse basée sur les deux types d’unités d’ information «mot» et «tri-gram ». En effet, cette colonne est la plus représentative car elle contient à la fois tous les ensembles présents à la fois lors de l’analyse basée sur les mots et l’analyse basée sur les tri-grams mais aussi des ensembles qui pourraient être pertinents une fois les analyses combinées. Nous avons donc sept règles d’associations maximales que nous présentons dans le tableau 4.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

SOMMAIRE
REMERCIEMENTS
LISTE DES ÉQUATIONS
LISTE DES FIGURES
LISTE DES SIGLES
LISTE DES TABLEAUX
CHAPITRE 1 – INTRODUCTION
CHAPITRE 2 – LES MÉTHODES DE CLASSIFICATION
2.1 REPRÉSENTATION VECTORIELLE
2.2 CALCUL DE DISTANCE
2.3 CLASSIFIEURS
2.4 ORDRE D’ENTREE DES VECTEURS
2.5 CONCLUSION
CHAPITRE 3 – LES RÈGLES D’ASSOCIATIONS MAXIMALES
3.1 INTRODUCTION
3.2 REGLES D’ASSOCIATIONS
3.3 REGLES D’ASSOCIATIONS MAXIMALES
3.4 RELATION ENTRE LES MÉTHODES DE CLASSIFICATIONS ET LES RÈGLES D’ASSOCIATIONS MAXIMALES
3.5 CONCLUSION
CHAPITRE 4 – PROJET
4.1 INTRODUCTION
4.2 INTRODUCTION DU TEXTE
4.3 CONVERSION DU TEXTE
4.4 SEGMENTATION DU TEXTE
4.5 EXTRACTION DU VOCABULAIRE
4.6 TABLES DE DISTRIBUTION DE FREQUENCES RELATIVE ET TOTALE
4.7 NETTOYAGE DU VOCABULAIRE
4.8 CLASSIFICATION
4.9 NORMALISATION DE LA Matrice
4.10 REGLE D’ASSOCIATION MAXIMALES
4.11 CONCLUSION
CHAPITRE 5 – EXPÉRIMENTATION
5.1 INTRODUCTION
5.2 STRATÉGIE
5.3 ÉVALUATION DU LIVRE {( LA CIVILISATION DES ARABES» (LE BON, 1884)
5.4 RÉSULTATS OBTENUS LORS L’ANALYSE DU LIVRE {( LA CIVI LISATION DES ARABES» (LE BON, 1884)
5.5 ÉVALUATION DES TRANSACTIONS ISSUES DE LA COMBINAISON DES TROIS CLASSIFIEURS
CHAPITRE 6 – CONCLUSION
RÉFÉRENCES BIBLIOGRAPHIQUES
RÉFÉRENCES WEBOGRAPHIQUES
ANNEXE 1 RÉSULTATS OBTENUS LORS DE L’EXTRACTION DES RÉGLES D’ASSOCIATIONS MAXIMALES
ANNEXE 2 RÉSULTATS OBTENUS LORS DE L’EXTRACTION DES RÈGLES D’ASSOCIATIONS MAXIMALES DANS LES TRANSACTIONS FORMÉES DES SEGMENTS DE TEXTE DE LA PREMIÈRE PARTIE DU LIVRE « LA CIVILISATION DES ARABES »
ANNEXE 3 TABLE DES MATIÈRES DU LIVRE « LA CIVILISATION DES ARABES»
ANNEXE 4 INTERFACES DE L’OUTIL DÉVELOPPÉ

Transactions formées des segments de texteTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *