Intelligence linguistique et attributions des scores

Le cล“ur du projet

Directions et directives

Le stage a รฉtรฉ l’occasion d’exploiter les diffรฉrentes pistes ร  notre disposition pour extraire l’information du corpus. Ceci de maniรจre automatisรฉe sans intervention manuelle dans le processus afin de la prรฉsenter sous forme d’un nuage de mots. Les contraintes fixรฉes ont รฉtรฉ de conserver une facilitรฉ de portage dans diffรฉrentes langues et d’utiliser des procรฉdรฉs ne nรฉcessitant pas une maintenance (mise ร  jour) par un documentaliste expert. Le temps ayant permis de dรฉvelopper l’outil jusqu’ร  sa phase de mise en production, il a fallu rรฉรฉcrire le code de maniรจre ร  ce qu’il soit facilement intรฉgrable ร  l’infrastructure existante. Enfin, il faudra l’avoir rendu robuste et capable de gรฉrer les problรจmes informatiques usuels (erreurs d’รฉcriture, ouverture de fichiers inexistants… etc). Dernier point, un maximum de paramรจtres devront avoir รฉtรฉ pensรฉ comme rรฉglables pour รฉviter toute rรฉรฉcriture ou intervention au sein du code.
Si le nuage de mots n’est par dรฉfinition qu’une forme de prรฉsentation graphique de l’information, les algorithmes, qui permettent l’extraction de l’information en amont pour donner un poids et un sens autre qu’un effet stylistique au nuage, sont quant ร  eux la rรฉalisation concrรจte d’une des multiples facettes du TAL. Ce traitement de la langue (dans notre cas sous forme textuelle) est envisageable de bien des faรงons, et c’est lร  tout l’enjeu du stage qui a รฉtรฉ menรฉ au sein de Linkfluence. Si nous pouvons tout ร  fait distinguer cette partie algorithmique du nuage (rien n’empรชchant de reprรฉsenter les rรฉsultats par un autre intermรฉdiaire), elle a รฉtรฉ ici pensรฉ pour produire une information directement exploitable sous la forme d’un nuage de mot dynamique avec une donnรฉe temporelle.

Tour d’horizon des nuages de mots

Sur le web, nous pouvons aujourd’hui trouver une grande variรฉtรฉ de nuages de mots (nous utiliserons le terme nuage de mots pour dรฉsigner ร  l’avenir la reprรฉsentation graphique de l’information et la partie algorithmique comme un tout). Dans la plupart des cas ils ne diffรจrent que par la prรฉsentation et ne proposent pas d’extraction avancรฉe de l’information. Ils se contentent de prendre en entrรฉe une liste de mots associรฉs ร  une valeur numรฉrique qui servira de score pour attribuer des poids diffรฉrents, ce qui se traduira par des couleurs et/ou des tailles de polices diffรฉrentes. Ils ont aussi un rรดle de navigation au sein du site qui les emploie. En effet, les mots affichรฉs possรจdent gรฉnรฉralement un lien hypertexte qui redirige l’utilisateur vers du contenu associรฉ au mot sur lequel ils ont cliquรฉ. A noter que le terme ยซ mot ยป dรฉsigne par un abus de langage une unitรฉ graphique sรฉparรฉe par deux espaces dans notre cas. Nous serons amenรฉs ร  l’opposer au terme n-gramme.
Cette valeur numรฉrique a souvent comme origine la frรฉquence d’apparition des mots au sein d’un texte. Si cette information n’est pas nรฉgligeable dans le cadre de notre travail, seule elle reste pauvre et limite grandement les observations que nous pourrions envisager.
L’une des plate-formes les plus frรฉquentรฉes pour ce type de mรฉdia est Wordle. Pourtant en page d’accueil il est fait explicitement mention du fait que le gรฉnรฉrateur se contente d’utiliser les frรฉquences d’apparitions : ยซ Wordle is a toy for generating โ€œword cloudsโ€ from text that you provide. The clouds give greater prominence to words that appear more frequently in the source text. ยป. Dans la description mรชme du produit, il est clairement รฉtabli qu’il est considรฉrรฉ comme un ยซ jouet ยป (toute proportion gardรฉe, les algorithmes de gestion de l’espace et d’affichage de l’information รฉtant tout ร  fait remarquables). Son but reste purement visuel et n’offre pas une รฉtude plus fine et poussรฉe de l’information issue d’un texte source.

Le point de dรฉpart

Le tf-idf

Dรฉfinitionย 

– term frequency : la frรฉquence d’apparition d’un terme divisรฉe par la somme des frรฉquences d’apparitions de l’ensemble des termes du document.
– inverse document frequency : le logarithme du rรฉsultat du nombre de documents du corpus divisรฉ par le nombre de documents oรน au moins une occurrence du terme apparait.
– tf-idf : term frequency* inverse document frequency
Le tf-idfest un algorithme qui a la particularitรฉ de donner un indice ร  chaque mot d’un texte plus ou moins fort selon sa frรฉquence d’apparition dans celui-ci par rapport ร  sa frรฉquence d’apparition dans l’ensemble des documents auxquel le texte est comparรฉ. Ainsi, un terme extrรชmement frรฉquent comme ยซ de ยป verra son indice relativement faible puisque sa grosse frรฉquence d’apparition sera pondรฉrรฉe par celle dรฉrivant de son apparition quasi systรฉmatique dans chaque texte du corpus. Cela permet d’attribuer aux mots les plus spรฉcifiques du texte un indice plus important qu’ร  ceux communs ร  l’ensemble du corpus tout en conservant une forme de classement par leur frรฉquence d’apparition. Dans son utilisation premiรจre, le tf-idfpermet donc de sรฉlectionner les documents parmi un set qui paraissent comme les plus pertinents par rapport ร  une requรชte prรฉcise. Dans l’utilisation que nous en avons faite, l’algorithme nous permet de sรฉlectionner uniquement les mots (ou groupes de mots) qui caractรฉrisent le mieux un ensemble de documents gรฉnรฉrรฉs par une requรชte donnรฉe par rapport ร  un corpus de rรฉfรฉrence. En effet, nous considรฉrons le corpus de la requรชte comme un seul et unique document et le corpus de rรฉfรฉrence (composรฉ d’un ensemble de billets sรฉlectionnรฉs alรฉatoirement โ€“ aujourd’hui rรฉsultants d’une requรชte contenant des opรฉrateurs logiques du type ‘ le OR de OR la ‘ qui a pour but d’รชtre la moins restrictive possible ) comme le set de documents.
Au cours du stage, nous avons ajoutรฉ ร  la formule du tf-idf une variable pour รฉcraser l’รฉchelle de grandeur des frรฉquences d’apparitions qui pouvait รชtre disproportionnรฉe (rapport de 1000 entre deux termes ce qui a pour effet d’attribuer ร  des mots non spรฉcifiques mais sur-reprรฉsentรฉs un indice fort), cela se traduit par la prรฉsence d’une racine carrรฉ sur le term frequency.
Concrรจtement, le tf-idfnous permet de pondรฉrer les mots d’un texte par rapport ร  ceux d’un corpus pris en rรฉfรฉrence.

Un premier essai rรฉalisรฉ par Linkfluence

L’รฉquipe de Linkfluence a dรฉveloppรฉ un premier prototype de nuage de mots. Sa principale caractรฉristique qui diffรจre grandement de ce qui a dรฉjร  รฉtรฉ fait est d’utiliser la comparaison (ร  travers l’utilisation du tf-idf) des mots d’un texte par rapport ร  un ensemble d’autres pour y trouver ceux qui font la spรฉcificitรฉ de ce premier.
A cela s’ajoute une ligne du temps qu’il est possible de parcourir et nous avons un nuage dynamique capable d’afficher sur une pรฉriode dรฉfinie, pour un jour en particulier, les mots qui sont spรฉcifiques ร  cette journรฉe par rapport aux autres jours. Nous pouvons donc suivre l’รฉvolution de ces mots, les voir apparaรฎtre, disparaรฎtre ou simplement changer de poids selon l’importance qu’ils prennent ou perdent.
Le nuage ne fonctionne en revanche qu’avec des mots, il n’y a pas encore la prise en compte des n-grammes qui sera dรฉveloppรฉe au cours du stage. De plus, c’est uniquement ร  l’aide d’une stoplistque sont filtrรฉs les รฉventuels mots indรฉsirables. Il n’y a pas non plus la moindre utilisation de linguistique plus classique (fondรฉe sur des grammaires par exemple), l’ensemble est uniquement le rรฉsultat d’un algorithme statistique. Cependant, sur ce point, cela rend le dรฉploiement du nuage rapide et facile pour d’autres langues.

Les fondements du nouvel outil

L’hypothรจse derriรจre le nuage de mots est qu’on puisse arriver ร  extraire de l’information pertinente grรขce au calcul du vocabulaire spรฉcifique d’un texte par rapport ร  un autre. Cela sous-entend une qualitรฉ des donnรฉes comme point d’entrรฉe. Dans l’ensemble, le domaine du TAL est souvent confrontรฉ au bruit et il est gรฉnรฉralement dรฉcidรฉ de privilรฉgier le silence au premier. Bien entendu, le but รฉtant de rรฉduire le silence au stricte minimum sans pour autant laisser le bruit s’immiscer dans les rรฉsultats. Dans notre cas, le choix des donnรฉes ayant รฉtรฉ effectuรฉ mรฉticuleusement lors de la crรฉation de Linkscape, notre travail n’en a รฉtรฉ que plus facile. Ce n’est pas pour autant que nous avons รฉtรฉ libรฉrรฉ de toute forme de nettoyage, mais nous avons pu nous concentrer en privilรฉgiant la prรฉcision et la justesse plutรดt que l’action de masse.
Nous sommes donc parti sur des bases expรฉrimentales, sans prรฉjugรฉs lors de la crรฉation des algorithmes. Au fur et ร  mesure de nos avancรฉes nous les avons affinรฉs afin d’approcher le plus prรจs possible ce que nous jugions comme un rรฉsultat exploitable en production. Bien qu’รฉtant dans un cadre de recherche et d’essais, il ne fallait pas occulter le fait que le travail rรฉalisรฉ avait un but concret d’application derriรจre, et qu’au delร  de l’intรฉrรชt scientifique, il รฉtait nรฉcessaire d’arriver ร  trouver quelque chose d’utilisable.
C’est pourquoi notre champ d’action est restรฉ large mais sans oublier nos objectifs. Ainsi, s’assurer de la validitรฉ de l’hypothรจse est restรฉ un point central tout au long du stage, l’ensemble du projet reposant sur ce vocabulaire spรฉcifique et ce qu’il est possible d’en faire.
Notre travail repose aussi sur des bases linguistiques รฉprouvรฉes. Les collocations sont un phรฉnomรจne qui a รฉtรฉ largement รฉtudiรฉ et analysรฉ et dont l’existence n’est plus ร  dรฉmontrer.
Ainsi, le projet croise l’utilisation du vocabulaire spรฉcifique avec celui des collocations dans le but d’obtenir des n-grammes dont l’intรฉrรชt sรฉmantique et informatif se rรฉvรจle pertinent (dans notre cadre). Ces n-grammes ne se limitent pas aux expressions figรฉes, ils recouvrent aussi des extraits (parties) de phrases qui peuvent รชtre issues de la rรฉpรฉtition d’une citation ร  travers les diffรฉrentes publications. Nous souhaitions donc pouvoir observer des phรฉnomรจnes de langue lors de l’affichage de rรฉsultats.
C’est donc en partant de ce principe : afficher le spรฉcifique d’un document ou corpus de documents que le dรฉveloppement du nouveau nuage de mots s’est dรฉroulรฉ. Le code du prototype n’a pas รฉtรฉ rรฉutilisรฉ, seule l’idรฉe de fonctionnement a รฉtรฉ conservรฉ. Il a donc fallu construire, brique aprรจs brique les diffรฉrentes strates de l’analyse et les suites d’algorithmes pour permettre la rรฉalisation du projet. Les compรฉtences informatiques ont รฉtรฉ relativement mises en avant, le projet nรฉcessitait une bonne connaissance du langage Perl, connaissance qui a รฉtรฉ en parti bรขti tout au long du dรฉveloppement. Tout ceci combinรฉ avec l’utilisation de linguistique par l’intermรฉdiaire de la comprรฉhension des mรฉcanismes de la langue ainsi que l’utilisation de grammaires.
Le stage a aussi รฉtรฉ l’occasion d’รชtre formรฉ ร  de nouveaux outils, aussi bien orientรฉs dรฉveloppeur que linguiste. Ainsi, le framework GATE nous a apportรฉ des solutions, au moins provisoires, dans l’attente d’un dรฉveloppement plus avancรฉ et personnalisรฉ de nos applications.

Les outils sollicitรฉs

TreeTagger

TreeTagger est ce que nous appelons communรฉment un pos-tagger. Il a pour fonction d’associer ร  chaque mot d’un texte la partie du discours (part of speech) qui lui revient. Son utilisation est facilitรฉe au sein de GATE par une intรฉgration simple ร  mettre en place. TreeTagger est fondรฉ sur les principes de machine learning.

GATE

GATE est un frameworkde TAL qui offre de multiples fonctionnalitรฉs pour traiter du texte et en extraire de l’information ร  travers son systรจme d’annotation. En effet, GATE donne l’opportunitรฉ d’annoter un texte selon des critรจres et des rรจgles que nous aurons nous-mรชme รฉtablis. Ainsi, il offre la possibilitรฉ d’รฉcrire des grammaires dont il se servira pour repรฉrer une partie quelconque du texte source qui correspondra aux rรจgles fixรฉes. Il propose aussi d’effectuer des chaรฎnes d’opรฉrations sans que nous n’ayons ร  intervenir dans le processus. Il sera possible, par exemple, de tokeniser un texte, puis de le taguer et enfin de l’annoter. Les diffรฉrentes strates d’opรฉration sont sรฉlectionnรฉes par l’utilisateur mais c’est GATE qui se chargera de les exรฉcuter consรฉcutivement. GATE utilise notamment ce qu’il appelle des gazetteers : ce sont des listes de mots auxquels il attachera une annotation particuliรจre que nous aurons dรฉclarรฉe dans un fichier contenant des mรฉtadonnรฉes sur un ou plusieurs gazetteers, voire une annotation qui se trouve au sein de l’un d’entre eux.
Une autre de ses forces et l’un des points clรฉs qui ont permis son utilisation : sa version dite embeddedet qui offre une interface รฉcrite en Java pour pouvoir utiliser GATE ร  travers nos propre applications sans devoir passer par la version usant de l’interface graphique. GATE reste nรฉanmoins un grand consommateur de ressources et son coรปt dans le traitement peut รชtre important suivant la tรขche qui lui est dรฉdiรฉe.
Notons enfin que GATE dispose d’autres fonctionnalitรฉs que nous n’avons pas exploitรฉes pour notre projet puisqu’elles n’รฉtaient simplement pas requises.

Calculs et n-grammes

Les n-grammes

L’un des points clรฉs du nuage a รฉtรฉ la volontรฉ de proposer un outil capable d’afficher, ร  la diffรฉrence de nombreux autres, des mots simples mais aussi des mots composรฉs (ou des suites de mots, syntagmes figรฉs, entitรฉs nommรฉes…). Utilisant le principe des n-grammes (un ‘grammeย ยป รฉtant ici une unitรฉ graphique dรฉlimitรฉe par un espace devant et derriรจre elle), le premier stade de dรฉveloppement a รฉtรฉ de mettre en place un systรจme de calcul automatique des diffรฉrents n-grammes d’un corpus donnรฉ. L’idรฉe sous-jacente รฉtant que les n-grammes spรฉcifiques au corpus de la requรชte seraient composรฉs notamment d’entitรฉs nommรฉes complรจtes. Nous retrouverions alors ร  l’affichage des formes telle que ยซNoam Chomskyยป en lieu et place de ยซNoamยป d’un cรดtรฉ et ยซChomskyยป de l’autre.
Pour arriver ร  ce rรฉsultat, nous avons choisi de calculer letf-idfdes n-grammes en ayant limitรฉ ร  4 le nmaximum pour un n-gramme. En effet, aprรจs diffรฉrents essais, au delร  de cette limite, le nombre de n-grammes pertinents ร  afficher chute drastiquement, il devient alors bien plus difficile et contraignant d’extraire ceux qui rรฉpondent aux critรจres de validitรฉ pour รชtre affichรฉs.
Nous commenรงons donc par calculer le nombre de documents du corpus de rรฉfรฉrence contenant un n-gramme donnรฉ et ce, pour tous les n-grammes de ce mรชme corpus. Cette premiรจre passe nous permet d’obtenir la partie idfdu tf-idf, c’est ร  dire que nous avons les chiffres nรฉcessaires ร  son calcul (le nombre de documents total et le nombre de documents contenant pour chaque n-grammes le-dit n-gramme).
Dans un second temps, nous calculons la frรฉquence d’apparition de chaque n-gramme dans le corpus de la requรชte (nous permettant d’รฉtablir la somme des frรฉquences de l’ensemble des n-grammes). Nous avons distinguรฉ ร  ce moment diffรฉrents types de n-grammes, types correspondant au ndu n-gramme. En d’autres termes, le tf-idfdes n-grammes dont le nest รฉgale ร  1 est calculรฉ distinctement du tf-idfdes n-grammes dont lenest รฉgale ร  2 et ainsi de suite. Ainsi, la somme des frรฉquences des 1-grammes (nous utiliserons cette forme de notation par commoditรฉ) est diffรฉrente de celle des 2-grammes, des 3-grammes et des 4-grammes. Avec cette passe, nous avons maintenant ร  disposition la partie tf du tf-idf, partie qui nรฉcessite pour chaque n-gramme sa frรฉquence d’apparition dans le texte (ici le corpus de la requรชte) et la somme des frรฉquences de tous les n-grammes (du mรชme type donc) de ce mรชme texte.

Intelligence linguistique et attributions des scores

Les entitรฉs nommรฉes

Maintenant que nous possรฉdons un corpus annotรฉ, nous pouvons en extraire les annotations pour travailler directement dessus. Dans l’ensemble, tous nos n-grammes annotรฉs sont des candidats idรฉaux pour รชtre affichรฉs. Nรฉanmoins, nous allons tout de mรชme ajouter quelques restrictions ainsi que traiter certains d’entre eux de maniรจre particuliรจre.
Nous allons calculer un set de candidats sans tenir compte d’une quelconque donnรฉe temporelle en premier lieu, et de ce set nous calculerons le score des candidats jour par jour selon les dates des billets de notre corpus dans un second temps.
Pour commencer, l’un des principaux objectifs que nous voulions atteindre par l’utilisation de n-grammes รฉtait d’arriver ร  extraire les entitรฉs nommรฉes d’un corpus. Si notre systรจme ne permet pas d’identifier de faรงon prรฉcise si tel ou tel n-gramme est une entitรฉ nommรฉe, il n’en reste pas moins qu’elles sont prรฉsentes dans leur forme entiรจre (la majeure partie du temps) puisqu’elles sont, pour la plupart, des n-grammes spรฉcifiques de notre corpus. Nous allons donc essayer de les favoriser par un filtrage simple fondรฉ sur une liste d’autoritรฉ construite ร  partir des donnรฉes de Wikipรฉdia.
Wikipรฉdia propose rรฉguliรจrement en tรฉlรฉchargement un dumpde ses bases de donnรฉes. A partir de celui-ci, nous avons extrait de la faรงon la plus prรฉcise possible les donnรฉes relatives aux entitรฉs nommรฉes. Pour procรฉder ร  cette extraction, nous avons utilisรฉ le contenu des articles, notamment celui des infobox. De ces derniรจres, nous avons รฉtabli une liste de titres. Titres qui sont attribuรฉs aux infobox qui (aprรจs observation manuelle) correspondaient ร  une entitรฉ nommรฉe dont nous souhaitions rรฉcupรฉrer les informations.
Nous avons concentrรฉ notre choix sur les personnes (fictives ou non), les lieux, les noms d’entreprises et de logiciels (ou produits). En automatisant la tรขche, nous avons construit une liste ร  partir des titres d’articles et du contenu des infoboxen veillant ร  conserver les relations entre les donnรฉes lorsqu’elles avaient attrait ร  la mรชme entitรฉ. En complรฉment de cette premiรจre liste, par le croisement des informations que Wikipรฉdia met ร  disposition, nous avons pu ajouter ร  chaque entitรฉ nommรฉe ses diffรฉrentes formes de rรฉalisations (formes qui correspondent aux redirections vers l’article source de l’entitรฉ nommรฉe).

Limiter la redondance ร  travers la fusion

Pour ce qui est de nos n-grammes en gรฉnรฉral, nous appliquons aussi une fusion basรฉe sur la distance de Levenshtein. Elle est calculรฉe pour chaque n-gramme d’un type par rapport aux n-grammes du mรชme type. Si la distance est รฉgale ou infรฉrieur ร  un seuil choisi (de valeur Z car paramรฉtrable), le n-gramme dont la frรฉquence d’apparition est la plus faible se verra fusionnรฉ au profit de celui dont elle est la plus forte. La mรชme opรฉration est effectuรฉe pour chaque n-grammes de type deux_gramme au profit des n-grammes de type trois_gramme mais sans tenir compte de la frรฉquence d’apparition. Cela permet de favoriser les n-grammes longs pour augmenter leur visibilitรฉ. La fusion est automatique si la distance est infรฉrieur ร  X (paramรฉtrable). Ainsi, nous faisons de mรชme pour les ngrammes de type quatre_gramme qui bรฉnรฉficient d’une fusion avec ceux de type trois_gramme.
Nous avons aussi mis en place une deuxiรจme opรฉration de fusion par l’intermรฉdiaire d’une comparaison entre un n-gramme de type trois_gramme et un autre de type quatre_gramme.
Si le premier est inclus dans le second, en se basant sur leur frรฉquence d’apparition, nous conservons celui des deux qui possรจde la plus haute, avec en cas d’รฉgalitรฉ un choix pour le quatre_gramme, toujours dans l’optique de favoriser le plus long.
Nous rรฉcupรฉrons par la suite la forme accentuรฉe la plus frรฉquente pour chaque n-gramme de notre liste. Enfin, nous passons les n-grammes restant ร  travers un filtre : un n-gramme doit avoir une frรฉquence d’apparition qui reprรฉsente au moins X% de la somme des frรฉquences d’apparitions des n-grammes du mรชme type (avec X paramรฉtrable), et qui doit aussi reprรฉsenter Y% de la moyenne des sommes des frรฉquences de l’ensemble des ngrammes (tout type confondu, avec Y paramรฉtrable).
Nous possรฉdons maintenant un set de candidats qu’il faut replacer dans un contexte temporel. Nous avons tout de mรชme la possibilitรฉ ร  ce stade de crรฉer un nuage sans cette notion de temporalitรฉ. La deuxiรจme boucle de traitement consiste ร  calculer, pour chaque jour dont nous avons un billet dans notre corpus, parmi l’ensemble des n-grammes issus de l’extraction des annotations, le score de ces derniers s’ils apparaissent dans le set de candidats. Les opรฉrations sont semblables ร  celles effectuรฉes prรฉcรฉdemment tout en tenant compte cette fois-ci de la prรฉsence dans le set des candidats du n-gramme en phase de traitement. Ainsi, nous avons par date les n-grammes que nous afficherons et nous pourrons suivre leur prรฉsence au cours de la pรฉriode ou l’importance du nombre de leurs occurrences.

Prise de recul, analyse et commentaires

Difficultรฉs du projet

Perl

Au cours de la rรฉalisation du projet, les difficultรฉs et les problรจmes auront fait leur apparition. La premiรจre source de ces contraintes a รฉtรฉ le code en lui-mรชme. Il a nรฉcessitรฉ ร  plusieurs reprises, au fur et ร  mesure de sa complexification, une rรฉรฉcriture pour le e rendre plus lisible (rรฉduire sa longueur) ou amรฉliorer ses performances (optimiser le parcours et l’organisation des structures de donnรฉes). Dans l’optique de faciliter son intรฉgration, il aura aussi รฉtรฉ totalement repensรฉ orientรฉ objet, le rendant modulable et paramรฉtrable. La programmation orientรฉe objet a nรฉcessitรฉ une phase d’apprentissage sรฉrieuse pour รชtre mise en pratique. Nรฉanmoins, ses avantages รฉtant indรฉniables pour notre projet, le temps investi n’a pas รฉtรฉ perdu et le rรฉsultat s’est avรฉrรฉ payant.

Un outil ร  dompter

Le frameworkGATE a posรฉ aussi divers problรจmes, dont certains que nous n’avons pas rรฉsolus. Dans l’ensemble, la mise en place d’un script faisant appel ร  l’interface embedded de GATE n’aura pas รฉtรฉ facile. Cela commence par le langage mรชme dans lequel est รฉcrit cette interface, Java. Pour pouvoir รฉcrire un script en Java il a d’abord fallu apprendre la syntaxe du langage et ses spรฉcificitรฉs au moyen de tutoriels ou d’enseignements de l’รฉquipe. Passรฉ cet obstacle, c’est la documentation, parfois peut bavarde (se reposant essentiellement sur les javadoc), qui aura รฉtรฉ un frein en imposant des recherches pour mettre en place un systรจme opรฉrationnel. A la suite de l’รฉcriture du script, nous avons pu constater l’utilisation importante des ressources machine de la part de GATE. Chose amplifiรฉe par une fuite mรฉmoire que nous n’avons pas pu corriger ร  l’heure actuelle. La solution que nous avons mise en place pour le moment consiste ร  dรฉcouper le traitement de GATE en plusieurs passes.
Nous avons donc รฉtรฉ confrontรฉ en majoritรฉ ร  des problรจmes techniques plutรดt que des failles thรฉoriques. Dans l’ensemble, nous avons pu passer outre en les rรฉsolvant de maniรจre propre et efficace. Il รฉtait important de trouver un compromis entre solution et temps, puisqu’une solution qui nous aurait coรปtรฉ un grand temps de dรฉveloppement n’aurait eu de solution que le nom. C’est cet รฉquilibre qui nous a momentanรฉment forcรฉ ร  dรฉlaisser le problรจme de fuite mรฉmoire. Nรฉanmoins, il sera important d’y remรฉdier dans un avenir proche, bien que cela ne nuise pas au fonctionnement du nuage de mots.

Le rapport de stage ou le pfe est un document dโ€™analyse, de synthรจse et dโ€™รฉvaluation de votre apprentissage, cโ€™est pour cela chatpfe.com propose le tรฉlรฉchargement des modรจles complet de projet de fin dโ€™รฉtude, rapport de stage, mรฉmoire, pfe, thรจse, pour connaรฎtre la mรฉthodologie ร  avoir et savoir comment construire les parties dโ€™un projet de fin dโ€™รฉtude.

Table des matiรจres
Introduction
Partie 1 : Gestation et naissance d’un nouveau projet
1 Environnement et cadre professionnel
Au sommet de la tour
Linkfluence, Linkscape
2 Le cล“ur du projet
Directions et directives
Tour d’horizon des nuages de mots
3 Le point de dรฉpart
Le tf-idf
Un premier essai rรฉalisรฉ par Linkfluence
Les fondements du nouvel outil
Partie 2 : De l’idรฉe au produit final
1 Les outils sollicitรฉs
TreeTagger
GATE
2 Calculs et n-grammes
Les n-grammes
Stoplist et accentuation
Sรฉlection
3 Grammaires et automates ร  รฉtat fini
4 Intelligence linguistique et attributions des scores
Les entitรฉs nommรฉes
Limiter la redondance ร  travers la fusion
Partie 3 : Prise de recul, analyse et commentaires
1 Difficultรฉs du projet
Perl
Un outil ร  dompter
L’encodage
2 ร‰valuation et critiques
Un constat, des avis
Le spรฉcifique
Technique, statistiques et linguistique
Licences
Une ville, un cas : Grenoble
3 Retours sur le dรฉroulement du stage
Le projet
Jour aprรจs jour
Sources
Bibliographie
Glossaire
Rรฉsumรฉ

Rapport PFE, mรฉmoire et thรจse PDFTรฉlรฉcharger le rapport complet

Tรฉlรฉcharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiรฉe. Les champs obligatoires sont indiquรฉs avec *