Analyse de la structure de phonoWriter

Analyse de la structure de phonoWriter

Mรฉthodologie de travail

Afin de respecter les prรฉrequis du cadre imposรฉ lors de notre travail de Bachelor mais รฉgalement par affinitรฉ avec le processus, nous avons dรฉveloppรฉ notre solution de maniรจre agile et surtout itรฉrative. Nous retrouvant de faรงon hebdomadaire avec le Professeur Genoud et son assistant Jรฉrรดme Treboux, nous avons mis en place une optique de travail oรน nous prรฉsenterions lors de chaque sรฉance une itรฉration supplรฉmentaire et fonctionnelle de dรฉveloppement qui serait soumise ร  leur validation. Cela nous a permis dโ€™organiser nos sรฉances de dรฉveloppement en sprints courts ne dรฉpassant pas une ร  deux semaines, et cela nous a รฉgalement donnรฉ lโ€™opportunitรฉ de mettre lโ€™accent sur des solutions qui soient rapidement opรฉrationnelles et discutables. Dans une premiรจre phase, nous avons dรฉfini la ligne globale quโ€™allait prendre le dรฉveloppement de cette thรจse. Nous avons tout dโ€™abord dรฉfini les objectifs que nous souhaitions atteindre, et notamment les trois grands epics de notre solution, ร  savoir lโ€™extraction des occurrences de n-uples dans une phrase, le web service ainsi que le processus de mise ร  jour de la base de donnรฉes. Puis dans une seconde phase, une fois ces trois solutions complรจtement implรฉmentรฉes, nous avons mis en place une mรฉthodologie de test, afin de pouvoir extraire des rรฉsultats dโ€™efficacitรฉ des diffรฉrents processus. Dans une derniรจre phase nous avons procรฉdรฉ ร  lโ€™analyse ainsi quโ€™ร  lโ€™explication des rรฉsultats obtenus, puis fourni des lignes directrices quant aux possibilitรฉs dโ€™optimisation futures. Nous avons รฉgalement exprimรฉ en parallรจle nos recommandations pour lโ€™utilisation de notre solution avec PhonoWriter.

Occurrence de 5-uples de mots dans une phrase

Dans le but de complรฉmenter la prรฉdiction basรฉe sur des couples de mots, nous avons mis en place un processus รฉquivalent au prรฉcรฉdent, ร  ceci prรจs quโ€™il extrait des 5-uples et non pas des couples de mots. Le fait dโ€™utiliser cette mรฉthode dโ€™extraction pour des n-uples plus grands que deux requiert toutefois une รฉtape de traitement en plus. En effet, suite ร  lโ€™adaptation du workflow prรฉcรฉdent, nous obtenons cinq colonnes contenant chacune un mot, lโ€™objectif รฉtant de prรฉdire la cinquiรจme en nous basant sur les quatre premiรจres. Le problรจme qui survient est que les algorithmes de prรฉdictions ne tiennent pas compte de lโ€™ordre dans lequel les colonnes apparaissent pour รฉtablir leur prรฉdiction. Cependant, il est clair quโ€™en ce qui nous concerne lโ€™ordre des colonnes, et par consรฉquent des mots, est crucial pour effectuer une prรฉdiction qui soit la plus prรฉcise possible.

Pour pallier ร  cette รฉventualitรฉ, nous avons pris la dรฉcision dโ€™effectuer une concatรฉnation de quatre premiรจres colonnes, afin que celles si soient traitรฉes comme une seule colonne dโ€™input dans le but de prรฉdire la cinquiรจme. Nous avons cependant constatรฉ que la viabilitรฉ de cette prรฉdiction dรฉpend grandement de la taille de la base de donnรฉes, et nรฉcessite donc une grande quantitรฉ de sources. Il est en effet simple de concevoir que dans une collection de textes donnรฉs, lโ€™occurrence exacte dโ€™une sรฉquence de cinq mots est rare, et que la base de donnรฉes sera donc peuplรฉe par un grand nombre de 5-uples prรฉsents une seule fois. Dans le cadre de notre travail, une base de donnรฉes assez consรฉquente pour fournir des prรฉdictions amรฉliorรฉes รฉtait trop difficile ร  atteindre, et ce tout en respectant les contraintes imposรฉes par la structure et le format de la base de donnรฉes PhonoWriter. Nous nous sommes donc orientรฉs vers les occurrences de 3 et 4-uples dans lโ€™objectif dโ€™avoir de meilleurs rรฉsultats.

Maximisation

Lorsquโ€™une application contacte notre web service afin dโ€™obtenir une prรฉdiction, elle est en mesure de spรฉcifier la quantitรฉ de prรฉdictions quโ€™elle souhaite obtenir. De par ce fait, il est possible dโ€™obtenir une efficacitรฉ maximum lors que le nombre de prรฉdictions demandรฉes est รฉgal au nombre dโ€™entrรฉes dans la base de donnรฉes pour un n-uple donnรฉ. En effet, il est facile de concevoir que si le n-uple correct est dรฉjร  connu de la base de donnรฉes, et que celle-ci retourne tous les n-uples connus pour une expression donnรฉe, celle-ci sera forcรฉment dans la liste des prรฉdictions, et donc, considรฉrรฉe comme correcte. Inversรฉment, si le service ne fournit quโ€™un seul n-uple ร  chaque requรชte, les prรฉdictions correctes ne seront que celles oรน le couple le plus frรฉquent (possรฉdant la pondรฉration la plus haute) รฉtait le bon.

En rรฉalitรฉ : Malheureusement, il nโ€™est pas admissible pour un logiciel proposant des suggestions de mots dโ€™en proposer un trop grand nombre. Il nโ€™est en effet pas humainement possible pour un utilisateur รฉcrivant du texte dโ€™analyser 30 n-uples possibles proposรฉs par le service afin de trouver celui qui lโ€™intรฉresse, et ce dans un temps raisonnable, ร  chaque fois quโ€™il รฉcrit un nouveau mot. Nous avons donc dรป dรฉterminer pour tester lโ€™efficacitรฉ du service, quels รฉtaient les nombres de suggestions adรฉquates ร  fournir ร  lโ€™utilisateur. Nโ€™ayant pu trouver aucune รฉtude ayant รฉtรฉ effectuรฉe directement ร  ce sujet, nous nous sommes rabattus sur une analyse similaire concernant le nombre dโ€™auto-complรฉtions proposรฉes par diffรฉrents moteurs de recherches, dont nous avons pu extraire les rรฉsultats suivants (rpauldesign, 2014) : Le contexte de ces recherches รฉtant lรฉgรจrement diffรฉrent, car celles-ci ne sont en gรฉnรฉral pas effectuรฉes aussi rapidement que lors de la rรฉdaction dโ€™un texte par exemple, nous avons choisi de limiter nos suggestions dans la fourchette infรฉrieure, ร  savoir entre deux et cinq propositions.

Meilleur paramรจtre pondรฉrationnel

Pour pouvoir dรฉterminer le meilleur paramรจtre pondรฉrationnel, nous avons utilisรฉ comme indicateur la moyenne du gain dโ€™efficacitรฉ pour chacun des 20 paramรจtres prรฉdictionnels correspondants au paramรจtre pondรฉrationnel รฉvaluรฉ. Nous avons extrait les observations suivantes : Conformรฉment ร  notre premiรจre assomption, nous constatons en effet quโ€™aucun paramรจtre pondรฉrationnel ne constitue de maniรจre globale une baisse dโ€™efficacitรฉ de la prรฉdiction, bien que cela ne soit pas vrai pour certains paramรจtres prรฉdictionnels que nous dรฉcrirons ci-aprรจs. En second lieu, nous observons que notre prรฉdiction de la pondรฉration comme รฉtant la plus efficace est erronรฉe. Ce sont en effet les pondรฉrations bouleversant le moins lโ€™รฉquilibre de la base de donnรฉes (normale et X5) qui engendrent les meilleurs rรฉsultats, bien que lโ€™extrรชme opposรฉ avec une pondรฉration extrรชmement รฉlevรฉe (999999) voit une augmentation sensible par rapport aux valeurs mรฉdianes X20 et X50.

Ces rรฉsultats peuvent รชtre expliquรฉs par le fait quโ€™une augmentation normale de la pondรฉration conserve le ratio de pondรฉration entre les diffรฉrents types de mots : de maniรจre gรฉnรฉrale, les conjonctions et autres dรฉterminants qui possรจdent intrinsรจquement des valeurs รฉlevรฉes car ils apparaissent souvent gardent toujours une pondรฉration plus importante que des simples mots, mรชme si ceux-ci font parties dโ€™un vocabulaire typique oรน ils apparaissent rรฉguliรจrement. Inversรฉment, attribuer une pondรฉration anormalement รฉlevรฉe X20-X50-999999 dรฉtruit cet รฉquilibre et des mots rares peuvent dรฉpasser en pondรฉration des sรฉquences extrรชmement courantes qui ne se seraient toutefois pas trouvรฉes dans le texte dโ€™apprentissage. Nous spรฉcifions que ces observations sont รฉtroitement liรฉes ร  la taille de la base de donnรฉes et surtout au nombre de textes utilisรฉs pour la remplir. Pour illustrer ce cas de figure, prenons par exemples les couples ยซ chien aboie ยป, ยซ chien dโ€™aveugle ยป, ยซ chien dโ€™exercice ยป ayant des pondรฉrations respectives de 100, 5 et 2. Le couple ยซ chien aboie ยป est clairement celui qui apparait le plus dans notre base de donnรฉes et a en consรฉquence la pondรฉration la plus haute.

Le rapport de stage ou le pfe est un document dโ€™analyse, de synthรจse et dโ€™รฉvaluation de votre apprentissage, cโ€™est pour cela chatpfe.com propose le tรฉlรฉchargement des modรจles complet de projet de fin dโ€™รฉtude, rapport de stage, mรฉmoire, pfe, thรจse, pour connaรฎtre la mรฉthodologie ร  avoir et savoir comment construire les parties dโ€™un projet de fin dโ€™รฉtude.

Table des matiรจres

Rรฉsumรฉ Managรฉrial
Avant-Propos
Remerciements
Table des matiรจres
Table des illustrations
Glossaire et Abrรฉviations
1 Introduction
1.1 Contexte
1.2 Objectifs
2 Etat de lโ€™art – Applications
2.1 PhonoWriter
2.1.1 Prรฉdiction Classique
2.1.2 Prรฉdiction Phonรฉtique
2.1.3 Prรฉdiction Floue (Fuzzy)
2.1.4 Validation par lโ€™utilisateur
2.1.5 Fonctionnement des Prรฉdictions
2.1.6 Paramรฉtrisation
2.2 PHRASE EXPRESS
2.3 Skippy.
3 Analyse de la structure de phonoWriter
3.1 Bases de donnรฉes
3.1.1 Structure
3.1.2 Expansion
4 Mรฉthodologie de travail
5 Extraction de lโ€™occurrence de mots
5.1 Choix des sources
5.1.1 Langage
5.1.2 Rรฉflexion sur les accents
5.1.3 Rรฉflexion sur les apostrophes
5.1.4 Type de documents
5.1.5 Orthographe
5.1.6 Encoding
5.2 Occurrence de n-uples dans une phrase
5.2.1 Occurrence de couples dans une phrase
5.2.2 Occurrence de 5-uples de mots dans une phrase
5.2.3 Occurrence des 3-uples de mots dans une phrase
5.2.4 Occurrences de 4-uples de mots dans une phrase
5.3 Implรฉmentation
5.3.1 Emplacement
5.3.2 Prรฉconfiguration
5.3.3 Structure
5.3.4 Particularitรฉs โ€“ Elรฉments intรฉressants
6 Web Service
6.1 Objectif
6.2 Implรฉmentation
6.2.1 Emplacements
6.2.2 Prรฉconfiguration
6.3 Mรฉthodes
6.3.1 getCouplesForWord(String mot, int nombreDeCouples)
7 WPS Tester
7.1 Objectif
7.2 Implรฉmentation
7.2.1 Emplacement
7.2.2 Prรฉconfiguration
8 Mise ร  jour de la base de donnรฉes (ETL)
8.1 Objectif
8.2 Implรฉmentation
8.2.1 Emplacement
8.2.2 Prรฉconfiguration
8.2.3 Structure
8.2.4 Particularitรฉs โ€“ Elรฉments intรฉressants
9 Processus de test qualitatif du service
9.1 Objectif
9.2 Implรฉmentation
9.2.1 Emplacement
9.2.2 Prรฉconfiguration
9.2.3 Paramรจtres prรฉdictionnels
9.2.4 Structure
10 Analyse des rรฉsultats
10.1 Workflow
10.1.1 Emplacement
10.1.2 Prรฉconfiguration
10.1.3 Structure
10.2 Estimation des rรฉsultats
10.2.1 Meilleur paramรจtre pondรฉrationnel
10.2.2 Meilleur nombre de prรฉdictions
10.2.3 Meilleur nombre de derniers mots considรฉrรฉs
10.3 Rรฉsultats obtenus
10.3.1 Meilleur paramรจtre pondรฉrationnel
10.3.2 Meilleur nombre de prรฉdictions
10.3.3 Meilleur nombre de derniers mots considรฉrรฉs
10.3.4 Meilleurs paramรจtres globaux
11 Conclusion
11.1 Rรฉsultat Final et Bilan
11.2 Recommandations
11.3 Future Works ( Evolution et amรฉliorations envisageables)
11.3.1 Stemming
11.3.2 Part of speech
11.3.3 Correction orthographique et prรฉdiction de mot
11.3.4 Restructuration Phonรฉtique
12 Rรฉfรฉrences
Annexe I Contenu du support physique
Annexe II Journal de travail
Dรฉclaration sur lโ€™honneur

Rapport PFE, mรฉmoire et thรจse PDFTรฉlรฉcharger le rapport complet

Tรฉlรฉcharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiรฉe. Les champs obligatoires sont indiquรฉs avec *