Analyse de la structure de phonoWriter
Mรฉthodologie de travail
Afin de respecter les prรฉrequis du cadre imposรฉ lors de notre travail de Bachelor mais รฉgalement par affinitรฉ avec le processus, nous avons dรฉveloppรฉ notre solution de maniรจre agile et surtout itรฉrative. Nous retrouvant de faรงon hebdomadaire avec le Professeur Genoud et son assistant Jรฉrรดme Treboux, nous avons mis en place une optique de travail oรน nous prรฉsenterions lors de chaque sรฉance une itรฉration supplรฉmentaire et fonctionnelle de dรฉveloppement qui serait soumise ร leur validation. Cela nous a permis dโorganiser nos sรฉances de dรฉveloppement en sprints courts ne dรฉpassant pas une ร deux semaines, et cela nous a รฉgalement donnรฉ lโopportunitรฉ de mettre lโaccent sur des solutions qui soient rapidement opรฉrationnelles et discutables. Dans une premiรจre phase, nous avons dรฉfini la ligne globale quโallait prendre le dรฉveloppement de cette thรจse. Nous avons tout dโabord dรฉfini les objectifs que nous souhaitions atteindre, et notamment les trois grands epics de notre solution, ร savoir lโextraction des occurrences de n-uples dans une phrase, le web service ainsi que le processus de mise ร jour de la base de donnรฉes. Puis dans une seconde phase, une fois ces trois solutions complรจtement implรฉmentรฉes, nous avons mis en place une mรฉthodologie de test, afin de pouvoir extraire des rรฉsultats dโefficacitรฉ des diffรฉrents processus. Dans une derniรจre phase nous avons procรฉdรฉ ร lโanalyse ainsi quโร lโexplication des rรฉsultats obtenus, puis fourni des lignes directrices quant aux possibilitรฉs dโoptimisation futures. Nous avons รฉgalement exprimรฉ en parallรจle nos recommandations pour lโutilisation de notre solution avec PhonoWriter.
Occurrence de 5-uples de mots dans une phrase
Dans le but de complรฉmenter la prรฉdiction basรฉe sur des couples de mots, nous avons mis en place un processus รฉquivalent au prรฉcรฉdent, ร ceci prรจs quโil extrait des 5-uples et non pas des couples de mots. Le fait dโutiliser cette mรฉthode dโextraction pour des n-uples plus grands que deux requiert toutefois une รฉtape de traitement en plus. En effet, suite ร lโadaptation du workflow prรฉcรฉdent, nous obtenons cinq colonnes contenant chacune un mot, lโobjectif รฉtant de prรฉdire la cinquiรจme en nous basant sur les quatre premiรจres. Le problรจme qui survient est que les algorithmes de prรฉdictions ne tiennent pas compte de lโordre dans lequel les colonnes apparaissent pour รฉtablir leur prรฉdiction. Cependant, il est clair quโen ce qui nous concerne lโordre des colonnes, et par consรฉquent des mots, est crucial pour effectuer une prรฉdiction qui soit la plus prรฉcise possible.
Pour pallier ร cette รฉventualitรฉ, nous avons pris la dรฉcision dโeffectuer une concatรฉnation de quatre premiรจres colonnes, afin que celles si soient traitรฉes comme une seule colonne dโinput dans le but de prรฉdire la cinquiรจme. Nous avons cependant constatรฉ que la viabilitรฉ de cette prรฉdiction dรฉpend grandement de la taille de la base de donnรฉes, et nรฉcessite donc une grande quantitรฉ de sources. Il est en effet simple de concevoir que dans une collection de textes donnรฉs, lโoccurrence exacte dโune sรฉquence de cinq mots est rare, et que la base de donnรฉes sera donc peuplรฉe par un grand nombre de 5-uples prรฉsents une seule fois. Dans le cadre de notre travail, une base de donnรฉes assez consรฉquente pour fournir des prรฉdictions amรฉliorรฉes รฉtait trop difficile ร atteindre, et ce tout en respectant les contraintes imposรฉes par la structure et le format de la base de donnรฉes PhonoWriter. Nous nous sommes donc orientรฉs vers les occurrences de 3 et 4-uples dans lโobjectif dโavoir de meilleurs rรฉsultats.
Maximisation
Lorsquโune application contacte notre web service afin dโobtenir une prรฉdiction, elle est en mesure de spรฉcifier la quantitรฉ de prรฉdictions quโelle souhaite obtenir. De par ce fait, il est possible dโobtenir une efficacitรฉ maximum lors que le nombre de prรฉdictions demandรฉes est รฉgal au nombre dโentrรฉes dans la base de donnรฉes pour un n-uple donnรฉ. En effet, il est facile de concevoir que si le n-uple correct est dรฉjร connu de la base de donnรฉes, et que celle-ci retourne tous les n-uples connus pour une expression donnรฉe, celle-ci sera forcรฉment dans la liste des prรฉdictions, et donc, considรฉrรฉe comme correcte. Inversรฉment, si le service ne fournit quโun seul n-uple ร chaque requรชte, les prรฉdictions correctes ne seront que celles oรน le couple le plus frรฉquent (possรฉdant la pondรฉration la plus haute) รฉtait le bon.
En rรฉalitรฉ : Malheureusement, il nโest pas admissible pour un logiciel proposant des suggestions de mots dโen proposer un trop grand nombre. Il nโest en effet pas humainement possible pour un utilisateur รฉcrivant du texte dโanalyser 30 n-uples possibles proposรฉs par le service afin de trouver celui qui lโintรฉresse, et ce dans un temps raisonnable, ร chaque fois quโil รฉcrit un nouveau mot. Nous avons donc dรป dรฉterminer pour tester lโefficacitรฉ du service, quels รฉtaient les nombres de suggestions adรฉquates ร fournir ร lโutilisateur. Nโayant pu trouver aucune รฉtude ayant รฉtรฉ effectuรฉe directement ร ce sujet, nous nous sommes rabattus sur une analyse similaire concernant le nombre dโauto-complรฉtions proposรฉes par diffรฉrents moteurs de recherches, dont nous avons pu extraire les rรฉsultats suivants (rpauldesign, 2014) : Le contexte de ces recherches รฉtant lรฉgรจrement diffรฉrent, car celles-ci ne sont en gรฉnรฉral pas effectuรฉes aussi rapidement que lors de la rรฉdaction dโun texte par exemple, nous avons choisi de limiter nos suggestions dans la fourchette infรฉrieure, ร savoir entre deux et cinq propositions.
Meilleur paramรจtre pondรฉrationnel
Pour pouvoir dรฉterminer le meilleur paramรจtre pondรฉrationnel, nous avons utilisรฉ comme indicateur la moyenne du gain dโefficacitรฉ pour chacun des 20 paramรจtres prรฉdictionnels correspondants au paramรจtre pondรฉrationnel รฉvaluรฉ. Nous avons extrait les observations suivantes : Conformรฉment ร notre premiรจre assomption, nous constatons en effet quโaucun paramรจtre pondรฉrationnel ne constitue de maniรจre globale une baisse dโefficacitรฉ de la prรฉdiction, bien que cela ne soit pas vrai pour certains paramรจtres prรฉdictionnels que nous dรฉcrirons ci-aprรจs. En second lieu, nous observons que notre prรฉdiction de la pondรฉration comme รฉtant la plus efficace est erronรฉe. Ce sont en effet les pondรฉrations bouleversant le moins lโรฉquilibre de la base de donnรฉes (normale et X5) qui engendrent les meilleurs rรฉsultats, bien que lโextrรชme opposรฉ avec une pondรฉration extrรชmement รฉlevรฉe (999999) voit une augmentation sensible par rapport aux valeurs mรฉdianes X20 et X50.
Ces rรฉsultats peuvent รชtre expliquรฉs par le fait quโune augmentation normale de la pondรฉration conserve le ratio de pondรฉration entre les diffรฉrents types de mots : de maniรจre gรฉnรฉrale, les conjonctions et autres dรฉterminants qui possรจdent intrinsรจquement des valeurs รฉlevรฉes car ils apparaissent souvent gardent toujours une pondรฉration plus importante que des simples mots, mรชme si ceux-ci font parties dโun vocabulaire typique oรน ils apparaissent rรฉguliรจrement. Inversรฉment, attribuer une pondรฉration anormalement รฉlevรฉe X20-X50-999999 dรฉtruit cet รฉquilibre et des mots rares peuvent dรฉpasser en pondรฉration des sรฉquences extrรชmement courantes qui ne se seraient toutefois pas trouvรฉes dans le texte dโapprentissage. Nous spรฉcifions que ces observations sont รฉtroitement liรฉes ร la taille de la base de donnรฉes et surtout au nombre de textes utilisรฉs pour la remplir. Pour illustrer ce cas de figure, prenons par exemples les couples ยซ chien aboie ยป, ยซ chien dโaveugle ยป, ยซ chien dโexercice ยป ayant des pondรฉrations respectives de 100, 5 et 2. Le couple ยซ chien aboie ยป est clairement celui qui apparait le plus dans notre base de donnรฉes et a en consรฉquence la pondรฉration la plus haute.
|
Table des matiรจres
Rรฉsumรฉ Managรฉrial
Avant-Propos
Remerciements
Table des matiรจres
Table des illustrations
Glossaire et Abrรฉviations
1 Introduction
1.1 Contexte
1.2 Objectifs
2 Etat de lโart – Applications
2.1 PhonoWriter
2.1.1 Prรฉdiction Classique
2.1.2 Prรฉdiction Phonรฉtique
2.1.3 Prรฉdiction Floue (Fuzzy)
2.1.4 Validation par lโutilisateur
2.1.5 Fonctionnement des Prรฉdictions
2.1.6 Paramรฉtrisation
2.2 PHRASE EXPRESS
2.3 Skippy.
3 Analyse de la structure de phonoWriter
3.1 Bases de donnรฉes
3.1.1 Structure
3.1.2 Expansion
4 Mรฉthodologie de travail
5 Extraction de lโoccurrence de mots
5.1 Choix des sources
5.1.1 Langage
5.1.2 Rรฉflexion sur les accents
5.1.3 Rรฉflexion sur les apostrophes
5.1.4 Type de documents
5.1.5 Orthographe
5.1.6 Encoding
5.2 Occurrence de n-uples dans une phrase
5.2.1 Occurrence de couples dans une phrase
5.2.2 Occurrence de 5-uples de mots dans une phrase
5.2.3 Occurrence des 3-uples de mots dans une phrase
5.2.4 Occurrences de 4-uples de mots dans une phrase
5.3 Implรฉmentation
5.3.1 Emplacement
5.3.2 Prรฉconfiguration
5.3.3 Structure
5.3.4 Particularitรฉs โ Elรฉments intรฉressants
6 Web Service
6.1 Objectif
6.2 Implรฉmentation
6.2.1 Emplacements
6.2.2 Prรฉconfiguration
6.3 Mรฉthodes
6.3.1 getCouplesForWord(String mot, int nombreDeCouples)
7 WPS Tester
7.1 Objectif
7.2 Implรฉmentation
7.2.1 Emplacement
7.2.2 Prรฉconfiguration
8 Mise ร jour de la base de donnรฉes (ETL)
8.1 Objectif
8.2 Implรฉmentation
8.2.1 Emplacement
8.2.2 Prรฉconfiguration
8.2.3 Structure
8.2.4 Particularitรฉs โ Elรฉments intรฉressants
9 Processus de test qualitatif du service
9.1 Objectif
9.2 Implรฉmentation
9.2.1 Emplacement
9.2.2 Prรฉconfiguration
9.2.3 Paramรจtres prรฉdictionnels
9.2.4 Structure
10 Analyse des rรฉsultats
10.1 Workflow
10.1.1 Emplacement
10.1.2 Prรฉconfiguration
10.1.3 Structure
10.2 Estimation des rรฉsultats
10.2.1 Meilleur paramรจtre pondรฉrationnel
10.2.2 Meilleur nombre de prรฉdictions
10.2.3 Meilleur nombre de derniers mots considรฉrรฉs
10.3 Rรฉsultats obtenus
10.3.1 Meilleur paramรจtre pondรฉrationnel
10.3.2 Meilleur nombre de prรฉdictions
10.3.3 Meilleur nombre de derniers mots considรฉrรฉs
10.3.4 Meilleurs paramรจtres globaux
11 Conclusion
11.1 Rรฉsultat Final et Bilan
11.2 Recommandations
11.3 Future Works ( Evolution et amรฉliorations envisageables)
11.3.1 Stemming
11.3.2 Part of speech
11.3.3 Correction orthographique et prรฉdiction de mot
11.3.4 Restructuration Phonรฉtique
12 Rรฉfรฉrences
Annexe I Contenu du support physique
Annexe II Journal de travail
Dรฉclaration sur lโhonneur
Tรฉlรฉcharger le rapport complet