Des ressources aux traitements linguistiques

Depuis les débuts de l‘intelligence artificielle, le rêve de faire parler les machines n‘a jamais été très loin. Il ne s‘agit pas simplement de parler, mais de maîtriser toute la communication, au point de confondre homme et machine. Face à la complexité de la langue, les enjeux sont devenus beaucoup plus réalistes. Des techniques de traitement automatique des langues (TAL) existent aujourd‘hui un grand nombre d‘applications : fouille de données, recherche d‘information (RI), correction orthographique, aide à la traduction, gestion terminologique, etc. Selon les méthodes mises en œuvre, les techniques de TAL reposent plus ou moins sur des ressources linguistiques, qu‘on peut voir comme des sources d‘information primaires, nécessaires au bon fonctionnement du système. En effet, pour savoir décoder le texte d‘un document et le transformer en informations, voire en connaissances, il faut préalablement disposer de suffisamment d‘informations linguistiques. Le nombre d‘informations ainsi nécessaires dépend des traitements et des méthodes mis en œuvre. Sans pour autant procéder à des traitements très évolués, le nombre d‘informations peut rapidement devenir impressionnant, et d‘autant plus s‘il y a utilisation de lexiques. Les lexiques morphosyntaxiques, par exemple, référencent les mots de la langue et leur attachent des informations grammaticales comme la catégorie grammaticale, le genre, le nombre, etc. Des lexiques de couverture générale de la langue commune peuvent avoir plusieurs centaines de milliers d‘entrées. Selon les caractéristiques de la langue, ce chiffre varie énormément, d‘autant qu‘un certain nombre d‘informations peuvent être codées sous forme de règles lexicales. Les traitements qui dépassent le niveau lexical peuvent également reposer sur des ressources, souvent sous forme de grammaires.

Les ressources linguistiques sont spécifiques à la langue et diffèrent donc d‘une langue à l‘autre. Leur élaboration demande un investissement qui peut être considérable, et augmente linéairement avec le nombre de langues. Plus les traitements sont évolués, plus les ressources risquent d‘être nombreuses et complexes. Le nombre élevé d‘informations contenues dans les ressources complique également la mise à jour. Ces problèmes de gestion demandent des solutions pour faciliter le codage et garantir la cohérence entre les différentes ressources linguistiques d‘une même langue. Les outils que nous avons mis en place constituent un environnement de gestion qui répond à la problématique de gestion d‘une grande masse d‘informations linguistiques. Dans notre cas, les traitements qui exploitent ces informations augmentent les performances d‘un moteur de recherche industriel. Ils procèdent à une analyse textuelle avancée, et disposent de ressources linguistiques pour 19 langues. Le module d‘analyse textuelle qui est au centre du moteur de recherche de Sinequa est une plate-forme dont les traitements ont été mis en place progressivement. Chaque traitement ayant ses propres besoins en informations linguistiques, son ajout dans la chaîne entraîne des modifications dans les ressources linguistiques. Les ressources linguistiques ont ainsi été constituées et enrichies au fur et à mesure que les besoins d‘analyse sont devenus plus importants. Les premiers lexiques de Sinequa ont été mis en place il y a plus de 20 ans, et le module d‘analyse n‘a cessé d‘évoluer depuis, suivant l‘innovation du produit. De nombreuses informations se sont ajoutées depuis, et des ressources supplémentaires, avec parfois des informations redondantes, ont vu le jour.

Pour la gestion des ressources, une vue d‘ensemble est indispensable. Une compréhension profonde du fonctionnement du système est nécessaire pour garantir la cohésion entre les traitements, les ressources et les outils de gestion. Elle s‘obtient par la formalisation de ce que nous appelons l‘architecture linguistique du système. Cette description formelle des entrées et des sorties des traitements, des informations prises dans les ressources influant sur les traitements et des connaissances produites permet d‘obtenir la vision globale du système. Cette formalisation permet de répondre à la question à savoir quels traitements sont effectués à quel moment avec quelles informations provenant de quelles ressources.

Au-delà du développement d‘outils de gestion, la compréhension de l‘architecture linguistique permet en outre d‘imaginer des traitements supplémentaires ou de mieux situer les problèmes quand ils se présentent. Le système sur lequel nous avons travaillé a évolué organiquement, avec l‘architecte du système en gardien de la cohésion entre ressources et traitements. Néanmoins, les plans de l‘architecture n‘ayant jamais été explicités, il a toujours existé un écart entre la compréhension des linguistes, fournisseurs de ressources, et celle des informaticiens, architectes des traitements. Il est vrai que leurs visions sur les ressources sont profondément différentes. Les linguistes voient généralement dans les ressources linguistiques une représentation partielle de la langue. L‘imperfection étant inhérente aux ressources, elles ne peuvent être stabilisées, l‘essence d‘une langue ne pouvant pas être captée en quelques fichiers. Pour les informaticiens, les ressources linguistiques sont souvent de simples sources d‘informations qui sont exploitées par les traitements qu‘ils ont conçus, la gestion de ces ressources étant secondaire, et leur modification à éviter.

Pourtant, le respect de l‘architecture linguistique est d‘autant plus important qu‘il existe des contraintes industrielles sur le système, ajoutant un historique pesant et des formats quasiment immuables. Grâce à la vision que procure la formalisation de l‘architecture linguistique il est possible de mettre en place des suites de tests de non régression précises pour chaque traitement et de garantir ainsi la qualité des traitements et du système de manière globale. L‘ensemble des outils qui constituent l‘environnement de gestion doivent faciliter toutes les étapes de gestion des ressources linguistiques. Leur but est de rendre plus simple les tâches d‘acquisition et de mise à jour, qui sont par définition complexes, à cause de la masse de données et la diversité des sources. Ce faisant, nous aspirons à augmenter la qualité des ressources par une réduction du nombre d‘erreurs et une cohérence accrue entre les informations qu‘elles contiennent.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
Chapitre 1 Des signes aux connaissances
1.1 Des signes pour communiquer
1.2 Le document et les signes
1.3 Le signe comme unité de traitement
1.4 Le contenu de la base de connaissances
1.5 Conclusion
Chapitre 2 Analyser pour retrouver : le TAL au service de la RI
2.1 La RI et le TAL, un mariage de raison
2.1.1 Des critiques et de leurs détracteurs
2.1.2 Un analyseur linguistique au cœur du moteur
2.1.3 Une interface interactive motorisée par des techniques de TAL
2.2 Une analyse linguistique avancée
2.2.1 Désambiguïsation lexicale
2.2.2 Lemmatisation
2.2.3 Gestion de l‘affixation grammaticale
2.2.4 Identification et décomposition des mots composés
2.2.5 Identification et analyse des mots dérivés
2.2.6 Normalisation orthographique
2.2.7 Prise en compte de liens sémantiques
2.2.8 Désambiguïsation sémantique
2.2.9 Détection des entités et de leurs relations
2.2.10 Analyse multilingue
2.2.11 Analyse structurelle du document
2.3 Des techniques gourmandes en ressources linguistiques
2.4 Contraintes de l‘exploitation
2.5 Conclusion
Conclusion

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *