L’extraction des contacts
Analyse contextuelle
L’ambition de ce module d’extraction, on le répète était de réussir la capture des noms et libellés d’adresses d’entités nommées, personnes morales et personnes physiques, en français prioritairement mais aussi et autant que possible, dans les autres langues du projet. L’autre demande du commanditaire étant d’identifier l es différents champs constitutifs de ces adresses, il fallait donc élaborer une typologie des champs d’informations qui y apparaissent, s’appuyant sur l e degré de précision qu’ils introduisent et sur leurs lieux potentiels d’apparition, dans un libellé idéalement complet ou non.
En France, libeller une adresse se fait selon des règles éditées par La Poste. Cellesci reprennent largement des traits organisationnels de ses services de distribution (bureaux), ceux de l’Etat et des ses divisions administratives. L’une de ses règles bien connues veut que le code postal entièrement numérique ne compte que 5 chiffres. Il doit être suivi du nom de la ville. La mention du pays intervient en dernière position dans le libellé et reste facultative.
A l’intérieur de ces règles, une certaine latitude s’exprime dans l’agencement des informations. Elle est liée aux individus ou à des pratiques ou normes antérieures non oubliées. Sur le Web, on peut s’attendre à ce que la standardisation des informations permette de laisser de côté ces infra-langages, tout au moins sur les site s à caractères officie, mais ceci est loin de constituer une garantie.
Pour rester sur le plan des standards, il existe d’autres règles pour libeller les adresses en langue française, que celles en vigueur en France : celles de la Belgique , de la Suisse et du Canada, pour ne citer que ces pays-là. Car le français, c’est aussi et largement la francophonie.
Ces derniers standards ne nécessitent, très souvent, qu’un aménagement des règles de cette norme. Le code postal suisse qui lui n’est pas exclusivement numérique, est le plus souvent précédé de 2 lettres, celles de la subdivision administrative. La suite numérique terminant le code postal, n’excède pas 4 chiffres quant à elle. Le code postal canadien tient également du code alphanumérique où une partie du code désigne, l’état auquel appartient l’adresse. Le code postal belge est comme en France, ent ièrement numérique mais composé uniquement sur quatre chiffres.
L’usage des séparateurs à l’intérieur des signatures alphanumériques, séparant code alphabétique et code chiffre, intéresse lui aussi la reconnaissance. Il n’est pas fixe dans la pratique des utilisateurs et n’est pas toujours utilisés, même quand il est prescrit .
Autre particularité liée au modèle belge celle-là, l e numéro du lieu de résidence apparait systématiquement après la mention du nom de la rue.
Pour poursuivre avec les particularités, au Canada français et anglophone, la règle de composition veut que le code postal apparaisse toujours en fin de ligne, précédé uniquement par le nom de la ville, pour ce qui est de la pratique française, du nom de la ville et du nom de l’Etat, pour la pratique anglaise. Dans tous les cas de figure, le nom du pays est la dernière information apparaissant dans l’adresse.
Toutes les dispositions évoquées jusqu’ici font qu’une gestion particulière des suites numériques et alphanumérique doit permettre la prise en charge des différents types de codes postaux. Un effort d’analyse supplémentaire doit surveiller les ordres d’apparition des informations du type « localité » et « état », permettant ainsi de rendre compte d’une large part des réalités anglophones.
La pratique des adresses belge quant à elle, parce qu’elle passe par la maîtrise de l’ambiguïté entre le numéro de pas de porte et code postal, doit définir un élément de contrainte dans la reconnaissance, ignoré longtemps dans le mode de résolution que je m’étais chois, le « retour à la ligne ».
Discussion du modèle
Le modèle où seules les entités nommées sont identifiées a ses avant ages. Il permet à priori de mettre en place une chaîne de collecte sur des noms mais aussi sur des variations, à l’intérieur des contraintes de casse. Celui du second modèle est d’identifier à coup sûr les entités nommées pour ce qu’elles sont : des pays, des villes etc, abstraction faites des ambiguïtés des noms partagés par les différentes catégories et pourvu que, là aussi, la variation ait été répertoriée : variation de forme, de notation, de dénomination particulièrement. La résolution alternative a l’avantage supplémentaire de profiter du filtre d’identification en <EN></EN>, qui a pour effet mécanique de récupérer ce qui n’aura pas été indexé à l’étape précédente.
La nécessité de comparer les entrées du texte au contenu exhaustif de 4 listes introduit quelques paramètres supplémentaires à surveiller tels l’optimisation du tri pour limiter l’accroissement peut -être significatif des temps de traitement conduisant à l’extraction.
La grammaire précédente telle qu’elle a été définie laisse largement la place à l’amélioration. Amélioration deu modèle destiné à l’extraction en anglais notemment. En effet la reconnaissance des groupes SSEN ne prend pas encore en charge la syntaxe inversée (par rapport au français de l’anglais) pour la qualification des noms p ar exemple.
Une fois lz modèle optimisé pour les deux langues, l’ordre dans lequel se fera la reconnaissance sera primordial. De lui dépendra les chances d’une reconnaissance opportune, sans que pour autant les ambigüités de reconnaissance soient complètement écartées.
En affinant et en étendant les lexiques, le modèle défini pour l’extraction de contacts pourra être étendu pour les langues déjà prises en charge et activé pour les autres langues du projet que sont l’espagnol, l’italien, par implémentation des lexiques. Ces langues, en effet, ne s’écartent pas fondamentalement de ce modèle contrairement à allemand qui avec son phénomène d’agglutination exigera une reconnaissance particulière.
Même chose pour le chinois, avec une phénoménologie différente, cependant.
L’extraction d’articles de presse
Analyse contextuelle
Les dispositions typiques d’un article ou plutôt d’une annonce d’article sont les suivantes :
Le titre ou l’accroche consiste toujours en une phrase, soit 4 à 24 mots (critères larges qui ne se vérifient pas toujours, il est vrai) mais qui sont toujours mis en valeur par un système de balises, ce qui est le plus important. Balise de lien, de paragraphe, de mise en forme, mais balise toujours !
Pour illustrer ce propos, voici quelques exemples des mises en page rencontrées:
« L’activité bancaire et Les Assurances, seuls secteurs de l’économie sn progression » est un titre possible
<p>L’activité bancaire et les Assurances, seuls secteurs de l’économie en progression
<p>L’activité bancaire et les Assurances, seuls secteurs de l’économie en progression</p>
<a>L’activité bancaire et les Assurances, seuls secteurs de l’économie en progression</a> L’activité bancaire et Les Assurances, seuls secteurs de l’économie sn progression <br/>
L’activité bancaire et Les Assurances, seuls secteurs de l’économie sn progression <br/>
Ce qui fait la stabilité de ce type de déclaration, c’est la nécessité de mettre en valeur, l’information principale -le titre- à destination de l’humain. Or cette action n’est possible en HTML qu’avec l’aide de balises et plus significativement, qu’avec les deux opérateurs diamant <,>.
Les premières lignes de l’article qui ne font pas l’objet d’une reconnaissance.
Un lien vers le contenu plein de l’article, annoncé par un attribut « href ». De la variation existe dans l’occurrence de cette structure. En effet, le lien n’existe pas systématiquement sur le titre mais alors est présent sur un texte récurrent du type « A lire », « La suite ici », « Ici », « Lire l’article », « Voir l’article » etc…
Afin de supporter les variantes dans l’enchaînement des informations propres aux infra langages, des éléments de contraintes relativement lâches ont été arrêtés pour la rétention des blocs d’informations potentiellement pertinents. Si la consécution minimale respectant les conditions évoquées plus haut n’est pas réunie, le bloc n’est plus candidat à l’extraction. Au contraire, une fois le bloc qualifié, on lui applique les motifs d’extractions.
Définition formelle : grammaires et motifs d’extraction
Dans le cas singulier de l’extraction d’articles de presse parus sur internet, un nombre limité de dictionnaires est requis, la reconnaissance se basant essentiellement sur la structure des énoncés.
L’entrée de la chaîne prototypique est le code html délivré par le crawler. Ce code, est pré-traité de sorte à simplifier les balises html présentes dans le texte, en n’en préservant que les attributs utiles, soit l’attribut href, des balises <A>. Pour le reste, le prétraitement reprend globalement les opérations de la reconnaissance précédente : simplification des « blancs » multiples en un unique espace simple, sans épargne des retours à la ligne cependant. Les sorties de l’extraction sont consignées sous forme d’XMLs.
Les limites du modèle
Les limites de ce modèle sont relativement évidentes : n’ayant rien d’autre pour spécifier un titre, que la longueur d’un énoncé (26 mots) et critère plus pertinent, la quasi impossibilité qu’un point final apparaisse à l’intérieur d’un titre (pas en fin, bien évidemment), la possibilité de reconnaitre une amorce d’article comme un titre, est importante, comme le montre les exemples de l’échantillon traité, fourni plus haut : exemples 2, 4, 6, 8 contre l’exemple 9 dont la reconnaissance est correcte, pour un contexte équivalent.
Le risque existe pareillement de reconnaitre à tort des textes courts (5-8 mots) comme des titres, alors qu’ils ne sont que des entrées de glossaire, des liens produits ou d’autres liens usuels. Le bruit qu’ils induisent dans la reconnaissance peut être aisément maîtrisé en introduisant un filtre solide sur les résultats des extractions. Ce filtre, déjà présent dans le projet tel qu’il existe aujourd’hui devra s’enrichir des entrées de glossaire récupérées dans le volet « extraction des glossaires du monde des assurances ».
Pour ce qui est des titres plus longs, il sera toujours possible d’assortir la longueur de la reconnaissance à une valeur statistique, référence établie sur l’observation des pratiques du domaine
Analyse critique de N5
N5 a été mon cadre de travail pendant 5 mois. Je me suis habituée insensiblement à ce que la société offrait de mieux comme à ses faiblesses. Identifier les problèmes dont elle souffrait fut facile parce qu’ils transpiraient des détails dérangeants du quotidien. Ils furent faciles à identifier également parce que récurrents, imprimant des stratégies de contournement systématiques.
Critiques négatives de N5
Insuffisance de la planification matérielle
Le premier problème fut l’insuffisance de moyens matériels. Le caractère artisanal de la société est manifeste à travers une série de détails convergents :
– Le siège social de l’entreprise qui correspond dans les faits à une boîte postale.
– Le lieu d’exercice de l’activité de N5 qui est le domicile de l’employeur, même si une zone dédiée y était aménagée,
– La profusion de documents accumulés dans les fonds d’archives de la société mais qui ne sont pas franchement organisés. Ceux-ci se déclinent en documents informatifs de toute sorte, lectures générales et spécialisées distribuées par grands domaines d’application, annuaires, dictionnaires, inventaires de concepts métiers fait s personnellement par le directeur de la structure, peu de documents techniques explicatifs associés à l’exercice des spécialités informatique ou linguistique.
Ce caractère artisanal n’est pas une tare ou un mal en soit, j’aurai l’occasion de l’exposer plus tard. Ce qu’il faut déplorer, c’est la faiblesse de l’équipement de l’entreprise en machines. Le minimum en matériel informatique n’étant pas assuré au sein d’une société dont la principale activité est justement le développement informatique. Ce manque fut rendu manifeste dans une série de mésaventures qui m’ont amené à travailler sur trois ordinateurs différents. Concernant le pôle d’« édition de site », ce « minimum » existe et est même assez solidement constitué. N5 dispose en effet d’un serveur récent, puissant tournant à partir du système linux, Ubuntu. Il est équipé d’un serveur Apache remplissant les emplois attendus de serveur web, php et mysql. Cette machine est également le poste de travail attitré du développeur informaticien : un poste de travail qui n’autorise jamais qu’une personne à travailler. Ma contribution souhaitée dans la société, promettait d’être informatique avec une contribution possible en traitement des chaînes linguistiques. Une machine était donc un préalable incontournable. Il fut conclu que cette machine serait ma machine d’étudiant, l’entreprise ne disposant pas d’autres ressources. Après trois semaines d’activité, mon ordinateur portable connut une panne irréparable. Une machine de remplacement, trouvée dans l’entourage familial du directeur, connu le même sort après deux mois d’affectation. Chaque changement de machine constitua une perte de temps non négligeable. Outre l’adaptation successive des environnements logiciels, il fallut chaque fois procéder au rapatriement des données locale s. Ainsi la première limitation dans l’environnement de N5 réside bien dans l’insuffisance des postes de travail qu’elle fournit.
La société ne dispose en propre que d’un seul ordinateur, ce qui est tout de même déplorable !
L’insuffisance d’équipement de la société déborde encore sur sa capacité à proposer un réseau fiable à son personnel et lui fournir une liaison Internet. Cette disposition particulière fut source de retards en cascade, dans mon propre travail, quand il fallut procéder aux phases de test notamment dans la simulation de fonctionnalités portées par d’autres phases du projet et non encore réalisées. Nier que ce réseau existe serait mensonger. Néanmoins, il reste par trop intriqué avec les ressources personnelles du foyer qui accueille la structure, ceci sur des détails aussi insignifiants que le câblage du réseau par exemple.
Le cadre matériel de N5 est clairement fait pour accueillir une ressource permanente bien que l’espace en autorise trois fois plus. Jusqu’ici la bonne volonté de chacun a permis de trouver dans son entourage les solutions de dépannage requises.
Insuffisance d’encadrement technique
Néanmoins, ce n’est pas là que réside le problème majeur de la société. Celui-ci réside dans l’absence de formalisation technique fixant les contours du projet qui a longtemps caractérisé la réalité de l’entreprise . Elle s’est maintenue d’une certaine manière après la prise de conscience du caractère impératif de la documentation technique du projet. Les documents de formalisation sont systématiquement produits après coup. C’est à-dire après la phase d’implémentation. Il est difficile dans ces conditions d’établir un découpage modulaire prévisionnel des différentes tâches à effectuer, distinctives du développement modulaire pourtant particulièrement adapté aux modalités de travail en vigueur au sein de cette entreprise.
Je ne doute pas qu’un document consignant un synopsis posant l’ambition d’AssurGroup et plus particulièrement d’AssurWeb, présentant ses prétentions fonctionnelles, en un mot, tenant lieu d’avant-projet, existe ; quoique je ne l’ai jamais vu.
Ce que je sais ne pas exister pour l’avoir cherché et demandé, c’est un document de planification, un document directeur fixant les choix (même à minima) et formalisant les sous-parties du développement à effectuer. Circonscrire un projet, définir les limites de l’intervention de chaque intervenant constitue l’un des premiers attendus de la conduite de projets. Il est ainsi possible, à tout moment de l’étape de développement, de mesurer l’éca rt au but à atteindre. Ceci à tous les niveaux de détails. Comme j’ai eu l’occasion de le dire ailleurs, d’importants travaux de développement avaient déjà été menés à N5. Celui précédant mon arrivée avait été mené pendant à peu près un an et manifestait d es manques inacceptables. Le principal étant de n’être absolument pas commenté et de n’être accompagné d’aucune documentation même informelle.
Tous ces traits manifestent l’absence de direction technique dont a souffert N5, de manière générale. Bien qu’il ait rempli de fait tous les rôles, M. Navellou ne pouvait pas porter le projet dans ses dimensions techniques, porter un jugement éclairé sur les choix de développement effectués, ou simplement suivre les réalisations réalisées pour son compte.
Cette faiblesse d’encadrement commençait déjà à se résorber durant mon stage, avec l’arrivée d’un ingénieur réseau, rompu à la direction d’équipe de développeurs et à la conduite de projets.
Un dernier point mérite d’être évoqué, en lien avec le domaine du traitement du langage, c’est l’absence d’investissement de la société dans les outils de traitement de la chaîne écrite du langage naturel ; un manque persistant, malgré des travaux visant à en les sélectionner. Ces travaux ne furent pas exploités au temps de ma présence. Cependant, on peut espérer qu’ils le seront par la suite.
N5 connaît quelques freins structurels, freins d’organisation et freins de compétences qui heureusement pour elle, sont peu à peu en train d’être levés. Cette évolution favorable vient compléter un ensemble de dispositions heureuses existant au sein de la société et qui peuvent contribuer durablement à sa solidité.
Ce qui marche à N5
N5 a pour elle des qualités d’organisation sur le plan humain que lui envierait plus d’une société. Peut-être que seule sa petite taille en est la cause mais le fait est que l’entreprise ne souffre d’aucun problème de communication. Tout le monde sait ce sur quoi travaillent les autres et aucune barrière n’est entretenue entre les ressources au travail. Les points de communication avec la direction sont fréquents et personne n’est laissée à travailler absolument seul dans son coin pendant des semaines. En même temps, toute autonomie est laissée à chacun de mener ses travaux à sa façon. Cette configuration particulière est sans doute ce qui a longtemps maintenu fait la cohérence de N5, alors même que la communication formelle lu manquait. Il est à noter malgré tout que l’accompagnement fut plus fortement marqué à l’endroit du développement informatique traditionnel.
D’une manière générale, l’atmosphère générale au travail y est agréable.
Retours d’expérience
Entre missions de stage, réussies ou non, relations entre collègues de travail, les expériences intégrées par les individus au travail ont nécessairement des échos à plusieurs niveaux : celui élémentaire des simples compétences, de la maturité intérieure et relationnelle, du regard que l’on porte sur sa future profession. Mon expérience personnelle n’a pas déroger à cette règle.
Vécus négatifs du stage
Je crois avoir connu ce que redoute tout étudiant qui entreprend une période de stage. Conscient du bagage qu’il possède, il est aussi conscient de tout ce qu’il ignore. Il craint d’être incapable de réaliser ce qu’on lui demande, faute des connaissances adéquates. Celles qui lui par exemple, permettraient de reconnaître d’emblée ce qui est techniquement possible de ce qui ne l’est pas. Le danger de ne pas savoir opérer cette distinction est de se retrouver souvent balloté entre les demandes du commanditaire et les limites réelles de la technique. Un risque qui est décuplé quand une trop grande proximité existe avec son commanditaire. Celui-ci n’est jamais vraiment conscient de la somme de travail, des ressources qu’engagent ses choix, ses velléités. Les répercussions peuvent être autrement lourdes quand il cumule, de surcroît, le rôle de chef de projet, sans la maîtrise technique que suppose ce le statut. Ce fut exactement la configuration professionnelle dans laquelle je me trouvai. A cause des raisons évoquées précédemment, j’eus donc, largement à déplorer d’avoir :
– mes tâches redéfinies quasiment toutes les semaines et demies sans que le travail réalisé soit jamais exploité ou mené à terme ;
– de voir des tâches que je jugeais nécessaires, évacuées par une précipitation à mon sens mal venue. Exemple, la préparation d’un document de navigation sur les fonctionnalités que j’entendais développer dans le cadre de mon intervention. Malheureusement parce que le travail nécessaire était sous-estimé ou son à-propos méconnu, de nombreux documents de prévision de ce type ne purent jamais être achevés ou même entamés.
Les tâches que l’on me demandait parfois d’accomplir étaient dignes d’un chef de projet expérimenté. Pour autant que l’on prenait son travail à cœur, on réalisait rapidement que bon nombre des aspects d’AssurWeb demandait à être complètement refondé. La tâche était d’autant plus herculéenne qu’aucune donnée technique n’était autrement accessible que par immersion dans le corps du code. La base de données d’AssurWeb quant à elle existait entre une version papier et une version ancienne, implémentée mais non documentée.
Toutes ses conditions n’ont pas manqué de susciter un sentiment horrifié quant à l’ampleur de la tâche supposée, la valse hésitante qui semblait définir ma contribution.
Cependant cette phase a été surmontée, grâce notamment à une redistribution conséquente des rôles au sein de la société. On peut aussi penser que tout cela relevait d’une phase d’ajustement inévitable.
|
Table des matières
INTRODUCTION
PARTIE 1 N5, UN STATUT JURIDIQUE AU SERVICE D’UN PROJET
CHAPITRE 1 – N5 ET LE PROJET ASSURGROUP
1.1. Présentation de la société N5
1.2. Les ressources humaines de N5
1.3. Histoire de N5
CHAPITRE 2 – ASSURWEB VITRINE DU PROJET ASSURGROUP
2.1. Le projet AssurWeb
2.2. Contexte immédiat et réalisations en cours
2.3. Contributions attendues du TAL
CHAPITRE 3 – CONDITIONS MATERIELLES ET FONCTIONNELLES DU STAGE
3.1. Cadre matériel d’intervention
3.2. Organigramme et chaîne de décision de N5
PARTIE 2 TEMPS FORTS DU STAGE
CHAPITRE 4 – MISSIONS ET DISTRIBUTION DES TACHES
4.1. Vue d’ensemble des missions
4.2. Tâches et missions majeures
4.3. Tâches récurrentes
4.4. Missions avortées ou suspendues
CHAPITRE 5 – LES MODULES D’EXTRACTION: DONNEES GENERALES
5.1. Description physique du projet : les modules
5.2. Stratégie de résolution des modules
5.3. Les objectifs à moyen et long terme
PARTIE 3 EXTRACTION D’ARTICLES ET EXTRACTION DE CONTACTS
CHAPITRE 6 – L’EXTRACTION DES CONTACTS
6.1. Analyse contextuelle
6.2. Grammaire d’extraction : Définitions formelles
6.3. La grammaire en œuvre : quelques exemples
6.4. Discussion du modèle
CHAPITRE 7 – L’EXTRACTION D’ARTICLES DE PRESSE
7.1. Analyse contextuelle
7.2. Définition formelle : grammaires et motifs d’extraction
7.3. Mise en œuvre de la grammaire et critique du modèle
PARTIE 4 ANALYSE CRITIQUE DE N5 ET RETOURS D’EXPERIENCES
CHAPITRE 8 – ANALYSE CRITIQUE DE N5
8.1. Critiques négatives de N5
8.2. Ce qui marche à N5
CHAPITRE 9 – RETOURS D’EXPERIENCE
9.1. Vécus négatifs du stage
9.2. Apports positifs du stage
CONCLUSION
Télécharger le rapport complet