Comment améliorer, au sein d’un système d’information existant, la qualité des données d’observation botanique

Les besoins des utilisateurs de Flora Data

Au total entre janvier et février, 16 personnes et structures sur la quarantaine sollicitée ont été interviewées.
Les cinq profils d’utilisateurs définis au préalable ont été conservés pour l’analyse. Certains utilisateurs ont cependant changé de groupe à l’issue des entretiens. Six catégories de besoins ont été identifiées lors de l’analyse des entretiens :

Les objectifs de la participation : l’enrichissement personnel, se rendre utile ou trouver du contenu,
Le fonctionnement en réseau, Le stockage de données, L’utilisation de données (point de vue outils), L’aide à l’identification taxonomique, L’accessibilité aux outils en général, Au sein de ces catégories, huit besoins sont ressortis comme étant prioritaires, c’estàdire qu’ils cumulent des notes hautes et une forte occurrence lors des entretiens. La moitié des besoins concerne l’identification de taxon, thématique qui regroupe tous les profils d’utilisateurs. Ces besoins sont : Vérifier lune de ses identifications , Identifier une espèce observée et photographiée , Chercher dans un recueil en ligne , Être aidé par le réseau.
Le deuxième besoin le mieux noté est le stockage d’observations illustrées, cependant ce n’est pas un besoin unanime : il est prioritaire pour les utilisateurs experts et les collectifs, c’estàdire lorsque les usages sont (ou se rapprochent) du domaine professionnel. C’est un besoin secondaire pour les utilisateurs avertis (et les animateurs), accessoire pour les débutants.

Les motivations à participer font également partie des besoins prioritaires avec :
Trouver des informations botaniques de source sûre, avec là encore un poids très fort des utilisateurs experts, moindre pour les botanistes avertis chez qui ce besoin est secondaire.
Se faire plaisir, prioritaire pour les utilisateurs débutants et avertis, secondaire pour les botanistes experts.

Enfin, le besoin d’appartenir au réseau et d’être en lien avec les autres se retrouve chez les utilisateurs experts (prioritaire) et avertis (secondaire).

Le programme Flora Data

Gérer des données d’observation :L’objectif premier de ce programme est la collecte et la gestion de données d’observation botanique. Il convient donc de commencer par définir cette notion qui sera centrale dans la suite de mon étude : Une observation botanique qualifie l’identification de la présence d’un taxon végétal. Elle est constituée des informations suivantes :
Quoi :
un nom caractérisant l’objet de l’observation (taxon, nom commun, « indéterminé », etc.). Dans le cas où le taxon est identifié, celuici doit être rattaché à un référentiel taxonomique ; éventuellement une ou plusieurs photos illustrant l’espèce observée, surtout dans le cas où le taxon n’est pas identifié par l’observateur ;
Où : le lieu (coordonnées précises, entité géographique, pays…) ;
Quand : la date de l’observation ; Qui : un (ou plusieurs) observateur·s ;
Des informations complémentaires peuvent accompagner une observation botanique, mais celles qui précèdent sont indispensables à la valorisation des données (Jomier et al., 2016). Dans la suite du document, une donnée d’observation «de qualité» désigne une donnée pour laquelle l’ensemble de ces informations au moins ont été renseignées et sont cohérentes.

Gérer la qualité des données

Historiquement, le processus Flora Data a été construit par accumulation d’outils et de fonctionnalités, sans réelle réflexion sur son architecture globale. Cela limite à présent l’amélioration du service et de la qualité des données. L’obsolescence des outils les plus anciens et les problèmes de cohérence au sein du processus en général nécessitent aujourd’hui une révision du système. Différents éléments de contexte présentés cidessous viennent également poser la question de la gestion de la qualité des données.
Les spécificités des données de Tela Botanica :Afin de définir le format des données d’observation, un certain nombre de particularités propres à l’association doivent être prises en compte : Diversité dans l’origine des données : Tela Botanica peut être considérée comme une structure productrice de données, cependant l’association agrège déjà des données d’origines différentes : des structures (associations, bureaux d’étude, etc.), des professionnels de la botanique, des débutants, des amateurs… saisissent des observations botaniques dans la base de Tela. Ce public a donc des exigences et des connaissances hétérogènes, ce qui produit des données hétérogènes. Une partie des données est aussi issue de partenariats, en particulier dans le cadre du projet Floris’Tic, et constitue un flux plus ou moins automatisé de données dont le format d’origine n’est pas contrôlé par Tela. Tout cela souligne l’importance de qualifier la source et l’origine de la donnée dans le but de ne pas « mélanger » toutes ces observations hétérogènes.
Diversité du public visé : Comme nous l’avons vu, le public visé par l’association est hétérogène. Afin de convenir aux différents profils d’utilisateurs, les interfaces (de saisie notamment) doivent être adaptables aux différents niveaux, en botanique comme en informatique. Cette contrainte pèse aussi sur la quantité et la précision des informations demandées, que tous les utilisateurs ne sont pas à même de renseigner.
Processus de validation participative : Une grande partie des données étant saisie par des particuliers dans le cadre d’activités de loisir, elles sont rarement associées à un « validateur » référent comme dans une structure professionnelle. En revanche, une validation a posteriori peut être effectuée par le réseau sur IdentiPlante, lorsque l’observation est illustrée de photos. Dans ce cas, les validateurs sont les membres du réseau qui proposent ou confirment l’identification, et c’est l’auteur de la donnée qui est responsable du nom sélectionné au final. La notion de donnée validée repose donc, dans le cadre de l’association, sur le nombre de membres du réseau en accord avec une identification. Cette information peut avoir sa place dans les métadonnées puisqu’elle qualifie en partie la qualité de la donnée.
Portée internationale : le fait de pouvoir saisir des observations depuis le monde entier a plusieurs conséquences :

sur les données de localisation : la notion de commune avec son code INSEE est française. Elle a pour avantage de couvrir l’ensemble du territoire et d’être bien référencée. Mais on ne peut pas l’utiliser pour les observations à l’étranger et le terme employé jusqu’à présent est localité ou zone géographique, même si le concept est un peu différent. D’autre part, plusieurs localités pouvant être synonymes, une autre information doit y être associée : en France c’est généralement le département, mais on peut penser au pays, aux coordonnées géographiques, etc.

sur les référentiels taxonomiques : Tela Botanica propose différents référentiels, couvrant plusieurs régions du globe. Le référentiel doit être renseignable lors de la saisie et obligatoire si l’utilisateur renseigne un nom scientifique. En effet, dans le cas où un utilisateur saisit un nom complet avec auteur sans sélectionner de référentiel, celuici ne sera pas considéré en tant que tel (pas reconnu dans eFlore, pas affiché dans les filtres par taxon, etc.).

Licence CCBYSA 2.0 : en lien avec les valeurs de Tela Botanica, cette licence s’applique notamment aux photographies, saisies via les outils de l’association et publiées par leur auteur. Les conditions d’utilisation selon cette licence sont les suivantes : les images peuvent être reproduites, distribuées, communiquées et modifiées, sous réserve de citer le nom de l’auteur original ainsi que celui de Tela Botanica qui édite l’œuvre.
Dans le cas de modifications, transformations ou adaptations, le résultat ne peut être distribué que sous un contrat identique à celuici

Etat de l’art : la localisation dans les outils de saisie naturalistes

Les trois exemples sélectionnés sont les suivants : Biolovision est un outil conçu par l’entreprise Suisse du même nom, initialement pour les observations ornithologiques et aujourd’hui utilisé par de nombreuses associations naturalistes (en Europe de l’Ouest surtout). C’est notamment l’outil qu’utilisent les sites départementaux de la LPO (36 bases locales) qui recensent la faune locale. Biolovision est également utilisé par un site de collecte de données floristiques pour les orchidées, OrchiSauvage. L’outil est disponible sur mobile, via l’application NaturaList.
Artportalen, site Suédois de collecte de données naturalistes, est développé et géré par le Centre Suédois d’Information sur les Espèces (ArtDatabanken) à l’Université Suédoise des Sciences Agricoles, au nom de l’Agence suédoise pour la conservation de l’environnement.

iNaturalist, un site de la California Academy of Sciences, a une portée internationale et vise un public très larg
e.

Tests comparatifs sur la solution la mieux adaptée : performance du reverse geocoding

Définition et intérêt du reverse geocoding :Le point, défini par un couple de coordonnées, est l’information la plus précise que l’on puisse obtenir pour renseigner un lieu mais aussi l’une des plus pratiques en termes de gestion. On peut notamment en déduire les entités géographiques dans lesquelles le point est inclus. Pour cela, on utilise un procédé appelé géocodage inversé ou reverse geocoding, qui consiste à calculer une adresse à partir de coordonnées GPS (le geocoding étant l’inverse, le calcul des coordonnées GPS avec une adresse).
On a constaté que, lors de la saisie, l’étape de géocodage inversé est importante à la fois pour l’amélioration de la qualité des données et pour la simplicité d’utilisation. Celleci fait appel à une API chargée de faire le lien entre les coordonnées et les entités administratives contenant le point.
Méthodologie :Afin d’évaluer les performances du service actuel de reverse geocoding de Tela Botanica et de le comparer avec plusieurs API existantes sur le marché (libres ou non), j’ai effectué des tests comparatifs (Goldberg et al., 2013) portant sur :
leur rapidité, en mesurant les vitesses moyenne, minimale et maximale d’exécution de la requête,
leur exhaustivité, en mesurant le taux de réponses non vides, et le taux de réponses complètes, c’estàdire avec la localité et le pays.
leur justesse (les infos calculées correspondentelles à la réalité ?) en comparant les réponses des services entre eux et en les comparant avec une référence.

Cette étape est réalisée en amont de la construction d’un cahier des charges afin de pouvoir prendre en compte les spécificités des services dans celuici, notamment leurs performances dans les zones peu peuplées à l’étranger.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
I. Présentation du contexte

A. Tela Botanica

1. Activités, missions et organisation de l’association

2. Un contexte en pleine évolution

3. Problématique globale : s’adapter au contexte

B. Le programme Flora Data

1. Gérer des données d’observation

2. Gérer la qualité des données

3. Bilan et présentation de la démarche / mémoire

II. L’approche générale : analyser un système d’information existant

A. Analyse de l’existant

1. Méthodologie

2. Etat des lieux de l’existant

B. Veille technologique

1. Méthodologie

2. Résultats

C. Analyse des besoins

1. Méthodologie

2. Les besoins des utilisateurs de Flora Data

D. Analyse fonctionnelle

1. Méthodologie

2. Résultats

E. Spécifications

1. Méthodologie

2. Définition d’un format standard de données

III. Étude de cas : la (géo)localisation
A. État de l’art des solutions existantes
1. Méthodologie

2. État de l’art : la localisation dans les outils de saisie naturalistes

B. Tests comparatifs sur la solution la mieux adaptée : performance du reverse geocoding

1. Définition et intérêt du reverse geocoding

2. Méthodologie

3. Zoom sur un aspect critique : le géocodage inversé

C. Définition du cahier des charges

1. Méthodologie

2. Définition d’un (unique !) protocole de saisie

D. Étude des conséquences sur les autres interfaces et outils

1. Méthodologie

2. Lien avec les autres outils : quelles conséquences sur la restitution des données ?

E. Bilan de l’étude de cas

IV. Bilan et perspectives

A. Bilan et analyse critique

1. Pertinence de la méthode employée

2. L’organisation du travail et les compétences au sein de l’association

3. Les choix stratégiques visàvis de la problématique

B. Perspectives et préconisations

1. Quelles compétences nécessaires ?

2. Externaliser les développements : oui mais dans quelle mesure ?

3. A quels coûts doiton s’attendre ?

Conclusion

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *