Télécharger le fichier pdf d’un mémoire de fin d’études
Préparer l’anonymisation
Pour réaliser une anonymisation efficace, il est nécessaire de savoir quelles informations doivent être conservées, car la perte d’informations induite par l’anonymisation est irréversible. Il faut préalablement savoir quel degré d’anonymisation est nécessaire et quel degré de précision doivent comporter les données pour l’analyse, avant de déterminer si l’anonymat effectué est suffisant5. Afin de déterminer ce qu’il est important d’éliminer ou de rendre moins précis dans une trace GPS, il est utile de voir comment quelqu’un pourrait retrouver l’identité d’un individu suivi. Les indices permettant d’identifier une personne sont ceux définissant un individu dans le cadre du suivi GPS. Les lieux fréquentés précis et identifiables sur un tracé (tel que le lieu de résidence qui est souvent l’origine d’une trace, le lieu de travail, une école…), les heures et jours de fréquentation d’un lieu et la fréquence à laquelle un individu se rend quelque part, aident à l’identification.
L’accès à différentes bases de données, la création de programmes informatiques contournant certaines barrières imposées par un anonymat ou croisant des données, pour refaire un trajet, rechercher qui travaille à un endroit et pourrait habiter à l’origine d’une trace, sont possibles. Si les moyens pour remonter les informations personnelles sont trop importants à mettre en oeuvre (coût financier, temps, matériel), alors on peut assurer l’anonymat des données, cela dépend de l’enjeu. Il est également possible de demander aux individus suivis quelles informations (quelles localisations…) ils ne veulent pas divulguer, l’anonymisation est portée à un niveau individuel, car elle concerne directement les individus en question, qui peuvent avoir des exigences différentes concernant leur propre vie privée6.5 (BARNARD).
Ainsi les données qui peuvent être retirées ou floutées sont l’origine des traces, les points d’arrêts, les caractéristiques précises des lieux traversés (adresses exactes, noms d’entreprises…), les localisations spatiales et temporelles exactes (dates, heures, coordonnées).
Avant d’anonymiser une trace GPS, il est essentiel de déterminer le type d’informations et la précision nécessaires pour l’étude.
La forme spatiale de la trace (position relative au cours du temps), les distances parcourues ainsi que les caractéristiques générales des lieux (type d’activité d’une zone, zone urbanisée…) sont importantes pour étudier la pratique de la mobilité d’individus. Les zones d’arrêts, les temps passés lors de déplacements, lors d’arrêts, ou dans un type de lieux, ainsi que les périodes pendant lesquelles les déplacements sont effectués (week-end, soir, période de l’année…) apportent des informations essentielles, il faut donc les conserver. Cependant, l’intégralité des détails n’est pas forcément nécessaire pour comprendre les différentes mobilités. La précision peut être réduite (des localisations peuvent être rassemblées par exemple).
Principales solutions et méthodes pour rendre anonyme une trace GPS
Il existe de nombreuses méthodes d’anonymisation, cependant elles ne sont pas toutes applicables aux traces GPS ni adaptées à une anonymisation spatiale. Les principales méthodes et techniques les plus adaptées et leur principe de fonctionnement sont les suivantes :
• K-anonymat : Le niveau de détail est réduit, comme l’individualité des traces : différents enregistrements sont regroupés et ne forment plus qu’une trace. Cette méthode prend en compte des traces similaires et avoisinantes. Des ‘’quasi-identifiants’’ (comme le moment de passage à un endroit, des coordonnées d’origine, un lieu traversé, une longueur de trajet…) qui pourraient permettre de lier un enregistrement anonyme à un autre non anonyme sont déterminés7. Ce quasi-identifiant doit avoir les mêmes valeurs pour au moins k individus, que l’on peut ainsi réunir dans un groupe, il y a alors k personnes au moins pour chaque attribut étudié. Il est possible aussi de généraliser une valeur pour qu’il y ait moins de spécificité, cela se fait par suppression de la valeur, ou en remplaçant la valeur par une valeur aléatoire.
Techniques de suppression
Les différentes variantes de technique de suppression ne sont pas nécessaires pour obtenir une anonymisation suffisante des traces GPS du Métaprojet. La suppression de segments, de points, induit une perte de données importantes pour l’analyse de la mobilité (comme des petits arrêts, des petits écarts de trajectoires…). Il n’est pas nécessaire de pousser l’anonymisation aussi loin, et de supprimer autant de données.
La suppression des données dans certaines zones peut engendrer la perte d’information nécessaires à l’étude, comme une zone d’arrêts dans un certain type de lieux. De même, si la suppression des données est itérative, et systématique, il se peut que des informations importantes soit supprimées alors qu’elles ne compromettaient pas vraiment l’anonymat de l’individu. Cependant, la suppression de données, qu’elles soient importantes pour préserver la vie privée d’un individu ou non, permet de confondre les informations compromettantes avec celles qui ne le sont pas, et donc de rendre plus difficile l’identification d’un individu. Par exemple, si quelqu’un qui essaye d’identifier un individu remarque qu’une zone est supprimée, il peut se focaliser sur cet espace alors que ça n’est pas forcément une zone compromettant l’anonymat.
La suppression de décimales, diminuant la précision de la trace, est la variante la plus intéressante, car la trace reste continue et entière. Mais elle a pour conséquence de rendre la trace saccadée, des points proches (ne se distinguant que par les derniers chiffres de coordonnées qui sont supprimés) se retrouvent confondus. De plus, la simple approximation de la localisation d’un individu n’est pas suffisante pour protéger son anonymat. Il n’est pas très difficile de déduire un lieu fréquenté même si la localisation n’est pas exacte (les enregistrements du GPS ne sont pas non plus exacts). Le contexte spatial est modifié, et la forme (positions relatives des points entre eux) est aussi modifiée (à une échelle locale).
Application de la technique de suppression de décimales :
– Les coordonnées enregistrées comportent 6 décimales (pour cette trace). Cette technique a été testée en arrondissant les longitudes et latitudes à 3 décimales (colonnes Longitude_3_deci et latitude_3_deci de la figure 3 suivante).
Technique d’agrégation
L’agrégation permet de flouter des zones. L’identification d’un lieu est alors moins précise, la lecture globale d’une trace est perturbée. Elle peut se faire de manière aléatoire, itérative, ou en fonction d’un maillage (chaque point dans la même maille est aggloméré, tel que dans la figure 6). Les données ne sont pas effacées, mais approximées, regroupées, arrondies, ce qui est plus adapté pour le Métaprojet.
Cependant, appliquer cette méthode tout au long d’une trace n’est pas pertinent au regard du Métaprojet, des informations telles que des petits arrêts, les distances parcourues, sont alors masquées ou modifiées. La figure 7 montre un tracé devenu saccadé du fait de l’agrégation de tous les points se trouvant dans une même case. Les points en rose foncé sont les points qui sont conservés et qui servent de base pour l’agrégation, les points plus clairs sont agrégés avec ceux-ci. La trace devient saccadée, les distances parcourues à petite échelle sont faussées, d’éventuels écarts à la trajectoire disparaissent dans l’agglomérat, mais la forme générale (qui est plus approximative) persiste.
Changement de coordonnées spatiales, et d’horodatage :
Le point d’origine des traces est déplacé aux coordonnées (0 ; 0). La valeur de longitude et de latitude du point d’origine est retirée aux valeurs des coordonnées des autres points. Ainsi l’écart entre chaque coordonnée reste le même, la position relative des points est conservée. Voir les champs Longitude et Latitude figure 8 et 9. Si on veut comparer plusieurs traces, les superposer, il faut retirer la même valeur à chaque longitude et à chaque latitude, les traces ne commenceront donc pas toutes à (0 ; 0).
Pour le changement d’horodatage (figure 8), la date précise n’est pas conservée, mais la période et le type de jours sont indiqués (le temps est agrégé). La journée est découpée en cinq parties, et des durées sont calculées entre chaque point :
– Date : Eté [2010-2015] (par exemple).
– Type de jour : semaine / week-end.
– Moment de la journée :
Matin [06:00 – 11:00] / Midi [11:00 – 14:00] / Après-Midi [14:00 – 18:00] / Soir [18:00 – 23:00] / Nuit [23:00 – 06:00].
Comparaison des points d’arrêts créés avec quadrillage et ceux fournis par l’étude :
En comparant les points d’arrêts déterminés en fonction de la vitesse et du quadrillage et les points d’arrêts fournis par l’étude Mobiter, on constate qu’il y en a plus avec le quadrillage (figure 16). En effet, dès que le déplacement change de case, un nouveau point d’agrégation est déterminé, formant une nouvelle zone d’arrêt (zone tampon), alors qu’il se peut que ce soit le même arrêt à l’échelle de la trace. Il peut y avoir des va et vient entre cases, ce qui augmente le nombre de points (figure 17). De plus les points d’agrégation sont uniques par zone d’arrêt, alors que les points d’arrêt Mobiter sont des doublets (un point de début et un point d’arrivée, qui sont souvent très proches ou superposés). Cet écart entre début et arrivée est représenté par la zone tampon.
|
Table des matières
Remerciements
Introduction
1- L’anonymisation
1) Problèmes posés par le suivi GPS et anonymisation
2) Préparer l’anonymisation
3) Principales solutions et méthodes pour rendre anonyme une trace GPS
2- Mise en oeuvre des différentes méthodes et intérêt et efficacité au regard du Métaprojet
1) K-anonymat
2) Techniques de suppression
3) Technique d’agrégation
4) Changement de référence géospatiale et d’horodatage
5) Bilan des différentes façons d’anonymiser
Conclusion
Bibliographie
Télécharger le rapport complet