Exploitation des données personnelles, bénéfice et risque

Protection de la vie privée

Protection de la vie privée : une définition unifiée ?

La protection de la vie privée est un concept qui est étudié en profondeur dans les disciplines philosophique, psychologique, sociologique, juridique et technique depuis plus de 100 ans [SDX11]. Les préoccupations relatives à la protection de la vie privée ont généralement été soulevées chaque fois que les progrès technologiques ont permis de modifier la façon dont les informations peuvent être recueillies, consultées ou utilisées. Il existe de nombreuses définitions et de nombreux aspects de la vie privée, mais la protection de l’information personnelle a fait l’objet d’une attention considérable au cours des dernières décennies. De nombreuses études dans divers domaines ont amélioré notre compréhension de la protection de la vie privée et de la gestion de la vie privée à différents niveaux. Cependant, le tableau qui se dégage est fragmenté et généralement propre à une discipline, avec des concepts, des définitions et des relations qui sont incohérents et qui ne sont ni pleinement développés ni validés empiriquement [XDSH11]. Les définitions de la vie privée varient et dépendent du domaine, allant d’un « droit » en science juridique [WB90] à un « état d’accès limité ou d’isolement » en philosophie et en psychologie [Sch84] au « contrôle » dans les sciences sociales et les systèmes d’information [Cul93, Wes68]. Westin [Wes68] définit par exemple la vie privée comme « la revendication d’individus, de groupes ou d’institutions de déterminer par eux-mêmes quand, comment et dans quelle mesure l’information les concernant est communiquée à d’autres ». Cependant, selon [Sol08], non seulement l’effort pour « trouver l’essence de la vie privée » a échoué, mais il n’y a aucun espoir de succès. Au lieu de poursuivre la recherche futile d’une théorie aussi grande et unifiée de la protection de la vie privée, Solove [Sol08] soutient que nous devrions aborder les questions de protection de la vie privée de la base vers le haut en cherchant à « résoudre certains problèmes ». C’est précisément dans ce cadre-là que les communautés scientifiques des statistiques et informatique se sont intéressées à la problématique et se sont montrées particulièrement prolifiques, en proposant nombre de solutions au cours des dernières décennies.

Exploitation des données personnelles, bénéfice et risque

La collecte et l’utilisation des données à caractère personnel par les acteurs publics et privés présentent un avantage certain. D’une part pour les individus qui bénéficient directement de l’amélioration et du développement de nouveaux services. D’autre part pour les entreprises notamment pour : l’évaluation du risque client, l’accroissement du retour sur investissement, et l’amélioration de l’offre de services et de produits. A ce sujet Meglena Kuneva, la commissaire européenne à la protection des consommateurs dira : « Les données personnelles sont le nouveau pétrole de l’Internet et la nouvelle monnaie du monde numérique. » [Kun09]. La métaphore est particulièrement intéressante. Elle couvre à la fois l’utilisation des données personnelles en tant que produit en soi mais aussi en tant que substance fondamentale pour un grand nombre d’activités économiques, et qui doit être considérée comme matière première ou « produit semi-fini ».

Toutefois, le caractère personnel et sensible des données représente un enjeu pour les entreprises, qui sont soumises à une réglementation stricte en matière de collecte, de traitement et de partage des données. En plus des amendes et des sanctions légales prévues par les lois sur la protection des données, les atteintes à la vie privée peuvent également avoir un impact considérable sur la réputation des entreprises et sur les relations avec leurs partenaires, clients et employés, ce qui peut provoquer des pertes économiques considérables.

Quelques exemples d’atteinte à la vie privée

Les exemples suivants illustrent parfaitement les conséquences graves qu’induit un manquement à la protection de la vie privée.

Netflix

Netflix, le célèbre fournisseur de vidéo à la demande a été poursuivi en justice et a dû payer environ 9 millions de dollars pour avoir exposé les données de ses clients. Les faits remontent à 2010, quand l’entreprise organisa un concours qui visait à améliorer son système de recommandation de contenu. A cet effet, Netflix a publié 100 millions d’enregistrements qui répertorient les évaluations de 500.000 utilisateurs. Cependant, en reliant les recommandations disponibles sur la base de données du site IMDb avec le jeu de données ’dé-identifié’, des chercheurs [NS06] ont montré qu’il était possible de ré-identifier les individus, révélant ainsi des informations sensibles.

Les taxis new-yorkais

En mars 2014, à la suite d’une demande d’accès à l’information, une copie complète des logs des déplacements et des tarifs des taxis de la ville de New York a été publiée. Les données contenaient plus de 173 millions d’enregistrements de déplacements individuels, chaque enregistrement de trajet comprenait le lieu et l’heure de prise en charge et de dépôt, et les frais de la course. Chaque voyage était en outre décrit par le numéro de licence du conducteur et le matricule du véhicule, qui avaient été anonymisés en les remplaçant par un identifiant crypté (leurs hashes MD5). De telles fonctions de hachage ne sont utiles dans l’anonymisation que s’il existe un très grand nombre de possibilités pour les entrées de hachage. Cependant, il n’y a qu’environ 22 millions de possibilités pour les numéros de licence et de matricule, qui peuvent être hachés en quelques minutes. Une fois les hashes connus :

— Il était trivial de chercher le bon numéro, qui pouvait ensuite être corrélé avec d’autres ensembles de données pour révéler l’identité des conducteurs, leurs déplacements complets et les salaires qu’ils gagnaient.
— Les paparazzi de New York capturent fréquemment des célébrités entrant ou sortant des taxis jaunes, et dans beaucoup de leurs photos est affiché le matricule unique du taxi comme illustré dans la Figure 1.1. En recherchant de tels clichés sur Google, puis en utilisant les horodatages des photos et les descriptions qui les accompagnent pour établir où elles ont été prises, il a été possible de déterminer les lieux de ramassage et de dépôt, le montant du tarif et le pourboire que plusieurs célébrités ont payé à leur chauffeur.

Dans cette affaire, la tentative d’anonymisation s’est effondrée en raison d’une mauvaise utilisation de la cryptographie .

Cambridge Analytica

Les informations personnelles de plus de 87 millions d’utilisateurs ont été partagées de manière inappropriée avec le cabinet de conseil politique Cambridge Analytica  . La firme partenaire agrée de Facebook a pu proposer un questionnaire aux utilisateurs du réseau social. En réalité, l’application de Cambridge Analytica poursuivait d’autres fins : elle récupérait les données Facebook de toute personne répondant au questionnaire, mais, elle récupérait également au passage, les données Facebook des amis de la personne répondant au questionnaire. Cela a permis à Cambridge Analytica de récupérer les données de 87 millions d’utilisateurs alors que 270.000 personnes ont répondu au questionnaire. C’est à dire que pour 1 personne répondant au questionnaire, l’application a accédé en moyenne aux données de 321 autres personnes. En plus de l’identification (nom, prénom), la date de naissance, les données de localisation, les pages Facebook visitées/likées, Cambridge Analytica disposait par ailleurs d’autres bases de données qu’elle aurait croisées pour dresser un profil individuel de chaque personne. Ce profilage a notamment été utilisé dans le cadre des élections américaines par l’équipe de campagne de Donald Trump.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction
1 Protection de la vie privée
1.1 Protection de la vie privée : une définition unifiée ?
1.2 Exploitation des données personnelles, bénéfice et risque
1.3 Quelques exemples d’atteinte à la vie privée
2 Publication de données respectueuse de la vie privée
2.1 Protection de la vie privée et base de données
2.2 Motivation de la publication des données
3 Règlement général sur la protection des données
3.1 RGPD et apprentissage automatique
3.2 RGPD et données anonymes
4 Problématiques et solutions envisagées
5 Organisation du manuscrit
2 État de l’art
1 Introduction
2 Protection des données
2.1 Types de données
2.2 Microdonnées
2.3 Paradigmes de protection de la vie privée
2.4 Risques de divulgation sur les microdonnées
3 Méthodes pour l’anonymisation de microdonnées
3.1 Assainissement
3.2 Génération de données synthétiques
4 Formalismes de protection
4.1 k-Anonymat
4.2 `-Diversité et t-proximité
4.3 Confidentialité Différentielle
4.4 Lien entre k-anonymat et confidentialité différentielle
4.5 Synthèse
5 Critères d’évaluation quantitative de l’anonymisation
5.1 Mesurer l’utilité des données
5.2 Évaluation des risques
6 Outils d’anonymisation
6.1 µ-argus
6.2 CAT
6.3 ARX
7 Conclusion
3 Génération de données synthétiques à l’aide du co-clustering pour la protection de la vie privée
1 Introduction
2 Le Co-clustering MODL
2.1 Le co-clustering, généralités
2.2 L’algorithme MODL
2.3 Le co-clustering comme estimateur de densité jointe et approximateur universel
2.4 Simplification du co-clustering
2.5 Les logiciels Khiops et Khiops CoViz
3 Mise en œuvre du co-clustering sur des données multidimensionnelles
3.1 Préparation des données
3.2 Transformation des données en deux variables
3.3 Co-clustering
3.4 Simplification du co-clustering
4 Anonymisation et génération de données synthétiques
4.1 Étape de peuplement des clusters d’individus
4.2 Étape de génération de données synthétiques
4.3 Résumé de la méthode
4.4 Génération de données synthétiques et risque de ré-identification
5 Évaluation
5.1 Adult
5.2 Base de données de facturation
6 Conclusion
4 Atteindre le k-anonymat avec le co-clustering
5 Conclusion

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *