La vie privée sur internet

La vie privée sur internet

Avec un nombre d’utilisateurs qui ne cesse d’augmenter. Internet est devenu un moyen d’expression, de communication, d’information et de connaissance révolutionnaire. Depuis son apparition, l’Internet a bouleversé les rôles et les structures sociales jusqu’alors bien établis. Alors que le géant Google a transformé l’accès à l’information de différentes façons (accessibilité, rapidité et réseautage), les réseaux sociaux sont devenus les principaux moyens de médiation et de relation entre les individus. Cela augmenté et favorisé la capacité des hommes à travailler ensemble de façon plus efficace et plus étendue. Malheureusement tout cela n’a pas que des avantages, la grande masse d’information circulée sur Internet ouvre l’appétit de pas mal de gens et d’entreprises, qui utilisent ces informations hors de leur contexte légitime, touchant directement à la vie privée des personnes.

La vie privée sur l’internet relève des éléments propres à un individu qui sont considérés comme personnels, et dont l’accès au public n’est pas admis. Ces éléments correspondent à des informations permettraient l’identification directe ou indirecte de l’individu et sur lesquelles on veut garder le contrôle. Les données qui appartiennent aux domaines de l’identité (nom, prénom, âge, sexe, lieu de résidence, etc.), des activités (loisirs préférés, numéro de client, de carte bancaire, etc.), de la santé, de la vie sentimentale, conjugale ou familiale font partie des éléments de la vie privée. La notion de vie privée n’est pas uniquement un concept relationnel, mais un droit légal pour tous. Dans ce chapitre on présente une vue générale sur la vie privée pour cela on commence par une définition avec les principes et les différents niveaux de la vie privée ainsi que quelques attaques, risque et enfin les technologies permettant la protection de la vie privée.

Les cookies (biscuits empoisonnées)

Un cookie (ou témoin de connexion)est défini par le protocole de communication HTTP comme étant une suite d’informations envoyée par un serveur HTTP à un client HTTP, que ce dernier retourne lors de chaque interrogation du même serveur HTTP sous certaines conditions. Il est envoyé en tant qu’en-tête HTTP par le serveur web au navigateur web qui le renvoie inchangé à chaque fois qu’il accède au serveur. Un cookie peut être utilisé pour une authentification, une session (maintenance d’état), et pour stocker une information spécifique sur l’utilisateur, comme les préférences d’un site ou le contenu d’un panier d’achat électronique. Le terme cookie est dérivé de magic cookie, un concept bien connu dans l’informatique d’UNIX, qui a inspiré l’idée et le nom des cookies de navigation. Quelques alternatives aux cookies existent, chacune à ses propres utilisations, avantages et inconvénients. Étant de simples fichiers de texte, les cookies ne sont pas exécutables. Ils ne sont ni des logiciels espions ni des virus, bien que des cookies provenant de certains sites soient détectés par plusieurs logiciels antivirus parce qu’ils permettent aux utilisateurs d’être suivis quand ils ont visité plusieurs sites. La plupart des navigateurs récents permettent aux utilisateurs de décider s’ils acceptent ou rejettent les cookies. Les utilisateurs peuvent aussi choisir la durée de stockage des cookies. Toutefois, le rejet complet des cookies rend certains sites inutilisables. Par exemple, les paniers d’achat de magasins ou les sites qui exigent une connexion à l’aide d’identifiants (utilisateur et mot de passe) [5].

Données catégoriques

Les mesures de perte d’information introduites brièvement pour les attributs continus ne sont pas directement applicables aux attributs catégoriques. Dans ce cas, il existe trois mesures principales [20] comparaison directe, comparaison des tableaux de contingence et mesure d’entropie. La comparaison directe des valeurs des attributs catégoriques nécessite la définition d’une fonction de distance entre les catégories. Dans le cas de catégories non commandées, la distance entre la catégorie c1 Dans les micro-données d’origine et la catégorie correspondante c 2 Dans les micro-données protégées est Égal à 0, si les deux catégories sont identiques.1, sinon. Par contre, S’il y a un ordre entre les catégories, la distance entre les catégories c 1 et c 2 Est égal au nombre de catégories entre c 1 et c 2 Divisé par le nombre total de catégories. La mesure de comparaison des tableaux de contingence consiste à comparer les tableaux de contingence correspondants. Une mesure basée sur l’entropie [23, 24] peut être utilisée chaque fois qu’une table de micro-données a été protégée en appliquant la suppression locale, le recodage global, Ou PRAM techniques. L’idée est que la perte d’information peut être mesurée à l’aide de Shannon Entropie car le processus de masquage est modélisé comme le bruit ajouté aux micro-données d’origine lorsqu’ils sont transmis par un canal bruyant. La mesure de perte d’information utilise la probabilité conditionnelle (la probabilité d’une valeur dans les micro-données d’origine, une fois que la valeur dans les micro-données protégées est donnée).

Combinaison de risque de divulgation et de perte d’information Dans ce chapitre ont un impact différent sur l’utilité des données et le risque de divulgation. Pour pouvoir évaluer les techniques alternatives de protection des micro-données, nous avons d’abord besoin d’un cadre pour évaluer la qualité d’une technique de protection. Le risque de divulgation et la perte d’information doivent donc être combinés. Une méthode simple consiste à calculer la moyenne des 2 valeurs et à choisir la technique (et le paramètre) qui a la valeur de score la plus élevée [21]. Une autre méthode est la carte de confidentialité R-U [25], qui est un graphique où la mesure de l’utilité de données (l’inverse de la perte d’information) est signalée sur l’axe x, et le risque de divulgation est signalé sur l’axe y. Pour chaque technique de protection des micro-données, une ligne est dessinée sur le plan cartésien avec un point pour chaque paramètre. Sur la base du graphique obtenu, il est possible de comparer les différentes techniques de protection et de choisir le mieux adapté. Une fois qu’une technique de protection a été choisie, les cartes de confidentialité R-U peuvent également être utilisées pour sélectionner les paramètres. Il est important de noter qu’une carte R-U n’est qu’une méthode pour corréler le risque de divulgation et la perte d’information et ces mesures doivent être calculées en utilisant l’une des méthodes mentionné

La t-proximité 

Pour essayer de réduire encore l’information qui peut être observée directement, on introduit le modèle de la t-proximité, toujours à partir d’un regroupement de données en classes d’équivalences selon le processus du k-anonymat. Ce nouveau modèle est basé sur une connaissance globale de la distribution des données sensibles, c’est-à-dire en ce cas les pathologies, pour essayer de faire coller au mieux les valeurs sensibles d’une classe d’équivalence à cette distribution, et ainsi éviter le problème de déduction d’informations soulevé par la l-diversité. Le facteur t que nous ne détaillons pas ici, indique dans quelle mesure on se démarque de la distribution globale. La t-proximité souffre de plusieurs problèmes, le plus important étant sans doute son utilité ! En effet, il parait évident d’exploiter des données k-anonymes ou même l-diverses pour découvrir des corrélations entre des données appartenant au quasi-identifiant et des données sensibles. Toutefois, le but même de la t-proximité est de réduire au maximum ces corrélations, puisque toutes les données sensibles de chaque classe d’équivalence vont se ressembler ! Ainsi, comme on le voit dans la Figure II.6., la t-proximité permet surtout de répondre à la question suivante comment partitionner mes données de telle sorte que toutes les partitions se ressemblent en termes de distribution ? Par exemple, si on imagine une base de données nationale sur des pathologies, comment regrouper les départements, classes d’âge et sexes, de telle sorte.

Expérimentation et résultats Nous avons testé notre approche sur la base  » Adulte Data Set  » (http //archive.ics.uci.edu/ml/datasets/Adult), cette base est contient 14 attributs dont un est considéré comme sensible (le revenu). Cette base est considérée comme un benchmark dans ce domaine. Dans la base de test l’attribut sensible est un attribut binaire (revenu >50K ou <=50K), pour cette raison on a choisi pour la génération des données un classifieur de type (J48) . Pour la phase d’évaluation nous avons utilisé trois algorithmes Naive bayes [50], foret Aléatoire (Random Forest) [51] et SMO(Sequential Minimal Optimization) . L’utilisation de plusieurs algorithmes donne plus de crédibilité et d’assurance que les données générées sont valides et ne dépendent pas d’un seul algorithme. Notre choix des algorithmes est fait d’une manière à valider les données générées sur plusieurs familles d’algorithme la famille des classifieurs bayésiens est représenté par l’algorithme Naive bayes, la famille des classifieurs fonctionnels est représenté par l’algorithme SMO(Sequential Minimal Optimization) et la famille des classifieurs de type arbres de décisions est représenté par l’algorithme RandomForest .

Les performances des modèles sont évaluées en termes de  » précision  » et de  » rappel « . Dans l’étape de générations des données nous avons généré une base de 40000 individus, la totalité de cette base est utilisée comme base d’apprentissage pour élaborer le modèle de classification pour l’évaluation de la qualité des données générées. La base de test pour ce modèle est composée de 16000 individus choisis aléatoirement à partir des données originales. La table III.1 représente les résultats d’évaluation des modèles issues des données générées en faisant varier le nombre des règles sémantiques utilisées dans la génération. Notons que les règles sémantiques utilisées dans chaque étape ont été choisies aléatoirement. Les résultats montrent que globalement la qualité des données générées s’améliore avec l’augmentation de nombre de règles sémantiques utilisées. Cette amélioration est très apparente lorsque le nombre de règles est grand (8 et 12 règles). Des exceptions sont faites dans les cas de nombre de règles 2 et 4, où on remarque une dégradation dans la qualité des données générées par rapport à une base qui n’utilise aucune règle sémantique et cela pour tout les algorithmes de classification utilisés. L’explication de ce phénomène nécessite une étude plus approfondie. Une première hypothèse c’est que l’utilisation d’un nombre restreint de règles peut provoquer la suppression d’un sous ensemble de valeurs de certains attributs, cela peut affecter une corrélation (si elle existe) entre les attributs et par conséquent le modèle de classification issu de ces données.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport gratuit propose le téléchargement des modèles gratuits de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction général
CHAPITRE I la vie privée sur internet
I.Introduction
II.Définition de la vie privée
III. le concept de la vie privée
IV.la caractérisation des données personnelles
V.Les niveaux de protection de vie privée
V.1. Anonymat
V.2. Pseudonymat
V.3. Non-chaînabilité
V.4. Non-observabilité
VII.Les risques relatifs à la vie privée sur Internet
VII. Les attaques sur la vie privée
VII.1. Le Vol d’identité
VII.2. L’attaque par « Phishing»
VII.3. L’attaque par «Profiling »
VII.4. Les attaques sur micro-données
VII.4.1. Principe d’attaque par « Attribute linkage »
VII.4.2. Principe d’attaque par « Table linkage »
VII.4.3. Principe d’attaque par « Record linkage »
VII.4.4. Principe d’attaque « probabiliste »
VIII. Les techniques d’attaques
VIII.1. TCP Session Hijacking
VIII.2. L’attaque par « Injection de commandes SQL»
VIII.3. L’attaque par « Botnet»
VIII.4. Les cookies (biscuits empoisonnées)
VIII.5. Chevaux de Troie
Conclusion
CHAPITRE II La Protection des Micro-données
I.Introduction
II.Définition sur les Micro-données
III. Les risques de perte des Micro-Données
III.1. Risque de divulgation
a) Record Linkage
b) Divulgation Intervalle
III.2. Perte d’information
a) Données continues
b) Données catégoriques
IV.Combinaison de risque de divulgation et de perte d’information
V.Les facteurs de risque de divulgation
VI.Classification des techniques de protection de micro-données
VI.1. Techniques de masquage
VI.1.1. Techniques non perturbatrices
VI.1.1.1. Échantillonnage [10]
VI.1.1.2. Suppression locale [26,27]
VI.1.1.3. Recodage global (ou recodage dans les intervalles) [28, 14, 29]
VI.1.1.4 .Top-codage [13, 30]
VI.1.1.5. Bas-Codage [13, 30]
VI.1.1.6. Généralisation [31]
VI.1.2. Techniques perturbatrices
VI.1.2.1. Ré-échantillonnage [32, 33]
VI.1.2.2. Compression à perte [13, 34]
VI.1.2.3. PRAM (Poser la méthode randomisée) [14, 36, 23]
VI.1.2.4. MASSC (Micro-Agglomération, Substitution, Sous-échantillonnage et Calibration)
VI.1.2.5. Swapping(Échange de données) [32, 21, 37]
VI.2. Techniques de génération de données synthétiques
VI.2.1. Techniques entièrement synthétiques
VI.2.1.1. Bootstrap [33]
VI.2.1.2. Décomposition Cholesky [40]
VI.2.2. Techniques partiellement synthétiques
VI.2.2.1. IPSO (Information Preserving Statistical Obfuscation) [40] 36
VII. Quelques approches de protection des micro-données
VII.1. Le k-anonymat
VII.1.1. Le k-anonymat un exemple d’application
VII.2. La l-diversité [44]
VII.3. La t-proximité [45]
VII.4. La confidentialité différentielle (Différential Privacy) [55]
VIII. Conclusion
CHAPITRE III Conception et implémentation
I.Introduction
II.L’approche proposée
II.1. La formulation du problème
II.2. La génération des données
II.3. Le mécanisme d’évaluation
III. Expérimentation et résultats
Conclusion
Conclusion générale
Références Bibliographiques
Liste des tables
Liste des figures

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *