La diffusion massive des dispositifs portables, de plus en plus utilisés pour le traitement et la communication de l’information, permet la collecte d’importantes masses de données liées à l’activité des utilisateurs sur des applications mobiles. Les données proviennent des systèmes de captation embarqués, i.e. des capteurs de mouvement comme le gyromètre et l’accéléromètre, des capteurs de localisation comme le récepteur GPS ou des systèmes d’interface de communication comme le Wi-Fi et le Bluetooth. Ces données sont souvent nécessaires pour l’obtention d’un service particulier, par exemple, la navigation routière ou le monitorage de l’activité sportive. L’explosion de la demande pour ces services et de la capacité des dispositifs portables à produire de l’information engendre de gros volumes de données (datasets). Conjointement, ces données sont de plus en plus partagées, dans certains cas le partage est nécessaire pour l’obtention du service requis, tandis que dans d’autres cas le partage est discutable. Cette dynamique de partage permet aux fournisseurs de services de collecter, entre autres, les données provenant des capteurs embarqués.
Les données produites dans ces systèmes ont différentes formes et contenus, ils ouvrent la voie à de nouvelles recherches dans une multitude de disciplines. En outre, une approche interdisciplinaire est possible sur des données qui relèvent de plus en plus d’informations sur le comportement humain au quotidien. Nous allons nous intéresser aux données de localisation et de proximité, c’est-à-dire les traces de mobilité, qui sont issues des systèmes mobiles formés par un groupe d’utilisateurs. Les traces de mobilité contiennent des informations concernant le mouvement géographique ainsi que la dynamique temporelle dans le déplacement et le réseau social des utilisateurs. Les enjeux économiques, sociétaux et scientifiques des données de mobilité sont prouvés et permettent l’utilisation de ces données dans différentes applications. Nous nous intéressons à l’étude des données de mobilité dans le développement des systèmes de communication mobiles et dans l’impact que ces données ont sur la protection de la vie privée des utilisateurs. En conséquence, les données de mobilité produites par les utilisateurs à l’intérieur d’un système mobile sont étudiées suivant deux axes :
– l’utilisation des modèles de mobilité est à la base du développement d’algorithmes de communication dédiés aux systèmes mobiles. Les traces de mobilité réelles vont nous permettre de comparer les traces de mobilité synthétiques utilisées dans la simulation avec la réalité qu’ils sont censés décrire.
– la manipulation des traces de mobilité réelles implique une réflexion sur les conséquences que les informations extraites de ces données ont, relativement à la protection de la vie privée des utilisateurs.
La caractérisation des réseaux de communication basés sur des systèmes mobiles conduit naturellement à l’utilisation de certains modèles de mobilité capables de générer des traces de mobilité assimilables à des agents mobiles. La paramétrisation de ces modèles est un aspect crucial dans la réussite de la simulation et elle varie selon la définition des différents modèles. La possibilité d’analyser des traces de mobilité réelles issues d’une collecte à haute precision, où la granularité de captation est inférieure à la portée de communication envisagée dans la simulation, nous permet une fine estimation des paramètres nécessaires. Nous allons pouvoir donc vérifier le niveau de confiance des modèles de mobilité dans la génération des traces synthétiques. L’analyse des propriétés sociales et spatiales des traces réelles et synthétique mettra en évidence l’absence de la prise en considération de la “mobilité sociale” de la part des modèles.
Les informations contenues dans les traces de mobilité peuvent avoir un impact sur la protection de la vie privée des utilisateurs. La possibilité de collecter l’ensemble des traces dans une foule d’utilisateurs à un moment particulier et le traitement qui peut en dériver peuvent générer des pertes dans la protection de la vie privée par le biais d’inférences révélant des comportements locaux (concernant un utilisateur particulier) ou globaux (concernant l’ensemble de la foule) des utilisateurs. L’inférence, et en conséquence la protection, des informations personnelles à partir des données de localisation fait déjà l’objet de récentes études. Nous montrons qui il est possible de mener des inférences à partir des informations de mobilité des utilisateurs sans besoin de leur localisation. Le distinguo entre les informations de localisation et celles de “proximité spatiale”, contenues dans des traces de mobilité, est au centre de la définition de la co localisation dans notre approche. Le concept de co-localisation nous permet aussi de quantifier l’impact des informations probabilistes concernant la mobilité humaine sur l’inférence de données de localisation.
Introduction aux réseaux Ad Hoc
Une vaste littérature concerne les réseaux Ad Hoc, deux références significatives [Per08] [Toh01] présentant un aperçu des définitions et problématiques abordées dans ce paragraphe. Ad Hoc est une locution latine traduisible comme “à cet effet” et qui, appliqué à une chose, indique que cette chose est “adaptée à tel usage précis”. Dans le cas des réseaux de communication, on définit des réseaux Ad Hoc comme un ensemble de dispositifs capables de communiquer à un instant (un moment, une circonstance, une situation, un contexte) défini, sans infrastructure physique globale (par exemple, internet). L’absence d’infrastructure globale rend le réseau adaptatif envers les nouveaux scénario d’utilisation qui se profilent avec la diffusion massive des dispositifs portables et objets connectés. La possibilité d’une infrastructure dynamiquement configurable permet d’optimiser la communication des informations qui ont des supports divers, par exemple dans le cas des dispositifs portables ce sont les utilisateurs eux mêmes qui forment le support de communication de l’information. Ce sont donc des systèmes distribués de communication. Chaque dispositif peut communiquer directement avec tous autres dispositifs à sa portée et, plus généralement avec tout dispositif dans le système si il existe un ou plusieurs dispositifs relais entre lui et le dispositif destinataire. Ces systèmes adaptatifs peuvent être fixes (wired, par exemple un système des capteurs environnementaux chargés de la mesure d’un certain phénomène) ou mobiles (wireless, par exemple un système des véhicules autonomes chargés d’une mission particulière), composés par des dispositifs hétérogènes ou homogènes. La nature des dispositifs composant le réseau peut avoir un impact important sur les performances du réseau même (capacité de calcul, portée et délai de communication, capacité énergétique, etc.). Nous allons nous focaliser sur les réseaux Ad Hoc mobiles. Les réseaux mobiles Ad Hoc sont généralement nommés MANET [MC98], acronyme de Mobile Ad hoc NETwork. Différentes communautés scientifiques ont étudié les réseaux mobiles Ad Hoc. Les différentes perspectives apportées par ces communautés ont conduit à la définition de plusieurs architectures. Les définitions que nous avons rencontrées pendant notre étude sont les suivantes :
– Les reseaux tolerants aux délais (Delay Tolerant Networks, DTN) [Fal03], architecture fortement asynchrone pour la tolérance des pertes des connexions dans un réseau Ad Hoc mobile.
– Les reseaux opportunistes (OPPortunistic NETworks, OPPNET) [PPC06], évolution du concept de MANET qui permet à chaque nœud de pouvoir participer à la communication sans avoir connaissance de la topologie du réseau.
– Le reseaux AdHoc mobiles Mesh (Mobile Mesh Ad-Hoc Networking, MMAN) [Nag+05], réseau hybride qui utilise les propriétés des réseaux Ad Hoc conjointement aux infrastructures des réseaux fixes et mobiles traditionnels.
– Les reseaux Switches de poche (Pocket Switched Networks, PSN) [Hui+05], réseaux opportunistes basés sur l’utilisation des dispositifs “de poche”.
– Le reseaux sociaux basés sur la proximité (Proximity based Social Networking, PSN) [Dob14], communication à courte portée basée sur les réseaux sociaux des utilisateurs.
La différence dans les définitions des diverses architectures n’implique pas forcément des différences substantielles dans leur fonctionnement (interface). Certaines problématiques dans la mise en œuvre de ces systèmes sont donc partagés entre les différentes architectures. Dans la caractérisation des réseaux mobiles Ad Hoc et dans le développement des protocoles de communications dédiés à ces réseaux, il est fondamental de pouvoir simuler le comportement des nœuds dans différents contextes d’utilisation et de mobilité. À ce sujet, des scénarios de simulation peuvent être générés à partir des traces de mobilité synthétiques (i.e. issues des modèles de mobilité) ou à partir des traces de mobilité réelles (i.e. contenues dans des collections de données de mobilité capturées sur le terrain).
Collections de données de mobilité
Les données de mobilité sont de plus en plus utilisées dans de nombreuses disciplines, des sciences sociales à l’informatique théorique, en passant par l’épidémiologie [Sal+10] et l’informatique décisionnelle [Ant+12]. Il est possible de collecter des données de mobilité à partir de différentes situations (scénarios, contextes, cas réels) et par le biais de multiples dispositifs. Dans cette section nous allons expliciter comment certains jeux de données sont construits et comment ils sont utilisés dans la caractérisation des réseaux Ad Hoc [Cha+07b] et dans la quantification de leurs impacts sur la vie privée [BSM10].
Collecte des données
Depuis la massification de l’utilisation de dispositifs portables équipés avec différentes interfaces de communication, de plus en plus des données de mobilité ont été collectées afin de créer des collections exploitables pour des exigences distinctes. On peut classer deux catégories d’informations concernant les traces de mobilité :
1. Les informations de localisation, c’est-à-dire la succession des positions géographiques qui déterminent une trace de mobilité. Les positions seront relatives à un système de coordonnées prédéfini.
2. Les information de proximité de dispositif à dispositif, qui nous permettent d’avoir une information sur la position relative entre les utilisateurs des dispositifs concernés.
|
Table des matières
Introduction
1 État de l’art
État de l’art
1.1 Introduction aux réseaux Ad Hoc
1.2 Collections de données de mobilité
1.2.1 Collecte des données
1.2.2 Études sur les données
1.3 Modèles de mobilité
1.3.1 Mobilité individuelle
1.3.2 Mobilité de groupe
1.4 Impact des données sur la vie privée
1.5 Conclusion
2 Macro mesures
2.1 Expériences SOUK
2.1.1 La plate-forme
2.1.1.1 Système de captation
2.1.1.2 Collection logicielle
2.1.2 Les données
2.2 Analyse des traces réelles
2.2.1 Analyse préliminaire
2.2.2 Propriétés spatiales
2.2.2.1 Profils des vitesses
2.2.3 Caractérisation des états d’immobilité et de marche
2.2.4 Propriétés de la mobilité
2.2.5 Propriétés sociales
2.2.5.1 Modèles de lien
2.2.5.2 Analyse statique
2.2.5.3 Analyse dynamique
2.3 Paramétrisation des modèles
2.4 Comparaison
2.4.1 Propriétés spatiales
2.4.2 Propriétés sociales
2.4.3 Algorithme de diffusion
2.5 Conclusion
3 Algorithme LOCA
3.1 Contexte
3.2 Scénario d’attaque
3.3 Modèle et algorithme
3.3.1 Modèle du système
3.3.2 Algorithme de génération
3.4 Résultats expérimentaux
3.4.1 Traces de mobilité
3.4.1.1 Vérité de terrain
3.4.2 Stratégie d’attaque et évaluation
3.4.3 Cartographie virtuelle
3.4.4 Résultats
3.4.4.1 Inférence globale
3.4.4.2 Inférence locale
3.4.4.3 Conclusion
3.5 Contre mesures
4 Co-localisation implicite
4.1 Problématique
4.2 Modèle et inférence
4.2.1 Formalisation
4.2.2 Inférence
4.3 Évaluation expérimentale
4.3.1 Données
4.3.1.1 Manipulation
4.3.1.2 Profils de co-localisation
4.3.2 Résultats expérimentaux
4.4 Conclusion
Conclusion