Traitements sécurisés de données compressées

Les avancées technologiques notamment en ce qui concerne la miniaturisation électronique ont permis l’acquisition toujours plus importante de données. Le stockage du volume important de données numériques ainsi créé a un coût important. En effet, ce dernier nécessite une infrastructure informatique adaptée. Une solution pour diminuer ces coûts consiste à mutualiser les données vers un cloud. Cette mutualisation a également d’autres avantages. Pour commencer, cette masse importante de données peut faire l’objet d’un traitement automatisé (e.g. machine learning), ainsi que d’analyse de type « Big data ». Elle permet également à différents acteurs de pouvoir accéder à ces informations à distance. Plus spécifiquement, dans le domaine médical, cela facilite la prise en charge du patient. Toujours dans le domaine médical, les Implantable Medical Devices (IMD) sont apparus grâce à ces mêmes avancées technologiques. Ces appareils permettent de fournir au patient une meilleure prise en charge. Certains d’entre eux sont dotés de capteurs ayant la capacité d’acquérir des mesures biologiques. Ces données peuvent être traitées à l’aide d’algorithmes automatisés afin de mieux suivre l’état d’un patient. Dans le même temps, il est important de noter que les données externalisées, et encore plus particulièrement celles de santé, sont des données personnelles. Or, pour l’utilisateur, une fois que ses données sont sur le cloud, il en perd le contrôle. Il est alors impératif d’en assurer la sécurité (e.g. chiffrement, tatouage). De plus, cette injonction est dictée par plusieurs réglementations nationales et internationales (e.g. RGPD). La sécurisation des données passe par assurer ou garantir leur : confidentialité, authenticité, intégrité et traçabilité. Dans un tel contexte, un premier enjeu est de définir des approches permettant de traiter de façon sécurisée les données externalisées (e.g. cryptosystèmes homomorphes). L’idée étant par exemple de pouvoir permettre à un tiers, e.g. le cloud, de traiter les données sans les déchiffrer et de retourner à l’utilisateur le résultat du traitement toujours sous forme chiffrée. À cet objectif, vient se rajouter dans le domaine de la santé une autre problématique : la compression de données. En effet, prenons pour exemple les IMD, ceux-ci sont des appareils fortement contraints en ce qui concerne leur puissance de calcul, de stockage, … Il est alors impératif de diminuer autant que possible les coûts de communications. L’imagerie médicale en est un autre exemple. Chaque année un hôpital produit des téraoctets de données d’imagerie. Plus précisément, ces données sont généralement stockées et transmises sous formes compressées afin d’en diminuer les coûts. Aujourd’hui, dans la majorité des cas, les traitements s’effectuent sur des données non compressées et impliquent des temps de calculs liés aux processus de décompression. Il y a donc un intérêt à pouvoir traiter les données sous une forme compacte. Ces enjeux sont au cœur de ces travaux de thèse qui visent à concilier la compression de données avec leur traitement tout en assurant leur sécurité.

Caractérisation des données de santé et réglementation

Avant de parler de données concernant la santé, il nous semble important d’aborder le concept de données à caractère personnel. Ce dernier, tel que définit par le parlement et le conseil de l’Union européenne [Con16] fait référence à : « toute information se rapportant à une personne physique identifiée ou identifiable ». Le parlement et le conseil considèrent alors une personne physique identifiable comme: « une personne physique qui peut être identifiée, directement ou indirectement, notamment par référence à un identifiant, tel qu’un nom, un numéro d’identification, des données de localisation, un identifiant en ligne, ou à un ou plusieurs éléments spécifiques propres à son identité physique, physiologique, génétique, psychique, économique, culturelle ou sociale ». On constate alors que ces caractéristiques sont vastes. On peut, d’une part, imaginer qu’une adresse et un âge sont suffisants pour parvenir à identifier une personne. D’autre part, une couleur de cheveux peut être une information personnelle. Pour revenir à notre sujet, l’Europe considère comme données de santé toute : « données à caractère personnel relatives à la santé physique ou mentale d’une personne physique, y compris la prestation de services de soins de santé, qui révèlent des informations sur l’état de santé de cette personne». On peut citer des exemples tels que des résultats d’analyse biologique ou encore des antécédents médicaux. D’autres exemples sont présents sur le site de la Commission Nationale de l’Informatique et des Libertés (CNIL) [Lib]. Cette définition de données n’est pas universelle. Par exemple aux États-Unis le Code of Federal Regulations (CFR) 45 CFR 164.501 définit une information médicale comme toute information, incluant les informations orales ou bien enregistrées sur un quelconque support qui :

1. Est créé ou reçu par un prestataire de santé, une autorité de santé publique, un employeur, un assureur-vie, une école ou université, ou un centre d’échange de soins de santé.
2. Rend compte de l’état passé, présent ou futur du physique ou du mental d’un individu ; des prestations de santé d’un individu ; ou du paiement passé, présent ou futur d’une prestation de soin d’un individu.

Spécification des données médicales

Comme nous venons de le voir, la nature des données médicales ainsi que leur provenance est très diverse. Or, ces informations sont sensibles. D’une part, elles influencent le traitement administré au patient et d’autre part elle doivent rester confidentielles afin de préserver sa vie privée. Au-delà de ces premières définitions, Dusserre dans [DDA96] propose plusieurs qualités dont doit faire preuve une donnée médicale afin d’être considérée comme valide : l’accessibilité, l’actualité, l’exhaustivité, la fiabilité, la finesse de jugement, la pertinence et la précision. Ainsi, la sécurisation des données va chercher à aider à fiabiliser la donnée, mais également à assurer la protection de la vie privée du patient.

Il est également intéressant de voir qu’il pèse sur les données médicales des risques similaires à ceux présent dans d’autres domaines. En effet, les données médicales sont, elles aussi, soumises à des problèmes dont la cause peut être accidentelle, consécutive à une négligence ou malveillance. De plus, ces différentes causes peuvent être matérielles, techniques, humaines, … [Bou13].

En plus de ces différents points, on peut noter que les données médicales ne sont pas créées, éditées ou encore consultées par n’importe quelle personne du corps médical. En effet, seuls les laboratoires peuvent proposer des résultats d’analyses, seul un médecin pourra fournir une ordonnance, … Il en va de même pour certains résultats issus d’images médicales, tels que scanner, IRM (Imagerie par Résonance Magnétique), ou échographie, seul un spécialiste pourra éditer ces images afin de mettre en évidence une fracture, une tumeur, le sexe de l’enfant,… Enfin comme nous le verrons par la suite l’accès aux informations sera, lui aussi encadré. Afin de comprendre plus concrètement les raisons qui ont poussé les institutions à adopter des lois encadrant l’usage des données médicales, regardons les menaces qui pèsent sur ces dernières. De plus, nous allons aussi aborder les conséquences qu’adviendraient si les données passaient entre des mains mal intentionnées.

Les risques accompagnant ces informations

On peut se poser la question de pourquoi les informations médicales doivent être protégées ? Ce sont des données sensibles à plusieurs titres. Elles participent au soin des patients, bien sûr elles ne doivent pas être modifiées sous peine de nuire à la santé du patient [Rat+17] et sont confidentielles. Par exemple, elles peuvent être source de discrimination comme dans les situations suivantes :
— Un employeur pourrait préférer entre deux personnes aux qualifications et expériences équivalentes celle ne possédant pas d’antécédents médicaux, et ce, malgré le fait que la maladie ait été guérie ou qu’elle n’influence pas la disponibilité ou l’efficacité de l’employé.
— Une compagnie d’assurance pourrait faire fluctuer les cotisations en fonction des informations médicales des clients dont elle dispose.
— Lors d’une élection, le passé médical d’un candidat pourrait influencer négativement l’électorat. On peut citer l’exemple de Nydia Velazquez [Etz00] qui durant sa campagne de 1992 a vu sa tentative de suicide exposée au grand public.

De plus, comme toutes informations personnelles, ces dernières peuvent servir à faire de la publicité ciblée, précisant encore plus le profil d’une personne. Ici, nous pouvons voir comment les informations médicales peuvent influencer la vie d’une personne voire même jouer un rôle politique. Cependant, certaines informations médicales peuvent avoir une influence plus vaste. En effet, les résultats d’un test génétique n’engagent pas seulement la personne l’ayant fait. Par exemple, certaines maladies pour lesquelles des prédispositions génétiques existent pourraient être détectées par de tels tests. En conséquence de quoi, tous les membres d’une famille pourraient être impactées.

Pour toutes ces raisons, les acteurs de la santé pourraient tirer un net avantage financier en partageant les données médicales au détriment des patients. C’est pour cela que les données doivent être sécurisées. Des lois viennent alors encadrer les dérives associées à l’usage de ces données. Ainsi l’article L1110-4-V du code de la santé publique indique que : « Le fait d’obtenir ou de tenter d’obtenir la communication de ces informations en violation du présent article est puni d’un an d’emprisonnement et de 15 000 euros d’amende. » Plus généralement l’article 226-16 dicte que : « Le fait, y compris par négligence, de procéder ou de faire procéder à des traitements de données à caractère personnel sans qu’aient été respectées les formalités préalables à leur mise en œuvre prévues par la loi est puni de cinq ans d’emprisonnement et de 300 000 euros d’amende. » Les articles 226-21 et 226-22 complètent les répressions associées aux usages malveillants de ces données.

Les implants médicaux connectés

Les Implantable Medical Devices (IMD) sont des dispositifs médicaux qui sont implantés dans le corps humain. Ils servent à contrôler l’état de santé d’une personne, mais permettent aussi d’administrer un traitement. Différents types d’IMD , on peut citer :
— Les stimulateurs cardiaques plus connus sous le nom de pacemaker [MP11].
— Les systèmes de délivrance des médicaments [PSD06] ou Drug Delivery Systems. Ces derniers peuvent par exemple fournir un traitement pour lutter contre le cancer [KP18], ou encore aider à contrôler le taux de glycémie [WAS03].
— Les neurostimulateurs [Kra02] peuvent par exemple effectuer une électroencéphalographie lors de phase d’épilepsie [Sal+12], qui une fois couplés à un système de délivrance de médicament, permettent de contrôler la crise.

Les IMD sont des appareils relativement récents. Le premier pacemaker à avoir été implanté à l’intérieur du corps humain date de 1958 [Lar+03]. Ces appareils étaient relativement imposants : 52.5 mm de diamètre pour 17.5 mm de largeur pour un poids total de 64.3 g [Fia88]. Depuis, ces matériels ont profité des innovations technologiques comme la miniaturisation des composants électroniques ainsi que l’augmentation de la capacité de stockage des batteries [GH91]. De nos jours, ils profitent également de fonctions sans fil [Jou13] permettant de transférer des données, voire de reprogrammer l’appareil [HD13]. Plus généralement, les IMD font partis du réseau sans fil corporel (ou Wireless Body Area Networks, noté WBANs) qui regroupe en plus des IMD, des appareils à l’extérieur du corps humain. Par exemple, ils permettent d’enregistrer un électroencéphalogramme [Lat+11] ou encore permettent d’effectuer diverses mesures : battements cardiaques ou température [Rus+14]. Ces entités font elles-mêmes partie du monde encore plus grand de l’internet des objets (ou IoT pour Internet of things) qui regroupe des milliards d’appareils [Gub+13] connectés au travers d’internet.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
1 Sécurisation et traitement de données médicales compressées
1.1 Caractérisation des données de santé et réglementation
1.1.1 Spécification des données médicales
1.1.2 Les risques accompagnant ces informations
1.1.3 Les implants médicaux connectés
1.1.4 Obligations de sécurisation
1.1.5 Externalisation et réutilisation
1.2 Traitement automatisé et aide à la décision
1.2.1 Objectifs du traitement automatisé de données
1.2.2 Les traitements de type linéaire avec seuillage
1.2.3 Les avancées du machine learning
1.3 Sécurisation des traitements de données
1.3.1 Chiffrements rapides et peu coûteux
1.3.2 Traitements sur données chiffrées
1.4 Optimisation du stockage et transfert des données
1.4.1 Compression optimale de Huffman
1.4.2 JPEG – un standard de compression pour les images
1.4.3 Compression et chiffrement de données
1.5 Conclusion
2 Traitement de données concaténées chiffrées
2.1 Outils de sécurisation et de traitement de données
2.1.1 Traitement sécurisé au travers du chiffrement additivement homomorphe
2.1.1.1 Définitions et premières propositions
2.1.1.2 Cryptosystème de Damgård–Jurik
2.1.2 Algorithmes rapides et peu coûteux assurant la sécurité
2.1.2.1 Chiffrement par flot CLCG
2.1.3 Conversion de chiffrement par flot et additivement homomorphe
2.1.3.1 Chiffrement par flot CLCG dans le domaine homomorphe
2.1.3.2 Système de conversion de chiffré
2.1.4 Attentes de la concaténation de données
2.1.4.1 Concaténation et conséquences sur les opérations homomorphes
2.1.4.2 Extraction des données
2.1.5 Assurer l’intégrité des données avec le tatouage
2.2 Sécurisation des communications et des traitements d’un implant connecté
2.2.1 Cas d’usage Followknee et rappel des hypothèses de sécurité
2.2.2 Le protocole de sécurisation et traitement complet
2.2.2.1 Protocole sécurisé sans concaténation
2.2.3 Protocole sécurisé avec concaténation
2.2.4 Une variante au scénario Followknee
2.3 Analyse de complexité et résultats expérimentaux
2.3.1 Complexité du système de traitement sécurisé
2.3.2 Résultats expérimentaux
2.4 Analyse de sécurité
2.4.1 Correctness
2.4.2 Privacy
2.4.3 La sécurité du CLCG
2.4.4 Cas d’une IHM malicieuse
2.5 Conclusion
3 Traitements de données compressées – Apprentissage automatique sur des images compressées
3.1 L’apprentissage automatique par réseaux de neurones
3.1.1 Principes élémentaires des réseaux de neurones
3.1.2 Les avancées proposées par les réseaux convolutifs
3.1.3 Apprentissage pour les algorithmes de machine learning
3.2 JPEG : le standard de compression d’images
3.2.1 Les bases de données partiellement décompressées
3.3 Résultats expérimentaux
3.3.1 Le choix des banques de données
3.3.2 Les architectures NN
3.3.2.1 Modèle avec une seule couche cachée
3.3.2.2 Modèle à deux couches cachées
3.3.3 Les architectures CNN
3.3.3.1 Modèle d’Ulicny et Dahyot
3.3.3.2 Modèle de Keras
3.3.4 Discussion des résultats obtenus
3.4 Conclusion
Conclusion

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *