Sécurité de données biométriques
Les données biométriques sont sensibles de par leur possibilité d’identification et leur caractère permanent. C’est pourquoi les captures de modalités biométriques et les vecteurs de caractéristiques ne sont pas stockés et utilisés sous ces formes. Une compromission du stockage impliquerait un vol irréparable de ces données que l’on ne peut ni révoquer ni remplacer. Cette section aborde l’impact du mode de stockage, puis décrit les protections de données biométriques existantes avec les propriétés qu’elles doivent apporter. Un nouveau schéma biométrique est proposé ainsi qu’une formalisation des projections.
Stockage centralisé ou décentralisé
Le lieu de stockage de ces données biométriques influe fortement sur l’impact potentiel d’une compromission. S’il s’agit du stockage local sur un téléphone ou une carte d’accès contenant uniquement les données biométriques de son propriétaire, l’impact n’est pas le même que celui de la compromission d’un centre de stockage centralisé de données biométriques. Un tel centre peut contenir toutes les données biométriques des employés d’une entreprise, et dans un cas plus large les données biométriques des citoyens d’un pays.
Un système d’authentification permet que la donnée biométrique soit conservée par l’individu qui la porte, alors qu’un système d’identification implique une base de données biométriques centralisée et stockée par un tiers.
Protection des données stockées
La protection des données stockées est importante, pour minimiser l’impact d’une compromission du stockage. Dans le cadre des mots de passe, ils sont généralement stockés sous une forme transformée par une fonction de hachage. Les fonctions de hachage protègent d’une inversion grâce à différentes propriétés, comme l’utilisation d’un sel pour éviter les tables de hachage, une utilisation importante de temps de processeur et de taille de mémoire nécessaire pour éviter les attaques par force brute. Un mot de passe est confirmé uniquement si celui saisi est exactement le même que celui enregistré. Dans le cadre des données biométriques, cette propriété n’existe pas : deux captures successives d’une même modalité biométrique avec le même capteur ne produiront pas les mêmes captures ni les mêmes vecteurs de caractéristiques. [Ratha et al., 2001b] mettent en avant les implications sur la vie privée de la biométrie et proposent la distorsion volontaire de ces données pour limiter ces impacts.
Les cryptosystèmes biométriques, introduits par [Davida et al., 1998], ne sont pas étudiés dans ce manuscrit. [Jain et al., 2008] les divisent en deux catégories : les fuzzy commitment introduits par [Juels and Wattenberg, 1999] et les fuzzy vaults introduits par [Juels and Sudan, 2006]. Nous orientons le lecteur vers les revues [Rathgeb and Uhl, 2011] [Sadhya et al., 2016] pour plus de détails. Les transformations perturbent ou projettent un vecteur. La projection peut être paramétrée par une graine, ce qui facilite la propriété de révocabilité : on supprime la projection corrompue, et on en calcule une nouvelle avec une autre graine. Les méthodes de projection sont différentes du hachage généralement connu, pour les mots de passe ou le calcul d’empreintes numériques. Dans ce cas général, on souhaite qu’une petite différence dans la donnée à hacher engendre un haché complètement différent. Pour être utilisable dans un cadre d’identification biométrique, il faut que deux vecteurs de caractéristiques proches engendrent deux projections proches afin de pouvoir évaluer la distance qui sépare les vecteurs dans cet espace transformé.
Dans nos travaux, nous nous intéressons à des schémas biométriques révocables utilisables avec un comparateur générique et basés sur des caractéristiques, comme les permutations et le biohashing. En effet, un algorithme de biométrie révocable prenant en entrée un vecteur de caractéristiques nous permet d’utiliser n’importe quelle modalité biométrique tant qu’on a un algorithme d’extraction permettant d’en obtenir un vecteur de caractéristiques.
Ces transformations ont été introduites par [Ratha et al., 2001b]. Les transformations biométriques révocables sont généralement basées sur le hachage localement sensible [Charikar, 2002, Andoni and Indyk, 2006, Wang et al., 2018]. Celles basées sur une projection aléatoire paramétrée avec un jeton, éventuellement suivie d’une étape de binarisation, ont été introduites par [Teoh et al., 2004, Teoh et al., 2008] avec l’algorithme du biohashing. D’autres projections ont ensuite été proposées [Feng et al., 2010, Pillai et al., 2011, Wang and Plataniotis, 2010].
Données biométriques utilisées
Dans le cadre de nos expériences, nous validons nos hypothèses à l’aide de bases de données biométriques issues de captures de modalités réelles. Nous présentons dans les sous-sections ci-dessous les différentes bases de captures de modalités utilisées, les modalités capturées, l’algorithme d’extraction de vecteurs de caractéristiques depuis la modalité, et les performances de la base de données biométriques construites. Nous donnons aussi les performances des bases de données biométriques révocables construites depuis ces bases de données biométriques avec comme transformation le biohashing 4 paramétrée par des graines de 128 bits.
Les performances des bases de données biométriques et des bases de données biométriques révocables sont représentées de deux manières. La première manière est sous la forme de courbes FMR et FNMR. Dans ces figures, l’abscisse correspond au seuil (en termes de distance) et l’ordonnée correspond au taux (en termes de pourcentages de fausses acceptations ou de faux rejets donnés entre 0 et 1). L’EER correspond à l’ordonnée du point de croisement de ces deux courbes, et le taux τ@EER à son abscisse. La seconde manière est sous la forme de nuages de points, représentant la distance intraclasse et la distance interclasse. L’abscisse correspond à un individu, l’ordonnée à la distance, euclidienne pour les bases de données biométriques, de hamming pour les bases de données biométriques révocables. Un point bleu correspond à la distance entre deux vecteurs de caractéristiques (ou gabarits) du même individu (en abscisse), représentant la distance intraclasse. Un point rouge correspond à la distance entre un vecteur de caractéristiques (ou gabarit) de l’individu en abscisse et un vecteur de caractéristiques (ou gabarit) d’un autre individu, représentant la distance interclasse.
Empreintes digitales : FVC2002
La base d’empreintes digitales FVC2002 DB2 [Maio et al., 2002] contient t = 8 images d’empreintes digitales de n = 100 personnes. Les vecteurs de caractéristiques ont été extraits des images avec des filtres de Gabor [Belguechi et al., 2016]. Chaque vecteur de caractéristiques est composé de N = 512 valeurs réelles. L’EER de la base de données biométriques est d’environ 10% avec un seuil τA = 240.7. La base de données biométriques révocables a un EER d’environ 16.5% avec un seuil τB = 17.
Visages : LFW
La base de visages LFW [Huang et al., 2008] utilisée dans les expériences de [Dong et al., 2019b], contient t = 10 vecteurs de caractéristiques de n = 158 personnes obtenues depuis leurs photos de visage. La base des données biométriques est issue de [Dong et al., , Dong et al., 2019c] depuis [Jin, ]. Dans ce manuscrit, on note aussi cette base complète LFW10. Nous avons extrait une sous-base, noté LFW8, utilisant les 8 premiers vecteurs de caractéristiques des 100 premières personnes pour comparer avec la base FVC2002. Les vecteurs de caractéristiques ont été obtenus depuis les images de visage grâce au réseau profond InsightFace [Deng et al., 2019]. Chaque vecteur de caractéristiques est composé de n = 512 valeurs réelles. L’EER de cette base de données biométriques est 0.2% avec un seuil τA = 1.227. La base de données biométriques révocables a un EER d’environ 1.9% avec un seuil τB = 51.
Électrocardiogramme : PTB
La base d’ECG PTB [Bousseljot et al., 1995, Goldberger et al., 2000] est composée d’un nombre variable de données biométriques issues de 290 personnes. Nous utilisons les t = 7 premières captures des n = 158 dernières personnes de la base.
Les vecteurs de caractéristiques sont extraits par délimitation des ondes ECG telle que proposée par [Martínez et al., 2004] en utilisant la librairie python NeuroKit2 [Makowski et al., 2021]. Chaque vecteur de caractéristiques est composé de n = 990 valeurs réelles. Un battement de cœur est capturé par plusieurs électrodes appliquées sur la peau. Ces différentes électrodes nous permettent d’enregistrer plusieurs signaux d’un même battement, dans notre cas il y a 15 signaux enregistrés en parallèle. On découpe pour chaque signal chaque battement en détectant le début, le pic, et la fin de chaque vague : P, Q, R, S, et T.
|
Table des matières
1 Introduction
1.1 Contexte
1.2 La biométrie
1.3 Sécurité biométrique
1.4 Contributions
1.5 Perspectives
2 État de l’art et définitions
2.1 La biométrie
2.1.1 Différentes modalités biométriques
2.1.2 Utilisation de la biométrie
2.1.3 Sensibilité des données biométriques
2.2 Base de données biométriques
2.2.1 Les captures de modalités biométriques
2.2.2 Extraction de caractéristiques
2.2.3 Comparaison de caractéristiques
2.3 Système biométrique
2.3.1 Schéma d’identification biométrique
2.3.2 Performance du schéma d’identification
2.4 Sécurité de données biométriques
2.4.1 Stockage centralisé ou décentralisé
2.4.2 Protection des données stockées
2.4.3 Schéma d’identification avec transformation
2.4.4 Projection
2.5 Données biométriques utilisées
2.5.1 Empreintes digitales : FVC2002
2.5.2 Visages : LFW
2.5.3 Électrocardiogramme : PTB
2.5.4 Interprétations
2.6 Individus à fort potentiel d’usurpation
2.6.1 Classification
2.6.2 Dans les bases utilisées
2.7 Algorithme génétique
2.8 Méthode d’escalade
2.9 Attaques existantes sur les transformations
2.9.1 Fuites d’informations depuis les gabarits
2.9.2 Différentes méthodes d’attaques
2.9.3 Attaques avec algorithmes génétiques
2.10 Conclusion
3 Préimage proche et réutilisable
3.1 Introduction
3.2 Préimage
3.2.1 … proche
3.2.2 … et réutilisable
3.3 Comparaison avec d’autres algorithmes
3.3.1 Choix parmi l’existant
3.3.2 Construction aléatoire
3.3.3 Construction par escalade
3.4 Construction de préimage avec un algorithme génétique
3.4.1 Fonction d’évaluation
3.4.2 Taille de la population et nombre d’itérations
3.4.3 Étape de sélection
3.4.4 Étape de mutation
3.4.5 Étape de croisement
3.4.6 Paramètres optimaux
3.5 Variantes de choix de gabarits
3.6 Préimage universelle
3.6.1 Passe-partout
3.6.2 Construction d’un passe-partout pour une base de données biométriques révocables
3.6.3 Cas d’usage
3.7 Conclusion
4 Passe-partout biométrique
4.1 Introduction
4.2 Transformations utilisées
4.2.1 Lemme de Johnson-Lindenstauss
4.2.2 Projections proposées par Achlioptas
4.2.3 Gain de performance sur le coût de génération des matrices
4.2.4 Analyse de ces projections
4.3 Passe-partout : construction d’une base de données biométriques révocables
4.3.1 Recherche de graines pour un vecteur de caractéristiques
4.3.2 Résultats des expériences
4.4 Complexité des deux scénarios
4.5 Extension à un individu passe-partout
4.5.1 Recherche de graines pour un ensemble de vecteurs de caractéristiques
4.5.2 Résultats des expériences pour l’ensemble de recherche et pour l’ensemble de test
4.5.3 Corrélation entre ces ensembles
4.6 Cas d’usage
4.7 Conclusion
5 Perspectives
5.1 Introduction
5.2 Passe-partout réutilisable
5.2.1 Contexte
5.2.2 Résultats
5.2.3 Conclusion
5.3 Passe-partout sur d’autres bases
5.3.1 Base multimodale
5.3.2 Base issue d’oreilles
5.3.3 Conclusion
5.4 Conclusion et perspectives
5.4.1 Préimage proche et réutilisable
5.4.2 Construction d’un passe-partout pour une base de données biométriques révocables
5.4.3 Construction d’une base de données biométriques révocables pour un passe-partout
5.4.4 Perspectives communes
6 Conclusion