(Il s’agit d’un article conjoint de Gunes Acar, Steve Englehardt et moi-même. Je suis heureux d’annoncer que Steve a récemment rejoint Mozilla en tant qu’ingénieur en matière de confidentialité alors qu’il termine son doctorat à Princeton. Il a co-écrit cet article dans son Capacité de Princeton, et ce message ne représente pas nécessairement le point de vue de Mozilla. — Arvind Narayanan.)

Datafinder, une société de marketing par e-mail, facture 0,04 $ pour récupérer une adresse e-mail à partir de son hachage.
Votre adresse e-mail est un excellent identifiant pour vous suivre sur tous les appareils, sites Web et applications. Même si vous supprimez les cookies, utilisez le mode de navigation privée ou changez d’appareil, votre adresse e-mail restera la même. Pour des raisons de confidentialité, les sociétés de suivi, notamment les réseaux publicitaires, les spécialistes du marketing et les courtiers en données, utilisent à la place le hachage de votre adresse e-mail, prétendant que les e-mails hachés sont « non personnellement identifiables », « complètement privés » et « anonymes ». Mais il s’agit d’un argument trompeur, car les adresses e-mail hachées peuvent être inversées pour récupérer les adresses e-mail d’origine. Dans cet article, nous expliquerons pourquoi et explorerons entreprises qui inversent les adresses e-mail hachées en tant que service.
Les hachages d’e-mails sont couramment utilisés pour faire correspondre les utilisateurs entre différents fournisseurs et bases de données. Par exemple, si vous fournissez votre adresse e-mail pour vous inscrire à une carte de fidélité dans un magasin physique, le magasin peut vous cibler avec des publicités sur Facebook en téléchargeant votre adresse e-mail hachée sur Facebook. Les courtiers en données comme Acxiom permettent à leurs clients de rechercher des données personnelles via des adresses e-mail hachées. Dans une étude antérieure, nous avons constaté que les sociétés de suivi des e-mails divulguaient des e-mails hachés aux courtiers en données.
Comment fonctionnent les fonctions de hachage
Les fonctions de hachage prennent des données de longueur arbitraire et les convertissent en une chaîne aléatoire de longueur fixe. Par exemple, le hachage MD5 de est b58996c504c5638798eb6b511e6f49af
. Le hachage est couramment utilisé pour garantir l’intégrité des données, mais il existe de nombreuses autres utilisations.
Les fonctions de hachage telles que MD5 et SHA256 ont deux propriétés importantes qui sont pertinentes pour notre discussion : 1) la même entrée produit toujours la même sortie (déterministe); 2) étant donné une sortie de hachage, il est impossible de récupérer l’entrée (non réversible). La propriété de déterminisme permet à différents trackers d’obtenir le même hachage en fonction de votre adresse e-mail et de faire correspondre vos activités sur des sites Web, des appareils, des plates-formes ou des domaines en ligne et hors ligne.
Cependant, pour que le hachage soit non inversible, le nombre d’entrées possibles doit être si grand et imprévisible que toutes les combinaisons possibles ne peuvent pas être tentées. Par exemple, dans un article de blog de 2012, Ed Felten, alors technologue en chef de la FTC, affirmait que le hachage de tous les SSN possibles prendrait « moins de temps qu’il n’en faut pour prendre une tasse de café ».
Le grand nombre d’adresses e-mail possibles rend impossible une itération naïve sur toutes les combinaisons possibles. Cependant, le nombre d’adresses e-mail existantes est bien inférieur au nombre d’adresses e-mail possibles : une estimation récente estime le nombre total d’adresses e-mail à environ 5 milliards. Cela peut paraître beaucoup, mais le hachage est une opération extrêmement rapide ; si rapide que l’on peut calculer 450 milliards de hachages MD5 par seconde sur une seule machine Amazon EC2 pour un coût de 0,0069 $ (1). Cela signifie Le hachage des cinq milliards d’adresses e-mail existantes prendrait environ dix millisecondes et coûterait moins d’un centième de centime.
Les listes d’adresses e-mail sont largement disponibles
Une fois qu’une adresse e-mail est connue, elle peut être hachée et comparée à des adresses e-mail hachées soi-disant « anonymes ». Cela peut être fait par des sociétés de marketing ou de publicité qui utilisent des adresses e-mail hachées comme identifiants, ou par des pirates informatiques qui acquièrent des adresses hachées par d’autres moyens. En effet, il existe plusieurs options pour obtenir des adresses email :
-
- Violations de données : Grâce à un flux constant de violations de données, des centaines de millions d’adresses e-mail provenant de fuites existantes sont accessibles au public. HaveIBeenPwned, un service qui permet aux utilisateurs de vérifier si leurs comptes ont été piratés, a observé plus de 4,9 milliards de comptes piratés. Vous souhaitez vérifier si votre adresse e-mail est vulnérable à cette attaque ? Utilisez HaveIBeenPwned pour déterminer si l’une de vos adresses e-mail a été divulguée lors d’une violation de données. Si tel était le cas, un attaquant pourrait utiliser les données d’une violation pour récupérer vos adresses e-mail à partir de leurs hachages (2).
- Listes de diffusion marketing: Des listes de diffusion contenant des millions d’adresses sont disponibles pour l’achat en gros et sont souvent étiquetées avec des catégories invasives pour la vie privée telles que l’affiliation religieuse, les problèmes de santé ou les dépendances, notamment « sous-bancarisés », « en difficulté financière », « joueurs », « personnes souffrant d’hypertension artérielle à Tallahassee. , Floride », « Conservateurs chrétiens anti-charia », « Muslim Prime Prospects ». En outre, il existe des sites Web qui partagent facilement des listes massives d’adresses e-mail.
Les adresses e-mail des listes de diffusion marketing peuvent également être utilisées pour inverser les e-mails hachés.
- Récolte d’adresses e-mail à partir de sites Web, de moteurs de recherche et de serveurs de clés PGP : Il existe un certain nombre de solutions logicielles disponibles pour extraire des adresses e-mail en masse à partir de sites Web, de moteurs de recherche et de serveurs de clés publiques PGP.
- Deviner les adresses e-mail : Les adresses e-mail peuvent également être générées de manière synthétique en utilisant des noms et des modèles courants tels que . Des études antérieures ont atteint des taux de récupération compris entre 42 % et 70 % en utilisant des heuristiques simples et des ressources limitées (3). Nous pensons que cela peut être considérablement amélioré en utilisant des réseaux de neurones pour générer des adresses e-mail plausibles.
Les entreprises inversent les hachages d’e-mails en tant que service
Les méthodes de récupération de hachage répertoriées ci-dessus nécessitent des compétences techniques très basiques. Cependant, même cela n’est pas nécessaire pour inverser les données hachées, car plusieurs entreprises inversent les hachages d’e-mails en tant que service.
Datafinder – Hachages d’e-mails inversés pour 0,04 $ par e-mail: Datafinder, une société qui combine les données des consommateurs en ligne et hors ligne, facture 0,04 $ par e-mail pour inverser les adresses e-mail hachées. La société promet un taux de récupération de 70 % et, moyennant des frais minimes, fournira des informations supplémentaires avec l’e-mail inversé, notamment : le nom, l’adresse, la ville, l’état, le code postal et le numéro de téléphone. Datafinder est accrédité par le Better Business Bureau avec une note A+ et compte parmi ses clients T-Mobile.

En plus d’inverser les adresses e-mail hachées, Datafinder fournit également des informations personnelles, notamment le nom, l’adresse et le numéro de téléphone associés à une adresse e-mail.
Infutor – « décodage » d’e-mails hachés inférieurs à 500 millisecondes.: Infutor, une société de gestion de l’identité des consommateurs déclare «(a) des données hachées anonymes peuvent être mises en correspondance avec une base de données d’informations hachées connues pour fournir des informations de contact, des informations et des informations démographiques aux consommateurs.». Dans une étude de cas, l’entreprise affirme avoir inversé près de 3 millions d’adresses e-mail. Dans un autre cas, Infutor a mis en place un service en ligne en temps quasi réel pour inverser les e-mails hachés pour une entreprise européenne, qui «est capable d’extraire un e-mail haché de la visite du site Web». Infotutor se vante de pouvoir répondre aux exigences de temps de réponse inférieur à 500 millisecondes de son client pour inverser un hachage donné.
The Leads Warehouse – « Nous avons déchiffré le code »: The Leads Warehouse affirme que «(ils) récupérer tous vos e-mails hachés MD5 » rapidement, en toute sécurité et à moindre coût grâce à leur service au nom bizarre « Chiffrement inversé MD5». Leur site Web indique « (en) fait, (les e-mails hachés sont) conçus pour être impénétrables et irréversibles. Ne vous inquiétez pas, cependant, nous avons déchiffré le code.» Leads Warehouse vend également des pistes par téléphone et par courrier, notamment des listes d’apnée du sommeil, de pistes en fauteuil roulant et de prêts étudiants. Pour leurs listes de diffusion sur les maladies et les diabétiques, ils affirment disposer d’« options de filtrage incroyables », notamment durée de la maladie, âge, origine ethnique, coût de la vie/frais d’hospitalisation.
Les adresses e-mail hachées sont-elles des données « pseudonymes » au sens du RGPD ?
En réponse à notre précédent article de blog sur les abus du gestionnaire de connexion, un responsable d’une entreprise européenne a affirmé que les adresses e-mail hachées sont «identifiant(s) pseudonyme(s) » et sont « conforme à la réglementation.» Le prochain règlement général sur la protection des données (RGPD) de l’UE reconnaît en effet la pseudonymisation comme une mesure de sécurité (4) et la considère comme un élément de certaines obligations (5). Mais le hachage d’e-mails peut-il vraiment être classé comme pseudonymisation au sens du RGPD ?
Le RGPD définit la pseudonymisation comme :
« le traitement des données personnelles de telle manière que les données personnelles ne puissent plus être attribuées à une personne concernée spécifique sans l’utilisation d’informations supplémentaires, à condition que ces informations supplémentaires soient conservées séparément et soient soumises à des mesures techniques et organisationnelles pour garantir que les données personnelles ne sont pas attribuées à une personne physique identifiée ou identifiable ; » (6)
Par exemple, si les adresses e-mail étaient cryptées et la clé stockée séparément avec des protections supplémentaires, les données cryptées pourraient être considérées comme pseudonymisées selon cette définition. En cas de violation des données, l’adversaire ne pourrait pas récupérer les adresses e-mail sans la clé.
Cependant, le hachage ne nécessite pas de clé. Les informations supplémentaires nécessaires pour inverser les adresses e-mail hachées (listes d’adresses e-mail ou algorithmes qui devinent les adresses e-mail plausibles) peuvent être obtenues de plusieurs manières, comme nous l’avons décrit ci-dessus. Aucune de ces méthodes ne nécessite des informations supplémentaires « est conservé séparément et est soumis à des mesures techniques et organisationnelles ». Par conséquent, nous soutenons que le hachage d’e-mails ne relève pas de la définition de la pseudonymisation du RGPD.
Conclusion
Les adresses e-mail hachées peuvent être facilement inversées et liées à un individu, elles n’offrent donc aucune protection significative aux personnes concernées. L’existence d’entreprises qui inversent le hachage des e-mails montre que qualifier les adresses e-mail hachées d’« anonymes », « privées », « irréversibles » ou « anonymisées » est trompeur et favorise un faux sentiment de confidentialité. Si l’annulation des hachages d’e-mails était vraiment impossible comme on le prétend, cela coûterait plus de 4 centimes.
Même si les adresses e-mail hachées n’étaient pas réversibles, elles pourraient toujours être utilisées pour faire correspondre, acheter et vendre vos données entre différentes parties, plateformes ou appareils. Comme l’ont déjà soutenu les spécialistes de la protection de la vie privée, lorsque votre profil en ligne peut être utilisé pour vous cibler, vous affecter et vous manipuler, garder votre vrai nom ou votre adresse e-mail privée n’a peut-être pas autant d’importance (7).
Remerciements: Nous remercions Brendan Van Alsenoy pour ses commentaires utiles.
Notes de fin :
(1) : le prix horaire pour l’instance Amazon EC2 p3.16xlarge est de 24,48 $ (en mars 2018).
(2) : HaveIBeenPwned ne partage pas les données issues des violations, mais les ensembles de données divulgués peuvent être trouvés sur des forums clandestins, des torrents et des sites de partage de fichiers.
(3) : Voir également Demir et al. Les pièges du hachage pour la confidentialité.
(4) : Article 32 du RGPD.
(5) : article 6, paragraphe 4, point e), article 25, article 89, paragraphe 1, du RGPD.
(6) : Article 4, paragraphe 5, du RGPD.
(7) : Voir, par exemple, « La fin du Big Data autour de l’anonymat et du consentement » (Barocas et Nissenbaum, 2014) et « Singuliser les personnes sans connaître leur nom – ciblage comportemental, données pseudonymes et nouveau règlement sur la protection des données » ( Zuiderveen Borgesius, 2016).