Les données numériques «anonymisées» peuvent être facilement identifiées, selon une étude

Les données numériques «anonymisées» peuvent être facilement identifiées, selon une étude

Qu’elles soient biométriques, personnelles ou médicales, rendre anonymes les données d’identification des internautes ne servirait à rien. Une récente étude américaine et européenne démontre que tous les systèmes qui ont été mis en place pour protéger notre vie privée numérique sont facilement contournables et permettent de ré-identifier les utilisateurs.

Sale temps pour le Règlement général de la protection des données (RGPD) européen, qui, en principe encadre strictement l’usage, la vente ou le transfert de nos données personnelles vers des sociétés commerciales ou des agences publicitaires en ligne. Celles concernant l’état de santé sont systématiquement « anonymisées » avant de pouvoir être partagées ou vendues à des tiers.

Ce traitement informatique des données de santé, rendu obligatoire par la législation européenne, consiste à retirer des bases de données de l’établissement de santé tous les noms et adresses, ainsi que substituer le numéro de l’assuré social par une suite de chiffres aléatoires pour empêcher de les identifier facilement. En milieu hospitalier, par exemple.

Ré-identification facile à partir de données « anonymisées »

Une fois « anonymes », ces données ne sont alors plus considérées comme personnelles, échappant ainsi aux régimes de protections du RGPD. Mais toutes ces procédures pour protéger l’anonymat seraient vaines en Europe, affirment des chercheurs de l’Université catholique de Louvain et de l’Imperial College de Londres, dans une étude publiée dans Nature.

Ils ont établi une méthode pour parvenir à une ré-identification des individus, sans recourir à une quelconque technique de piratage informatique. Les chercheurs ont mis au point un programme d’intelligence artificielle capable de recouper et classer par critères les informations d’un individu parmi des milliers d’autres. Le programme peut alors estimer, avec une grande précision, si les données ré-identifiées appartiennent bien à la bonne personne ou non.

Testé aux États-Unis, les résultats sont impressionnants : le genre, la date de naissance et le code postal ont suffi au logiciel à identifier formellement 83% des américains dont les données avaient pourtant été rendues anonymes. L’un des chercheurs de cette étude explique pourquoi ces critères permettent une identification précise et rapide : « Beaucoup de personnes vivant à New York sont des hommes et ont la trentaine. Parmi eux, beaucoup moins sont également nés le 5 janvier, conduisent une voiture de sport rouge, ont deux enfants et un chien ».

Près de 100 % d’identification en regroupant des critères

Plus les critères qualifiants les personnes sont nombreux, plus il devient facile de réaliser cette identification. Le taux de réussite monte quasiment à 100 % à partir de 15 critères sociaux-démographiques comme l’âge, le genre, le lieu, le métier, la nationalité et bien d’autres décrivant le statut social des individus. Des informations somme toute plutôt standard, que les entreprises du numérique demandent régulièrement.

Les chercheurs ont également créé un outil en ligne, qui n’enregistre aucune donnée et ne sert que de démonstration, pour aider les utilisateurs à comprendre quelles caractéristiques les rend uniques dans les bases de données du monde. Cette méthode d’identification serait déjà employée par les géants de la Tech américaine – des firmes dont les appétits d’ogres pour nos données personnelles et actuellement de santé ne sont plus vraiment à démontrer.

RFI