Pseudonymisation et anonymisation : quelles règles encadrent nos données de santé ?
2142 zettaoctets. C’est le volume mondial de données numériques estimées à l’horizon 2035. Un chiffre qui donne le tournis, a fortiori si on le compare aux volumes de 2010 et 2020 (respectivement 2 et 64 zettaoctets). Une hausse exponentielle qui pose évidemment des questions quant au stockage de ces data, à leur disponibilité, et à la règlementation qui les encadre.
Malgré tout, la croissance volumique des données sensibles et à caractère personnel a été accompagnée par un certain nombre de textes juridiques afin d’en réglementer l’usage, le traitement et la diffusion, tout en fixant des standards de sécurisation.
Dans le domaine de la santé, maîtriser le traitement de ces données est un enjeu stratégique majeur car celles-ci sont indispensables, en premier lieu pour le soin, mais secondairement à des fins de recherche. Les données de santé font l’objet d’une gestion à part en raison des exigences supplémentaires de confidentialité, disponibilité et intégrité qui accompagnent leur caractère sensible.
Afin de protéger ces données, 2 techniques sont en général citées : la pseudonymisation et l’anonymisation. Or, si ces deux procédés sont souvent confondus, ils répondent en réalité à deux besoins distincts, offrent des garanties différentes, et par conséquent ne sont en aucun cas interchangeables.
Alors, comment doivent être utilisées nos données de santé avec la numérisation croissante de la santé? Doivent-elles être anonymisées ou pseudonymisées, et comment ? Ventio vous éclaire sur les nuances entre ces deux techniques, et illustre leur mise en place, par exemple dans le contexte de la réutilisation pour la recherche dans les entrepôts de données de santé. Vu la complexité de ces traitements, les responsables mettant en œuvre des projets utilisant des données de santé ont intérêt à se faire accompagner par des personnes qualifiées sur la protection des données, tant sur le plan technique qu’organisationnel.
1 – Pseudonymiser, anonymiser… quelles données sont concernées ?
a) Les données de santé
Avant d’entrer dans le vif du sujet et de décrire précisément les techniques de pseudonymisation et d’anonymisation des données, il est essentiel de préciser leur champ d’application. En effet, si ces techniques peuvent être appliquées à tout type de données, elles sont surtout utilisées en présence de données dites sensibles comme les données de santé. Ces dernières comportent non seulement des données personnelles directement identifiantes (nom, prénom, numéro de téléphone etc.) mais aussi des informations qui nécessitent une protection particulière en raison de leur caractère sensible (résultats médicaux, prestation de soin, mesure de poids croisée avec une autre valeur etc.), ce qui leur confère une forte valeur.
Les données concernant la santé sont définies à l’article 4 du RGPD comme des “données à caractère personnel relatives à la santé physique ou mentale d’une personne physique, y compris la prestation de services de soins de santé, qui révèlent des informations sur l’état de santé de cette personne” (voir la fiche de la CNIL pour apprécier l’étendue). Cette acceptation large est assortie d’une précision sur l’utilisation qui peut en être faite : les données de santé peuvent être collectées à plusieurs fins tel que le suivi médical d’une personne ou bien la recherche. Pour le soin, bien entendu les professionnels de santé doivent pouvoir identifier la personne, mais la sensibilité associée aux données nécessite tout de même des mesures de protection particulières. Dans un cadre de recherche, les données de santé peuvent avoir besoin d’une protection supplémentaire, et c’est notamment là que la pseudonymisation et l’anonymisation interviennent.
b) Les techniques de pseudonymisation et d’anonymisation
La pseudonymisation est une technique de traitement de données permettant de ne pas identifier directement une personne grâce à des techniques de remplacement de données identifiantes par des alias, numéros, pseudonymes. Cette technique est utilisée lorsqu’il est nécessaire d’avoir des informations individuelles, pour chaque personne, sans pour autant avoir besoin de connaitre directement leur identité. Avec la pseudonymisation, l’identification reste possible car une table de correspondance faisant le lien entre le pseudonyme et l’identité est conservée.
L’anonymisation quant à elle, est une technique rendant impossible l’identification de la personne, à la suite de la suppression de toutes données directement et indirectement identifiantes.
La décision de pseudonymiser ou d’anonymiser les données se prend donc en fonction des objectifs fixés, de la nécessité de conserver ou non le caractère personnel des données. Soulignons aussi que les données anonymisées perdent définitivement leur caractère personnel : en un mot le processus est irréversible et il sera désormais impossible d’identifier la personne derrière les données. La pseudonymisation est, elle, une technique réversible, une mesure de sécurité limitant seulement le risque de corrélation directe entre des informations nominatives, mais qui n’efface en aucune manière le caractère nominatif des informations exploitées. La vigilance reste donc de mise car une réidentification est possible en recoupant des informations.
c) Deux règlementations différentes
Selon la CNIL, la pseudonymisation est un traitement de données à caractère personnel de manière à ce que celles-ci ne puissent plus être attribuées à une personne concernée précise sans avoir recours à des informations supplémentaires, à la condition que ces informations supplémentaires soient conservées séparément et soumises à des mesures de sécurité renforcées.
Par conséquent, les données résultant d’une pseudonymisation sont donc considérées comme des données à caractère personnel et sont soumises aux obligations du RGPD à savoir par exemple le délai de conservation de données, la confidentialité des données ou le respect des droits des personnes.
A l’inverse, les données anonymisées, parce qu’elles ont fait l’objet d’un processus irréversible éliminant toute possibilité de réidentification d’un individu, ne sont pas soumises au RGPD.
Cette distinction est capitale du point de vue du secteur de la santé qui traite d’importants volumes de données à caractère personnel permettant d’identifier une personne (pour un individu : ses antécédents médicaux, son sexe, son âge, son adresse etc.). Protéger ces données est donc une obligation légale.
De plus minimiser le recueil des données en ne traitant que les données nécessaires pour des traitements spécifiques est un devoir pour chaque organisme de la santé par exemple dans les hôpitaux, les mutuelles.
Dans le cadre de traitement de données à des fins de recherche scientifique, si la conservation des informations individuelles n’est pas justifiée par le projet, alors l’anonymisation doit être réalisée.
En fonction des objectifs poursuivis, on s’orientera donc vers l’une ou l’autre des stratégies.
2. Comment pseudonymiser et/ou anonymiser ses données de santé ?
En pratique, pseudonymiser ses données, repose sur de techniques telles que la création de pseudonyme sans pouvoir identifier directement la valeur initiale. Des techniques basiques existent et peuvent suffire dans certains cas de figure. Parmi elles, on retrouve la méthode du compteur, ou le générateur de nombre aléatoire. Mais il existe aussi des techniques plus complexes comme le hachage ou le chiffrement qu’il peut être plus judicieux d’utiliser dans certaines situations.
Du point de vue de l’anonymisation des données, la randomisation et la généralisation sont les techniques les plus répandues. Ventio fait un point sur les différentes catégories listées par la CNIL.
a) Le compteur
La pseudonymisation par compteur est une technique consistant à attribuer un nombre incrémenté à la valeur identifiée. Il s’agit d’une technique relativement simple puisque les valeurs générées par le compteur ne se répètent jamais afin d’éviter les doublons. Ainsi, on devra conserver séparément la table de correspondance des données pseudonymisées qui contient le numéro attribué à la personne.
Utilisée pour des jeux de données de petite taille, elle devient cependant problématique sur des gros jeux de données.
En effet, la limite de cette approche est que l’ordre d’inclusion est conservé, ce qui est une information importante, car il y a un risque que la valeur du compteur soit corrélée avec l’ordre d’inclusion dans une étude, l’ordre alphabétique ou la date de naissance. Si cette corrélation est identifiée, il y a alors un risque de réidentifier facilement les données.
Exemple de données pseudonymisées par compteur :
Nom | Prénom | Date de naissance | Pseudonyme |
Martin | Julien | 13/06/1975 | 365 |
Jafer | Bob | 08/09/1987 | 366 |
Rouge | Laura | 26/08/1988 | 367 |
Table de correspondance faisant le lien entre les données identifiantes et le compteur.
b) Le générateur de nombres aléatoires
Cette méthode consiste à créer des valeurs aléatoires pour chaque donnée afin que les valeurs soient totalement indépendantes et difficiles à retrouver initialement car cette pseudonymisation ne fournit pas d’information sur l’ordre des données contrairement à la technique du compteur. Contrairement au compteur, sur les gros jeux de données il peut y avoir des doublons de pseudonymes car les nombres sont tirés aléatoirement, il est donc impératif de vérifier que le nombre n’est pas déjà attribué.
Nom | Prénom | Date de naissance | Pseudonyme |
Martin | Julien | 13/06/1975 | 18541 |
Jafer | Bob | 08/09/1987 | 97123214 |
Rouge | Laura | 26/08/1988 | 13 |
Table de correspondance faisant le lien entre les données identifiantes et le nombre aléatoire.
c) Le hachage et le salage
La fonction de hachage permet de retrouver un résultat de taille fixe quelle que soit la taille de l’entrée ou l’ensemble encodé. Il s’agit entre autres de transformer la valeur en une signature en utilisant des techniques de hachage tel que MD5, SHA1-2.
Cependant cette technique présente un risque puisque les données transformées peuvent être retrouvées si leur limite minimum et maximum sont identifiées puisque les fonctions de hachage sont publiques (tout le monde utilise les mêmes fonctions) et sont donc sensibles à des attaques de force brute.
Pour réduire le risque, la fonction de salage est ajoutée c’est à dire qu’une valeur aléatoire est ajoutée à l’attribut. Nous pouvons également ajouter une clé secrète comme valeur supplémentaire ainsi un hackeur ne pourra pas retrouver la valeur d’entrée sans connaître la clé qui doit être changée de manière régulière. De manière générale, il faudra suivre les recommandations de l’ANSSI pour la sélection de l’algorithme de hachage.
Nom | Prénom | Date de naissance | Pseudonyme |
Martin | Julien | 13/06/1975 | 611ab7794ebc611f2f7d614f39a958fcbcce4e8486b48854676561b5010a7b37 |
Jafer | Bob | 08/09/1987 | 46bbc5b1d3c8a50ce8b4f10594498367772d5bd6a3cf2aeb7f8e01febb6a6f74 |
Rouge | Laura | 26/08/1988 | 423f678e5679f6ab878a00c12abb0e012983def8aab99ff9f21e2c06ee7d4077 |
Table de correspondance faisant le lien entre les données identifiantes et la signature.
d) Le chiffrement
La fonction de chiffrement est une méthode permettant de protéger les données directement identifiantes afin de les rendre complètement incompréhensibles. Nous parlons par exemple de chiffrement à clé secrète, pour laquelle seul le détenteur de la clé peut réidentifier chaque donnée en les déchiffrant. Il faudra alors sécuriser et tracer les accès à la clé.
La méthode de chiffrement déterministe est couramment utilisée pour la pseudonymisation : les mêmes informations identifiantes d’entrée donneront le même pseudonyme issu du chiffrement. Dans certains cas, il peut aussi être nécessaire d’avoir recours à du chiffrement probabiliste, permettant d’associer à une même personne plusieurs pseudonymes pour stocker des informations qui ne doivent pas être combinées entre elles.
e) La randomisation
Dans une approche d’anonymisation, il est d’abord essentiel de :
- Déterminer l’objectif et l’usage des données anonymes
- Procéder à la suppression des données identifiantes (nom, prénom…) et des valeurs permettant une réidentification
- Identifier les données pertinentes devant être conservées
- Définir quel est le degré de précision acceptable de la donnée, et ce pour chaque information qui sera conservée (tranche d’âge, année de naissance…)
La technique de randomisation s’applique une fois ces choix établis. Elle consiste à modifier les attributs dans un jeu de données afin de rendre ces données moins précises, par exemple en permutant les attributs de certaines données comme la date de naissance.
Nom | Date de naissance | Maladie | Dernière Hospitalisation |
Martin | 13/06/1975 | VIH | 09/08/2021 |
Jafer | 08/09/1987 | Cancer | 06/11/2020 |
Rouge | 26/08/1988 | Diabète | 11/02/2022 |
Jeu de données d’origine.
Individu | Date de naissance | Maladie |
6 | 1988 | Cancer |
9 | 1975 | Cancer |
32 | 1987 | VIH |
Jeu de données randomisées.
f) La généralisation
La technique de généralisation consiste à modifier l’échelle des attributs des jeux de données afin qu’ils soient communs pour un groupe de personnes. Permettant d’éviter l’individualisation des personnes dans un jeu de données. Par exemple en modifiant l’âge des personnes en une tranche d’âge (18-24 ans…).
Nom | Date de naissance | Maladie | Dernière Hospitalisation |
Martin | 13/06/1975 | VIH | 09/08/2021 |
Jafer | 08/09/1987 | Cancer | 06/11/2020 |
Rouge | 26/08/1988 | Diabète | 11/02/2022 |
Jeu de données d’origine.
Individu | Age | Maladie |
6 | 30-40 ans | Cancer |
9 | 50-60 ans | Cancer |
32 | 30-40 ans | VIH |
Jeu de données généralisées.
Conclusion
La mise à disposition et l’exploitation des données sont devenues un des enjeux majeurs du monde du numérique, en particulier du point de vue des données de santé qui sont des données sensibles nécessitant des mesures de protections particulières, notamment dans le cas d’une réutilisation pour la recherche.
Si la pseudonymisation est une solution assurant la sécurité des données, elle reste toutefois réversible et ne supprime pas les données personnelles. Solution nécessaire pour limiter les risques sur la vie privée des personnes, le RGPD s’applique sur celles-ci.
L’anonymisation est irréversible et résulte en une perte d’information. En perdant toute possibilité d’identifier les personnes, ces données anonymisées ne sont plus soumises au RGPD et peuvent donc être exploitées et conservées sans limite de durée.
Ainsi, en fonction de la finalité du traitement des données, les personnes mettant en place des études visant à réutiliser des données de santé choisiront la ou les mesures techniques et organisationnelles les plus adaptées. Cette réflexion doit être menée avec des personnes ayant les compétences techniques et juridiques, typiquement le délégué à la protection des données et le responsable de la sécurité du système d’information.
Ventio, avec ses experts certitifiés DPO et cyber, et spécialiste de la recherche biomédicale vous accompagne dans la mise en place de vos traitements visant à la réutilisation de données de santé. Règlementation, anonymisation ou pseudonymisation… venez nous présenter vos projets et contraintes et définissons ensemble le traitement des données qui correspond le mieux à vos problématiques. Contactez-nous!