Que contient le nouveau référentiel de la CNIL sur les entrepôts de données de santé?

Décryptage du nouveau référentiel de la CNIL sur les entrepôts de données de santé, Ventio vous livre son résumé !

Le 17 novembre dernier, après 8 mois de travail et une consultation à laquelle ont participé une quarantaine d’acteurs, la CNIL a finalement livré son référentiel sur les entrepôts de données de santé, dans la droite ligne du Health Data Hub.

Parce qu’il est indispensable pour les acteurs de la recherche et de l’innovation en santé d’être parfaitement au fait de la réglementation en matière de données de santé, mais aussi parce que celle-ci évolue, Ventio, votre spécialiste ultra high-tech dans le traitement des données sensibles de santé a décortiqué pour vous ce nouveau référentiel, et peut ainsi vous conseiller dans l’application de celui-ci.

Nous reviendrons d’abord sur ce que représentent ce type d’entrepôts pour la recherche et l’innovation en santé, avant de présenter les éléments essentiels de ce référentiel.

I – Les entrepôts de données de santé (EDS)

  • A quoi servent les entrepôts de données de santé ?

Tous les jours en France, des données de santé sont collectées sur les patients, dans le but premier de les soigner. La constitution d’entrepôts de données de santé poursuit quant à elle d’autres finalités, notamment celle de la recherche. Par conséquent, les données collectées doivent pouvoir être ré-exploitées différemment, puisque la finalité n’est pas la même que celle prévue initialement.

Un entrepôt de ce type peut être défini en gros comme un espace numérisé et accessible selon des règles strictes.

En tant que patient – utilisateur du système de santé français, il vous est peut-être déjà arrivé de venir à l’hôpital et qu’on vous ait informé que vos données seraient réutilisées pour la recherche et versées dans un entrepôt de données.

Et vous les soignants, les données issues de votre travail (comptes-rendus, …) sont également susceptibles d’être versées dans l’entrepôt, et associées à des informations vous concernant.

Que deviennent ces données, comment sont-elles traitées, comment permettent-elles de faire avancer la recherche, quels sont vos droits, quels sont les risques ? Des questions éminemment sensibles mêlant respect de la vie privée, risques du numérique, éthique en santé et intégrité en recherche, souveraineté et innovation. C’est tout l’enjeu de ce référentiel de la CNIL de créer un espace de confiance autour de ces données sensibles pour innover en santé tout en respectant les droits des personnes concernées, patients et soignants.

  • A qui est destiné le référentiel de la CNIL et quelle est sa portée ?

Ce référentiel est destiné aux organisations (on parle de responsables de traitement) qui ont des missions d’intérêt public et qui veulent réunir des données de santé pour les réutiliser. Il s’agit par exemple des hôpitaux qui collectent des données initialement pour le soin, mais peuvent souhaiter les réutiliser pour d’autres finalités.

Les finalités de réutilisation couvrent notamment (mais pas uniquement) :

  • Un usage exclusif par le responsable de traitement (comprendre en interne) pour faire fonctionner des outils d’aide au diagnostic médical, ainsi que la réalisation d’études de faisabilité.
  • La réutilisation pour la recherche en santé, qui nécessite alors de respecter un cadre spécifique (type autorisation de recherche ou méthodologie de référence de la CNIL), et qui peut donc être ouvert à des tiers.

C’est donc la possibilité de développer ou de tester des outils innovants, par exemple à base d’intelligence artificielle pour l’aide au diagnostic, et de réaliser de fouilles de données massives sur toute une population pour la recherche en santé, cherchant des liens entre le développement et l’évolution de maladies et des facteurs génétiques, biologiques, comportementaux, ou environnementaux…

Pour pouvoir réutiliser les données de santé, l’organisme devra déclarer être conforme, et donc mettre en place des mesures techniques et organisationnelles pour assurer la sécurité de ces données sensibles et respecter les droits des personnes concernées (les patients en premier lieu, mais aussi les professionnels de santé impliqués). C’est pour préciser ces règles de conformité que la CNIL a décidé de publier ce référentiel.

II. Le contenu du référentiel de la CNIL

  • Quelles informations à caractère personnel peuvent être stockées dans un entrepôt de données de santé, pour combien de temps et qui peut y avoir accès ?

D’une part, les données ne peuvent contenir que ce qui est dans le dossier médical et administratif, ainsi que les données collectées lors de projets de recherche.

  • Données directement identifiantes

Les professionnels de santé, qui par exemple réalisent des comptes-rendus d’examen, ont leurs coordonnées professionnelles intégrées à l’entrepôt.

Toutes les informations qui pourraient permettre d’identifier directement le patient (nom, téléphone, adresse, numéro de sécurité sociale, …) doivent être stockées séparément des autres données sensibles.

Ces données identifiantes ne sont accessibles qu’à un nombre restreint de personnes habilitées et uniquement pour des cas bien spécifiques, par exemple pour gérer l’entrepôt, pour recontacter les patients pour proposer de participer à des projets de recherche ou en cas de découvertes fortuites impliquant leur santé.

  • Données non-directement identifiantes

Les données sensibles non-directement identifiantes du patient peuvent contenir tout le reste, par exemple poids, taille, biologie, imagerie médicale, génétique, vie sexuelle, consommation de drogues, déplacements, habitudes de vie… Elles sont pseudonymisées et ne permettent pas en théorie une identification sans information complémentaire.

Ce second groupe de données non-directement identifiantes sont accessibles après évaluation de la pertinence scientifique et éthique sur demande à la gouvernance de l’entrepôt. Elles peuvent être accessibles en interne ou en externe à des équipes de recherche habilitées.

  • Durée

La durée maximale de conservation des données nominatives et pseudonymisées est de 20 ans.

  • Données anonymisées

Enfin, sachez que les données peuvent faire l’objet d’une anonymisation, qui est un processus en principe irréversible, et peuvent alors être publiées ou transmises à tout destinataire. Ce cas de figure est particulièrement adapté à l’évolution actuelle qui tend vers une science ouverte et qui suppose par conséquent le partage et la publication des données de recherche à des fins de reproductibilité et de réutilisation.

Attendez-vous donc à ce que vos données, une fois anonymisées, soient rendues publiques, et qu’a priori il sera impossible de remonter jusqu’à vous.

  • Quel est le devoir d’information des organisations gérant un entrepôt de données de santé et leurs obligations de respect des droits des personnes concernées (patients et professionnel de santé) ?

Dans tout le processus de collecte, ainsi que pour chaque réutilisation pour la recherche, le droit d’information doit être respecté. Le référentiel de la CNIL prévoit le cas de données préalablement collectées et donc déjà présentes dans les dossiers médicaux, mais aussi celles qui le seront à l’avenir. Les principes sont ceux du RGPD, avec un devoir d’information sauf si l’organisation est en mesure de démontrer que cela nécessite un effort disproportionné. La commission donne les conditions pour se prévaloir de cette exception au principe d’information (trop de personnes, données trop anciennes, trop cher d’informer tout le monde individuellement), mais avec des garde-fous : notamment de devoir intégrer la justification à l’analyse d’impact sur la vie privée, et de communiquer publiquement sur la constitution de l’entrepôt, par exemple dans les médias.

Les professionnels de santé, pour leur part, en tant que salarié ou prestataire doivent être informés du versement à l’entrepôt des données à caractère personnel les concernant par des moyens internes à l’organisation (mail, contrat de travail, affichage, …).

En ce qui concerne les autres droits (accès, rectification, effacement, limitation, opposition), l’organisation étant en capacité d’identifier les patients et les professionnels de santé dont les données pseudonymisées sont traitées, elle est dans l’obligation de leur permettre d’exercer ces droits et doit fournir une information claire sur comment le faire.

  • Quelles sont les mesures techniques et organisationnelles à mettre en œuvre ?

Les données sensibles de santé stockées dans un entrepôt concernent un grand nombre de personnes, potentiellement toutes les données de santé d’une région ou d’un pays. Aussi le référentiel ne lésine pas sur la sécurité pour garantir la confidentialité, l’intégrité et la disponibilité des données et fournit une liste non-exhaustive d’une cinquantaine de mesures de sécurité, techniques et organisationnelles. S’il serait fastidieux de les lister ici, citons malgré tout les grandes catégories :

  • Cloisonnements physique, logique et cryptographique : filtrage et chiffrement des communications, sauvegardes, politique de chiffrement spécifique en fonction du type de données, …
  • Gestion des accès, authentification, journalisation : limitation des accès en fonction des rôles de chaque utilisateur habilité, individualisation et traçage des accès.
  • Exigences sur les mesures de pseudonymisation et d’anonymisation : pas d’improvisation en la matière, les mesures doivent être conformes aux bonnes pratiques et prendre en compte leur évolution, avec la nécessité de documenter et d’être en capacité de démontrer la conformité
  • Sensibilisation des utilisateurs sur le secret médical, sur les risques et les obligations en matière de traitement de donnés de santé, signature d’une charte par les utilisateurs
  • Sécurisation des postes de travail accédant aux données, avec encadrement juridique si ces postes ne sont pas directement sous le contrôle direct du responsable de traitement
  • Procédure à mettre en place de gestion et traitement des incidents. Violations de données à documenter et à notifier la CNIL et aux personnes concernées en fonction du risque

Cet ensemble de mesures très strictes est à replacer dans le contexte actuel d’une forte cyber-pression sur les systèmes d’information des organisations, notamment des hôpitaux. Le référentiel exige notamment que les entrepôts soient séparés du système d’information principal de l’organisation.

  • Est-il possible de confier la constitution et la gestion de mon entrepôt de santé à un sous-traitant et quelles sont les contraintes ?

La constitution d’un espace numérique avec de telles contraintes est un projet complexe pour lesquelles les responsables de traitement n’ont pas forcément les ressources et les compétences en interne. De tels entrepôts sont de plus appelés à être interopérables avec de multiples services numériques. Les organisations peuvent donc faire appel à des sous-traitants (par exemple entreprises de services du numérique, hébergeurs, fournisseurs de ressources ou de service cloud, géants du numérique, …), avec un certain nombre de contraintes illustrées par le cas du Health Data Hub. La CNIL considère notamment que l’accès distant depuis l’extérieur du territoire Européen est un transfert, ce qui nécessite une analyse fine des flux et n’est pas sans conséquence sur les mesures à mettre en place.

Les sous-traitants doivent relever d’une juridiction Européenne ou d’un pays dit “adéquat”, c’est-à-dire qui présente des garanties juridiques jugées de niveau équivalent. Le contrat de sous-traitance doit répartir les responsabilités sur les mesures de sécurité et sur la gestion des incidents.

Enfin, les données ne peuvent pas être transférées hors de l’Union Européenne, sauf si le pays de destination dispose d’un niveau de protection adéquat. Pour l’hébergement, le stockage ou la conservation, le prestataire choisi devra en plus être agréé hébergeur de données de santé ou équivalent.

III – Les entrepôts de données de santé, une opportunité et de nouveaux défis

En visant à permettre la réutilisation de données initialement collectées pour le soin et dans le cadre de projets de recherche clinique internes, les EDS constituent une réelle opportunité pour la recherche et de l’innovation en santé. Néanmoins, cette réutilisation pose un certain nombre de questions notamment du point de vue de l’accumulation des données avec des biais potentiels et de leur utilisation qui peuvent impacter les finalités d’intérêt public :

  • Les professionnels de santé, dont les contraintes en termes de responsabilités professionnelles vont croissantes, devront être rassurés pour pouvoir fournir des données expertes objectives et complètes. Vont-ils jouer le jeu de la nouvelle finalité ? Les risques perçus de mise en cause future ou la peur d’être challengé individuellement par une IA vont-ils provoquer des biais ? L’effet pervers serait d’avoir un entrepôt dans lequel les données expertes versées seraient trop pauvres et de facto peu exploitables pour la recherche. Les EDS devront privilégier la qualité à la quantité, ce qui demandera un engagement fort des instances de gouvernance, et en tout premier lieu des professionnels de santé et des chercheurs qui en seront membres.
  • La pseudonymisation dans le respect du référentiel n’est pas une mince affaire pour certains types de données. Le cas des documents non-structurés (compte-rendu, prescriptions, documents numérisés, commentaires libres, analyse biomédicale et imagerie) peut s’avérer complexe. L’anonymisation selon les recommandations de la CNIL pour publication et transfert vers tout destinataire sera d’autant plus difficile. Le cas des données d’imagerie médicale, par exemple en imagerie cérébrale avec des enjeux de recherche sur les maladies neurodégénératives, pose question, puisqu’une anonymisation requiert des mesures qui peuvent réduire l’utilité de la donnée. Tout comme une photo ou une vidéo d’un patient versée à l’entrepôt devra être floutée, l’équivalent du floutage des images cérébrales touche directement à son intégrité, en réduit la portée et sa capacité à être utilisée pour la recherche. Des casse-têtes en perspective, ainsi qu’une opportunité pour développer des solutions techniques innovantes.
  • La contractualisation avec des sous-traitants en capacité de mettre en place les mesures techniques préconisées par le référentiel pour la protection de ces données sensibles appelle à bien anticiper les risques. Les futures cyberattaques sur ces entrepôts permettront d’affiner les clauses contractuelles répartissant les responsabilités entre les parties prenantes, responsables de traitement, sous-traitants et leurs compagnies d’assurance.

Ce référentiel est à la hauteur des enjeux de sécurité et de protection des personnes compte tenu de l’état de l’art technique et juridique. Espérons que les EDS permettent effectivement et rapidement de fournir des données massives pour la recherche et l’innovation en santé rattrapant ainsi les initiatives similaires d’autres pays déjà bien avancés sur le sujet.

Vous avez un projet de constitution d’un entrepôt de données de santé ? Vous êtes déjà doté d’un tel espace numérique mais vous doutez de sa conformité technique et juridique au vu de ce nouveau référentiel de la CNIL ? Vous cherchez à évaluer la conformité d’un projet de réutilisation de données et vous devez réaliser une analyse d’impact ? Ventio met à votre disposition son expertise métier pour vous accompagner en sécurité de l’information et RGDP, ainsi que dans les domaines de la recherche biomédicale et des nouvelles technologies du numérique.

end of page
end of page