Seize années très riches passées au service statistique du ministère des solidarités et de la santé, d’abord sur les thématiques des professionnels de santé, puis sur l’observation de la solidarité, m’ont permis d’acquérir, outre une connaissance approfondie des politiques sociales, une expertise dans le traitement de données personnelles considérées comme sensibles : état de santé, revenus des personnes, conditions de vie et de travail, etc. Cela m’a permis également de comprendre tout le processus de production des données sur ces domaines. Celles-ci, quoi qu’en pensent certains (nombreux), ne tombent pas du ciel[1]. Dans le cadre de la statistique publique, ces données peuvent être issues en particulier de remontées administratives (entre autres les déclarations annuelles de données sociales des entreprises, les diverses remontées des caisses de retraite, les remboursements de l’assurance maladie, etc.), ou d’enquêtes statistiques (auprès d’établissements et services médico-sociaux ou de populations spécifiques par exemple). Ces données, exploitées en interne pour les missions du service statistique ministériel, offrent une infinité de possibilités d’exploitations, particulièrement lorsque l’on réalise des interconnexions, d’où l’importance de les mettre à disposition d’autres acteurs.

Vers le Data Protection Officer

Les nombreux liens que j’ai pu tisser avec les autres administrations et les chercheurs au cours de cette carrière m’ont permis de me rendre compte de l’ampleur de la demande vis-à-vis des données. Cette forte demande pour des données considérées comme sensibles doit pouvoir trouver une réponse, notamment technique et juridique pour encadrer les transferts ou mises à disposition des données. En particulier, la réglementation autour des données à caractère personnel (c’est-à-dire permettant d’identifier les personnes, même indirectement), présente depuis de nombreuses années en France et en Europe, a été placée sous le feu des projecteurs au moment de l’adoption en France le 25 mai 2018 du règlement général sur la protection des données (RGPD)[2]. Par un concours de circonstances, je suis passé progressivement d’une expertise technique des sondages et des exploitations statistiques (ce que l’on apprend à l’ENSAE) à une expertise juridique entourant ces exploitations et les partages de données (ce que l’on y apprend un peu moins, du moins à mon époque). Une formation de Data Protection Officer, délivrée par le CNAM, en poche, me voici à analyser et contribuer à la mise en place de la nouvelle réglementation, en particulier sur les données de santé et sur les appariements utilisant le NIR (numéro inter-régimes, autrement appelé numéro INSEE, encore autrement appelé de sécurité sociale). Je suis amené en parallèle à travailler comme product owner[3] pour un projet d’infrastructure informatique à destination des statisticiens de la DREES et de la DARES, ce qui me permet d’approfondir mes connaissances sur la sécurité et l’architecture informatique. J’occupe désormais au sein du CASD le poste de Data Protection Officer et expert en protection des données : le CASD a en effet pour mission d’offrir dans un cadre ultra sécurisé un accès aux données administratives ou issues de la statistique publique à des chercheurs ou administrations demandeuses, répondant ainsi à la demande exposée plus haut, et parallèlement cochant toutes les cases de mes intérêts professionnels.   J’y occupe désormais le poste de responsable DPO et développement, faisant le lien entre l’offre et la demande de données, tout en veillant à la sécurité tout au long du cycle de vie de la Data (transferts, stockage, exploitations, exports, etc.).

Une forte demande de partage des données

De plus en plus, l’ouverture des données issues en particulier des sources publiques (mais pas seulement) revêt une importance cruciale pour l’économie de la connaissance, tant pour la recherche scientifique que pour l’innovation dans certains secteurs clés. On pense naturellement aux progrès dans le domaine de la santé liés au développement exponentiel des techniques d’intelligence artificielle mais ce n’est pas le seul domaine d’innovation. L’Europe ne s’y est pas trompée en annonçant en 2020 une politique globale de la data à l’échelle du continent[4]. Plusieurs textes sont ainsi en préparation, dont un règlement européen qui devrait être adopté dans le courant de l’année 2021 : le Data Governance Act. Celui-ci promeut d’une part la mise à disposition de données à caractère « confidentiel », considérées comme sensibles, issues des administrations, moyennant la mise en place d’une gouvernance ad hoc de partage des données au niveau de chaque pays et au niveau communautaire et, d’autre part, la création d’un statut de « data altruist » pour que les organisations privées d’intérêt général (type ONG ou associations) mettent également à disposition les données collectées à des fins de partage au plus grand nombre. Le but général du règlement est bien de répondre à la fois aux besoins de la recherche scientifique et aux besoins de l’économie de marché. On sort ici du seul cadre de l’open data, étant entendu que l’on parle bien ici de données confidentielles.

Un fort besoin de sécurité pour permettre le partage de données confidentielles

Mettre à disposition des données confidentielles, en particulier celles détenues par les diverses administrations (impôts, déclarations sociales, données de l’assurance maladie, des caisses de retraite, données d’entreprises, etc.), ne peut se faire en violation du respect de secrets que la loi a entendu protéger. Ainsi, en l’absence d’autorisation spécifique, les données à caractère personnel ne deviennent entièrement diffusables que passé un délai de 75 ans, les données fiscales au bout de 25 ans par exemple. Plusieurs secrets ou mesures de protection entourent ces données : on peut citer par exemple le secret médical, le secret des affaires, le RGPD et toutes les règles autour des données des personnes. Le non-respect de ces secrets relève du pénal[5] et peut conduire également à des amendes administratives très élevées[6].

De ce fait, les différentes administrations publiques ne donnent accès à leurs données sources qu’en échange de garanties quant à la sécurité entourant à la fois la mise à disposition des données, mais également leur exploitation. On le comprend : en effet, outre le non-respect de la loi, une violation de données[7] peut avoir des effets catastrophiques à la fois pour les personnes/entités qui font l’objet d’enregistrements dans les données, mais également pour le producteur/collecteur de données lui-même. On imagine par exemple assez facilement l’embarras de l’Urssaf si les données de salaires des Français venaient à être diffusées sur internet, ou si les dossiers de patients d’un centre hospitalier devenaient accessibles au tout venant. Concernant le secteur privé, les enjeux sont évidemment économiques : peu d’entreprises souhaitent que leurs données les plus sensibles soient diffusées dans la nature, ou même qu’elles soient conservées après traitement par un cabinet de conseil pour obtenir des avantages comparatifs certains face à des concurrents. L’image d’une entreprise ou d’une administration dont les données ont pu fuiter peut par ailleurs être durablement entamée auprès des usagers ou des clients.

Sur le plan organisationnel, divers processus existent pour apporter des gages de sécurité aux propriétaires des données, qu’ils soient publics ou privés : ainsi des certifications ISO 27001 sur le management de la sécurité des systèmes d’information et la très récente ISO 27701 qui constitue une extension de la norme ISO 27001 à la protection des données personnelles, dans la logique du RGPD mais aussi d’autres normes internationales relatives à la protection des données personnelles. La CNIL encourage d’ailleurs vivement les organismes à passer cette certification[8]. Concernant les données de santé, le référentiel de sécurité du système national des données de santé (SNDS) constitue le socle minimal à adopter pour pouvoir traiter lesdites données : en particulier les données des prescriptions et remboursements de l’assurance maladie, ainsi que le programme médicalisé des systèmes d’information –PMSI- sur l’activité hospitalière. Ce référentiel impose la « pseudonymisation » des données (c’est-à-dire empêcher l’identification directe des individus, sans pour autant considérer que les données soient totalement anonymes) et la traçabilité des actions sur les données, dont l’accès auxdites données. Les données totalement identifiantes des patients doivent quant à elles être protégées par une certification d’hébergeur de données de santé (HDS), délivrée par l’agence du numérique en santé (ANS).

Et un nécessaire accompagnement des fournisseurs et des utilisateurs

Le rapport du député Eric Bothorel, fraîchement publié[9], en plus de rappeler les enjeux liés à l’ouverture des données, prend acte de ces contraintes et présente des pistes d’amélioration pour l’ouverture de ces données. Il promeut en particulier l’accès aux données les plus sensibles par l’intermédiaire de plateformes (hubs), qu’elles soient sectorielles (ainsi du Health Data Hub pour les données de santé, Ag-data hub pour le secteur agricole) ou intersectorielles (comme le CASD, dont le champ couvert est très large). L’idée de plateformes de mise à disposition de données est également présente dans le data governance act en discussion. Ces plateformes feraient partie de l’écosystème imaginé autour d’organismes accompagnant la mise à disposition concrète des données, tant du point de vue technique que juridique, et d’un point d’information unique répertoriant ces données désormais disponibles. Le secteur privé peut également avoir un intérêt à diffuser certaines de ses données à des chercheurs, ou tout simplement mettre à disposition de façon complètement sécurisée ces données à des filiales ou des prestataires pour certaines missions précises.

Naturellement, un tel système ne peut véritablement fonctionner sans proposer de solutions facilitantes pour les demandeurs de données : une démarche de certification prend beaucoup de temps, ainsi que des moyens financiers qui ne sont pas forcément à la portée de tous. Sécuriser son environnement de traitement des données a un coût non négligeable! De plus, les démarches administratives d’accès aux données peuvent être également assez longues et complexes, d’où la nécessité d’un accompagnement au plus près des demandeurs.

Le CASD propose des solutions « clés en main »

Le CASD propose une telle solution, à la fois pour les chercheurs mais également pour les acteurs de l’innovation. Concrètement, la solution proposée repose sur un accès distant (remote access, les données ne sortent pas du CASD) entièrement sécurisé : l’accès n’est permis que par un boîtier dédié contenant tous les outils nécessaires à l’analyse et à l’édition d’études, l’authentification de l’utilisateur se fait par carte à puce et vérification des empreintes digitales, le chiffrement est assuré de bout en bout, les exports de la plateforme sont encadrés et peuvent être vérifiés selon les exigences des producteurs de données… en tout plus de 300 dispositifs de sécurité garantissent une étanchéité totale des projets hébergés. Les besoins de stockage et de puissance informatique sont ensuite configurés à façon en fonction du projet : de la « simple » analyse de statistique descriptive sur des données peu volumineuses à l’utilisation de GPGPU sur les big data pour les utilisations de type machine learning ou deep learning. L’exécution se fait entièrement à distance, sur les serveurs sécurisés (remote execution).

Cette sécurité renforcée permet à l’ensemble des administrations qui le souhaitent de mettre à disposition leurs données. Le CASD est certifié comme hébergeur de données de santé, homologué au référentiel SNDS, certifié ISO 27001 et fait partie des premiers organismes français, si ce n’est le premier à notre connaissance, certifiés ISO 27701 depuis juillet 2020). L’hébergement du matériel d’accès est quant à lui encadré par contrat avec le demandeur de données, ceci afin de donner des gages supplémentaires de sécurité envers les producteurs de données. Le CASD joue également un rôle d’accompagnement des administrations dans les processus de mise à disposition des données.

Par ailleurs, les démarches administratives pour l’accès aux données peuvent être particulièrement ardues. Ainsi, dans le cadre de la recherche scientifique reposant sur les données issues des ministères, le demandeur doit au préalable obtenir une autorisation de l’administration des archives prise après avis du comité du secret statistique. Le projet de recherche y est examiné avant toute ouverture. Tout au long du processus, le CASD accompagne le demandeur. Pour ce qui concerne les recherches dans le domaine de la santé, le demandeur doit, avant toute mise à disposition des données, recueillir l’avis d’un comité scientifique ad hoc qui dispose d’un mois pour le rendre et, en cas d’avis positif, d’une autorisation explicite de la CNIL, qui dispose de 2 mois renouvelables pour répondre, soit en tout 5 mois de délai, sans compter le temps de préparation du dossier. La CNIL vérifiera notamment le respect de l’homologation au référentiel de sécurité le cas échéant. Enfin, dans le cadre des données d’autres domaines (notamment les données des caisses de sécurité sociale), l’accord du propriétaire est requis. Les recherches cumulant à la fois des données de santé et d’autres données (administratives ou non) doivent combiner les différentes démarches, d’autant plus que les projets d’appariements de données sont regardés de très près par les différentes instances, le risque de ré-identification des personnes ou des entreprises contenues dans les bases de données augmentant de façon très importante[10]. Les appariements dits « déterministes », c’est-à-dire reposant sur des identifiants uniques, nécessitent par ailleurs des mesures de sécurisation encore plus étendues, en particulier lorsqu’est utilisé le NIR. Là encore, le CASD apporte une aide précieuse en fournissant tous les éléments de sécurisation tant organisationnelle qu’informatique pour compléter le dossier, ce qui constitue une bonne partie du dossier de demande.

 

Mots-clés : recherche – données sensibles – confidentialité – protection des données – réglementation.


A propos de :

Le CASD est un groupement d’intérêt public ; il rassemble l’État représenté par INSEE, le GENES, le CNRS, l’École polytechnique et HEC Paris.

Ses missions sont les suivantes :

  • Dans le public, le CASD met à disposition des données de l’INSEE, des ministères de la Justice, de l’Éducation nationale, de l’Agriculture et de l’alimentation, des Solidarités et de la Santé, de l’Economie et des Finances pour les données fiscales.
  • Dans le domaine de la santé, l’accès aux données de l’ensemble des séjours hospitaliers publics et privés en France ainsi qu’à certaines cohortes de santé par exemple est réalisé via le CASD.
  • Dans le privé, de nombreuses entreprises sont d’ores et déjà partenaires du CASD pour accroître la sécurité de leurs données en accès externe dans le cadre de collaboration avec des chercheurs, des start-up ou des consultants.

https://www.casd.eu/


[1] L’idée d’une main invisible qui produirait des données parfaitement exploitables, évidemment à jour et sans incohérences ex nihilo est particulièrement répandue, ce qui ne laisse pas d’étonner.

[2] Au vu du nombre de spams et de newsletters diverses et variées reçues à titre personnel à cette époque, il semblerait que beaucoup de monde se soit d’un coup rappelé qu’une telle réglementation existait.

[3] Appellation reprise de la méthode agile : le product owner d’un projet agit comme représentant des futurs utilisateurs et écrit les scénarios d’usage (user stories) du produit final.

[4] Discours de la présidente de la Commission européenne Ursula von der Leyen au Parlement européen du 19 février 2020.

[5] L’article 226-13 du code pénal prévoit une peine d’un an d’emprisonnement et de 15 000 euros d’amende pour rupture du secret. Les articles 226-16 et suivants prévoient des peines de cinq ans d’emprisonnement et de 300 000 euros d’amende pour les traitements de données à caractère personnel non autorisés.

[6] Le RGPD prévoit ainsi des amendes dont le montant peut aller jusqu’à 4 % du chiffre d’affaires mondial de l’entreprise, ou 20 000 000 €, le montant maximal étant retenu.

[7] Une violation de données s’entend comme tout accès, destruction ou altération des données hébergées. L’accès non autorisé est particulièrement problématique en cas de rediffusion de l’information.

[8] https://www.cnil.fr/fr/liso-27701-une-norme-internationale-pour-la-protection-des-donnees-personnelles

[9] Rapport de la mission Bothorel, « Pour une politique publique de la donnée », décembre 2020.

[10] Les appariements, en particulier sur les données personnelles, restent des traitements considérés comme très sensibles, eu égard au risque de ré-identification puisque l’on dispose alors de plus d’informations relativement à une même personne, mais également à la crainte d’un « fichage » des populations et de la connaissance étendue sur divers aspects de la vie privée d’une personne.

Rémy Marquier