Comment « partager sans partager » les données sensibles ?

Le 8 mars 2021, Rémy Marquier publiait un article sur le besoin de partager les données confidentielles avec des partenaires tiers (lien), un an plus tard c’était au tour de François Meunier de livrer ses idées sur le dilemme entre la diffusion ou non des données sensibles (lien). Ce dilemme semble être insoluble de prime abord : d’un côté la tentation d’ouvrir les données pour répondre aux enjeux de notre temps (progrès scientifique, sociétal ou autre), de l’autre le risque de perdre le contrôle une fois ces données partagées avec un tiers et de mettre en danger la confidentialité et la « privacité » des données. Une réglementation telle que le RGPD impose aux organisations qui collectent les données sensibles de soupeser savamment ce calcul risque-bénéfice et les amène le plus souvent au non-partage de leurs données ou alors de données pré-agrégées ou anonymisées dont l’utilité est alors très dégradée. L’exemple typique se rencontre dans le secteur de la santé où les hôpitaux doivent protéger les données des patients qu’ils collectent et sont donc réticents pour de bonnes raisons à partager leurs données avec un tiers extérieur, par exemple un laboratoire pharmaceutique qui cherche à étudier l’efficacité d’un médicament. Il s’agissait jusque-là néanmoins de l’approche la plus raisonnable au vu des risques encourus…jusqu’à l’avènement d’une technologie qui allait bousculer ce paradigme, le confidential computing. Avec le confidential computing, on peut désormais « partager sans partager » et ce dilemme n’a plus lieu d’être.

Un rêve…

Imaginez que vous puissiez mettre vos données à la disposition d’un partenaire tiers qui voudrait les analyser tout en ayant la garantie que :

ce tiers ne pourrait pas accéder à vos données sensibles mais seulement aux résultats de son analyse sur vos données,
ces résultats seraient anonymes et ne divulgueraient pas d’information sensible,
ce tiers ne pourrait pas utiliser les données autrement que pour l’usage que vous auriez consenti,
le fournisseur de logiciel entre le tiers et vous ne pourrait pas accéder à vos données,
l’hébergeur des serveurs utilisés pour la collaboration ne pourrait pas non plus accéder à vos données.

… qui devient réalité avec le confidential computing

Voici le nouveau paradigme dans lequel nous plonge le confidential computing qui appartient à la famille des privacy enhancing technologies, aussi appelées « PET » en anglais, acronyme peu gracieux dans la langue de Molière, je l’admets.

Le confidential computing fait référence à l’utilisation de processeurs de nouvelle génération appelés secure enclave qui garantissent une isolation totale des données pendant les calculs (data in-use) qui restent encryptées jusque dans la mémoire (RAM) du processeur, rendant impossible leur accès par quelque tiers que ce soit : l’utilisateur externe qui interroge ces données, le fournisseur de logiciel et même l’hébergeur. Ce dernier point est particulièrement intéressant quand on sait l’hésitation en Europe à employer des hébergeurs publics étrangers tels que Amazon ou Microsoft à cause du risque d’espionnage et de fuite de données. De plus, ces secure enclave offrent un service de remote attestation qui fournit une preuve (cryptographique) aux fournisseurs de données que ne peut être exécuté dans ces sortes de boîtes noires que ce qu’ils ont approuvé. Ces secure enclaves font leur arrivée chez les grands hébergeurs à travers le monde (Amazon, Microsoft, OVH, Alibaba, IBM et d’autres). En 2019, ils ont lancé ensemble le Confidential Computing Consortium avec la participation de fournisseurs de processeurs (Intel, AMD, ARM). Cette technologie n’est pourtant pas si nouvelle, elle équipe déjà depuis plusieurs années nos smartphones pour y protéger les données les plus sensibles ainsi que nos ordinateurs portables. Devant le besoin grandissant de protéger les données sensibles, cette technologie connaît à présent un essor dans sa version « serveur » pour équiper les data centers.

Exemple concret dans la santé

Revenons maintenant à l’exemple de notre hôpital qui avait refusé plus tôt de partager ses données avec un laboratoire pharmaceutique. Désormais, dans le nouveau paradigme qu’offre le confidential computing, l’hôpital et le labo peuvent se mettre d’accord en amont sur les calculs qui seront opérés sur les données et s’assurer que les résultats de ces calculs garantissent bien l’anonymat des patients, par exemple en veillant à ce que les calculs agrègent bien les résultats finaux ou en ayant recours à des techniques plus avancées telles que des filtres de k-anonymity ou des filtres de differential privacy. Une fois qu’un accord est trouvé entre les deux parties, l’environnement de confidential computing est configuré en spécifiant :

les participants : seul l’hôpital est autorisé à y connecter ses données, seul le laboratoire est autorisé à y récupérer les résultats de calculs,
les données : seul le périmètre de données spécifié peut être utilisé, rien d’autre (en termes techniques, le schéma de données),
les calculs : seuls les calculs autorisés peuvent être exécutés, rien d’autre (en termes techniques, un code écrit dans un langage de type R, Python ou autre).

La technologie de confidential computing garantit ce contrat immuable entre les deux parties, similaire à un smart contract généré sur une blockchain. Il ne reste plus à l’hôpital qu’à encrypter ses données localement, les charger dans la secure enclave et au laboratoire de déclencher les calculs et récupérer les résultats agrégés anonymes. En conclusion, l’hôpital n’a pas partagé ses données de patients avec le laboratoire et a gardé un contrôle total sur l’utilisation qui a été faite tout en ayant permis au laboratoire de récupérer des résultats très précieux. L’hôpital a donc « partagé sans partager ».

Est-ce conforme ?

Des signaux forts ont été envoyés en Europe ces deux dernières années sur l’usage du confidential computing. Étonnamment, les premiers à avoir adopté cette technologie et à le faire savoir ont été les Allemands. En effet le ministère de la Santé allemand utilise depuis 2021 la technologie du confidential computing pour sécuriser le « partage » des données de patient dans le cadre du projet de dossier médical électronique. En Belgique, l’équivalent de la CNIL, l’Autorité de Protection des Données, a autorisé l’utilisation de cette technologie dans le cadre d’une étude combinant des données de patients de plusieurs hôpitaux belges. Des avocats experts en RGPD et protection des données prennent position en faveur du confidential computing comme ici dans la revue Life Science Recht. Le confidential computing offre des garanties indéniables qui permettent de mieux se conformer au RGPD car les principes de data minimization, purpose limitation, privacy-by-design et d’autres se voient technologiquement appliqués et prouvés. Néanmoins il est important de rappeler que l’utilisation du confidential computing n’enlève en rien le besoin de disposer d’une base légale avant de l’employer. Il est certain que les autorités de protection de données en France comme ailleurs vont devoir dans les prochains mois se pencher sur cette technologie et exprimer leurs opinions quant à son usage dans divers contextes sous la pression des organismes publics et privés désireux d’utiliser cette technologie avec leur aval.

De la santé à la finance en passant par les médias…

Au-delà du domaine de la santé, le confidential computing a de nombreuses applications dans divers secteurs. Par exemple dans le secteur de l’assurance, il permet aujourd’hui à des assureurs italiens concurrents de comparer leur données de sinistres sans dévoiler leurs données confidentielles de clients afin de détecter si le même sinistre a été déclaré chez leurs concurrents dans le cadre d’une fraude à l’assurance (phénomène dit de double-dipping). Dans le secteur bancaire, il permet à des banques suisses de collaborer avec la Poste pour savoir si leurs adresses clients sont toujours à jour sans dévoiler les données personnelles de ceux-ci et ainsi porter atteinte au secret bancaire. Dans le secteur des médias et du marketing, le confidential computing permet de repenser la publicité alors que le cookie tiers est voué à disparaître et que les consommateurs demandent de plus en plus de protection de leur vie privée. Des annonceurs collaborent désormais avec des éditeurs de médias sur leurs données de clients respectives pour optimiser leurs campagnes marketing et mesurer l’efficacité de celles-ci tout en garantissant l’anonymat des clients de bout en bout. La liste des cas concrets d’application du confidential computing est déjà très longue aujourd’hui et ne cesse de s’agrandir, elle est vouée à impacter tous les secteurs. Vous, lectrice, lecteur, devez probablement déjà penser à des applications dans votre industrie.

…jusqu’à nous les citoyens

Les exemples cités jusqu’ici sous-entendent tous dans un premier temps la collecte des données personnelles par un organisme de confiance (par exemple un hôpital) qui décide ensuite de collaborer avec un organisme tiers (par exemple un laboratoire pharmaceutique) en utilisant le confidential computing. Poussons ensemble le raisonnement plus loin : pourquoi ne pas connecter directement les données des individus (patients, clients ou consommateurs) à ces boîtes noires de sorte que nous, citoyens, contrôlions directement nos données sans avoir à déléguer cette responsabilité à une entreprise tierce en charge de la collecte de ces données en échange d’un service? Cette question se pose par exemple avec l’essor des applications mobiles qui collectent des données très précieuses sur nos déplacements quotidiens, nos comportements alimentaires, notre santé et parfois nos vices. Il suffirait de directement connecter nos smartphones à ces boîtes noires pour nous rendre la souveraineté sur nos données. Utopie ? Détrompez-vous, les entreprises les plus innovantes au monde qui aujourd’hui collectent vos données sont en train d’intégrer le confidential computing dans leurs offres pour ne plus avoir à accéder à vos données et in fine rester compétitives. Affaire à suivre donc.

Mots-clés : partage de données (data sharing) – confidentialité – RGPD – data privacy – confidential computing

Cet article a été initialement publié le 16 mai 2022.

À propos
Articles récents

Pierre Cholet

Après près de 10 ans passé chez un spécialiste de logiciels big data, Pierre Cholet (ENSAE 2011) a rejoint l’équipe de direction de Decentriq, fournisseur logiciel Suisse de « data clean room » et membre fondateur du Confidential Computing Consortium.

Les derniers articles par Pierre Cholet (tout voir)

Comment « partager sans partager » les données sensibles ? - 28 décembre 2022

Comment « partager sans partager » les données sensibles ?

Un rêve…

… qui devient réalité avec le confidential computing

Exemple concret dans la santé

Est-ce conforme ?

De la santé à la finance en passant par les médias…

…jusqu’à nous les citoyens

A propos de l’auteur

Pierre Cholet

Laisser une réponse Annuler la réponse

A propos de Variances.eu

Abonnez-vous à notre newsletter

Thèmes

Archives

Commentaires récents