Les données ou statistiques, détenues ou élaborées par des administrations ou des entreprises, sont en général construites à partir d’informations individuelles, ce qui pose la question de la protection des sources, c’est-à-dire de la vie privée, compte tenu des progrès constants de la science et des process de traitement. Comment établir et maintenir la confiance du grand public, partie prenante numéro 1, tout en respectant l’équilibre entre promesse de confidentialité et utilisation des données recueillies ?

Pour y répondre, deux approches sont complémentaires : l’une est réglementaire, et montre que les Etats ont pris conscience depuis longtemps de la nécessité d’établir des garde-fous juridiques ; l’autre vise à s’appuyer sur la technologie en mettant en place des obstacles techniques empêchant la diffusion de données contre le gré de leur auteur.

Le cadre réglementaire et législatif actuel de la vie privée

Notons tout d’abord qu’il existe une différence majeure entre échantillon et mégadonnées. Un individu qui donne son accord pour participer à un échantillon le fait de son plein gré, l’acceptation est un acte conscient. Cette personne accepte de transmettre volontairement des informations, ce qui n’est pas forcément toujours le cas dans l’acquisition massive de données.

Du point de vue juridique, on peut considérer que le fait de consentir à faire partie d’un échantillon, d’un panel, est un acte volontaire donnant naissance à l’établissement d’un « contrat » entre le panéliste et la société d’études organisant l’échantillon, contrat concernant ses données à caractère personnel ou comportementales.

Les notions de confidentialité et de secret sont présentes dans de nombreux domaines : secret des affaires, secret bancaire, secret médical …En statistique et pour les bases de données, un cadre de régulation ou législatif existe dans beaucoup de pays, dont la France, qui a même joué un rôle précurseur avec la création de la Commission Nationale de l’Informatique et des Libertés (CNIL) et la loi dite « Informatique et Libertés » de 1978.

Néanmoins, la première loi fut la loi 51-711 du 7 juin 1951 sur l’obligation, la coordination et le secret en matière de statistiques. Elle définit le secret statistique, et un concept appelé « impossibilité d’identification » dans le cadre des dispositifs de recueil de la statistique publique (recensements, enquêtes). Ainsi, au niveau des personnes physiques, les données personnelles, familiales, ou d’ordre privé sont interdites de communication dans un délai de soixante-quinze ans. Pour le système productif, aucun résultat cumulé ne peut être diffusé pour un périmètre de moins de trois entreprises, ou si une entreprise représente au moins 85 % de l’indicateur faisant l’objet du cumul. Il peut arriver cependant que des exceptions soient faites à des fins de recherche scientifique, après avis du Comité du Secret Statistique, instance située dans le périmètre du Conseil National de l’Information Statistique (CNIS), qui a pris en 1984 la succession du Conseil National de la Statistique créé en 1972.

La loi la plus connue est probablement la loi n° 78-17 du 6 janvier 1978 relative à l’informatique, aux fichiers et aux libertés, entrée dans le langage commun sous le nom de « Loi Informatique et Libertés ». Elle précise les règles de protection de la vie privée dans l’usage des fichiers de données à caractère personnel.

L’article 1 de la loi de 1978 précise que « constitue une donnée à caractère personnel toute information relative à une personne physique identifiée ou qui peut être identifiée, directement ou indirectement, par référence à un numéro d’identification ou à un ou plusieurs éléments qui lui sont propres ».

Ces données à caractère personnel peuvent être conservées brutes, ou bien sûr être traitées et conservées après traitement. Le sens de ce terme est bien plus large que celui que lui confèrent les statisticiens. En effet, la loi stipule qu’un traitement est « toute opération ou tout ensemble d’opérations portant sur de telles données, … ,et notamment la collecte, l’enregistrement, l’organisation, la conservation, l’adaptation ou la modification, l’extraction, la consultation, l’utilisation, la communication par transmission, diffusion ou toute autre forme de mise à disposition, le rapprochement ou l’interconnexion, ainsi que le verrouillage, l’effacement ou la destruction ».

Les Big Data sont « big » en deux sens : en quantité et en variété disponible ; il faut également y ajouter les performances des analyses qui peuvent y être appliquées pour faire de l’inférence. Ce mot est associé à la théorie de Sir Ronald Fisher, dans les années 1920. Or l’inférence « fisherienne » de la statistique classique consiste à passer de l’échantillon à la population : apprendre sur un tout en observant une partie. Les bases de données et les algorithmes peuvent engendrer une inférence « perverse », une inférence inversée : de la base de données vers l’individu i.

Ces traitements, modèles, algorithmes, bref le data mining, peuvent permettre d’accéder non seulement à des éléments personnels caractérisant l’individu i contenus dans les data, mais aussi à des données non contenues, issues de traitements, c’est-à-dire des variables estimées. Quel est le statut de cette donnée non recueillie mais approchée ?

Un exemple bien connu est le « profiling », qui consiste à estimer les caractéristiques socio-démographiques à partir d’un comportement. Ainsi, le surf d’une adresse IP sur des sites S, S’, S’’ … dont les structures socio-démographiques des visiteurs sont connues permet assez simplement, par une banale décomposition en probabilités conditionnelles, d’approcher le profil de l’utilisateur. L’objet même des contenus des sites visités peut entraîner une estimation des centres d’intérêt du visiteur et même de le classer éventuellement dans une catégorie, fût-elle « éphémère ».

Enfin, il faut bien intégrer que les réflexions actuelles sur la protection des données ont lieu dans le contexte scientifique actuel, connu ; il suffit de revenir dix ans en arrière pour être certain que les progrès constants – ou exponentiels – de la science aideront la création de nouveaux modèles, de nouveaux algorithmes, conçus à une date postérieure à la constitution de la base de données, et entraînant de nouvelles approches ; sans oublier l’accroissement des capacités de stockage et de calcul.

La loi « Informatique et Libertés » abordait déjà ces possibilités liées à des traitements. Son article 10 mentionne explicitement « qu’aucune décision de justice impliquant une appréciation sur le comportement d’une personne ne peut avoir pour fondement un traitement automatisé de données à caractère personnel destiné à évaluer certains aspects de sa personnalité. Aucune autre décision produisant des effets juridiques à l’égard d’une personne ne peut être prise sur le seul fondement d’un traitement automatisé de données destiné à définir le profil de l’intéressé ou à évaluer certains aspects de sa personnalité ».

Par contre, « ne sont pas regardées comme prises sur le seul fondement d’un traitement automatisé les décisions prises dans le cadre de la conclusion ou de l’exécution d’un contrat et pour lesquelles la personne concernée a été mise à même de présenter ses observations ».

Parmi les données à caractère personnel, il existe une catégorie particulière : les données sensibles, dont la collecte et le traitement sont par principe interdits. Est considérée comme sensible une information qui fait apparaître, directement ou indirectement, les origines raciales ou ethniques, les opinions politiques, philosophiques ou religieuses, les appartenances syndicales, relative à la santé ou à la vie sexuelle (article 8). La notion de donnée sensible a été étendue par la jurisprudence. Ainsi, tracer les maladies contactées par un individu, ou même ses congés de maladie, est répréhensible. Relèvent aussi de cette appellation les éléments biométriques ou génétiques, les infractions, condamnations ou mesures de sûreté, le numéro INSEE ou sécurité sociale, etc.

En outre, bien ne figurant pas dans la loi de 1978, des données peuvent être considérées comme sensibles selon le contexte : données comptables ou financières pour une entreprise, par exemple.

Troisième cadre législatif, le Code des Postes et Télécommunications électroniques (loi 84-939 du 23 octobre 1984, modifiée plusieurs fois) aborde le traitement des données à caractère personnel dans le cadre de la fourniture au public de services de communications électroniques, notamment via les réseaux qui prennent en charge les dispositifs de collecte de données et d’identification.

Dans un contexte voisin, le Groupe de l’Article 29, réunissant les entités européennes, a officialisé une « Déclaration commune des autorités européennes de protection des données » le 25 novembre 2014. Et le 8 décembre 2014, un Forum de l’UNESCO a été consacré à « The European Data Gouvernance ».

Le cadre déontologique

A côté de ces lois, il convient de mentionner l’existence de codes de déontologie professionnels, dont celui des administrateurs de l’INSEE et celui d’ESOMAR (European Society for Opinion and Market Research).

Cette organisation professionnelle, la première au monde dans son domaine, regroupe les professionnels des études et de la recherche en marketing depuis 1948. Dès sa création, ESOMAR a défini un code de déontologie qui est régulièrement mis à jour ; ce code précise les « bonnes pratiques » pour les études de marché et d’opinion, l’un de ses objectifs étant d’établir la confiance du public envers ce type d’étude, le public étant une partie prenante majeure. A cette fin, ce code définit la notion de participation entièrement volontaire, les droits des répondants et leur anonymat.

Les orientations à venir ?

Il est difficile de les prévoir. De nombreuses réflexions sont en cours sur données, vie privée et traitements. Nous avons parlé, à l’occasion de la question 2, de la loi République Numérique de Mme Axelle Lemaire. Le cadre national est aussi dépendant de l’Europe.

En janvier 2012, la Commission européenne présentait sa réforme de la protection des données dans l’Union, afin que l’Europe s’adapte à l’ère numérique. Pratiquement quatre ans plus tard, le 15 décembre 2015, un accord a été conclu avec le Parlement européen et le Conseil, à l’issue des négociations finales entre les trois institutions.

Les pratiques des acteurs sont également à suivre de près, car susceptibles d’avoir des incidences de toute sorte sur divers métiers.

Deux exemples : en novembre 2014 a été diffusée la dépêche ci-après :

« Facebook va transmettre les données de 185 millions d’Américains à Buzzfeed et ABC.

Buzzfeed va se servir des données de Facebook comme outil de sondage lors des élections présidentielles américaines de 2016. Le site de médias-divertissement aura accès, comme la chaîne ABC, à des données sur les sentiments et avis politiques des 185 millions d’américains inscrits à Facebook. L’analyse de ces données, baptisée Sentiment analysis, seront fournies directement par Facebook. «Nous pensons que cela peut être la source la plus importante de données politiques», écrit Buzzfeed, qui relève toutefois une faille: l’analyse peine pour le moment à détecter le sarcasme. »

Toujours en novembre de cette même année, Facebook a annoncé qu’il modifiait sa politique de vie privée en prenant la propriété des données déposées par ses utilisateurs, l’annonce étant faite le 13 novembre 2014 et sa mise en application le 20 novembre.

Sur un tout autre plan, le Sénat français a voté le 12 novembre 2014 un rapport préconisant d’introduire dans le recensement deux questions sur le pays de naissance des ascendants et sur la nationalité antérieure.

Les propositions du Conseil d’Etat

Le Conseil d’Etat a publié mi-septembre 2014 un imposant livre intitulé « Le numérique et les droits fondamentaux », contenant 50 propositions pour mettre le numérique au service des droits individuels et de l’intérêt général. Malgré le caractère précurseur de l’article 10 de la loi Informatique et Libertés, déjà mentionné, le travail du Conseil d’Etat revient sur les « algorithmes prédictifs ».

Extrait des cinq propositions du Conseil d’Etat les concernant :

« 1 – Pour assurer l’effectivité de l’interdiction de fonder une décision sur la seule mise en œuvre d’un traitement automatisé, confirmer que l’intervention humaine dans la décision doit être réelle et pas seulement formelle. Indiquer dans un instrument de droit souple les critères d’appréciation du caractère effectif de l’intervention humaine.

2 – Imposer aux auteurs de décisions s’appuyant sur la mise en œuvre d’algorithmes une obligation de transparence sur les données personnelles utilisées par l’algorithme et le raisonnement général suivi par celui-ci. Donner à la personne faisant l’objet de la décision la possibilité de faire valoir ses observations.

3 – Dans le cadre de l’article 44 de la loi du 6 janvier 1978 et dans le respect du secret industriel, développer le contrôle des algorithmes par l’observation de leurs résultats, notamment pour détecter des discriminations illicites, en renforçant à cette fin les moyens humains dont dispose la CNIL.

4 – Analyser les pratiques de différenciation des prix reposant sur l’utilisation des données personnelles, mesurer leur développement et déterminer celles qui devraient être qualifiées de pratiques commerciales illicites ou déloyales, et sanctionnées comme telles.

5 – Encourager la prise en compte de la diversité culturelle dans les algorithmes de recommandation utilisés par les sites internet diffusant des contenus audiovisuels ou musicaux. »

Le rapport « La nouvelle grammaire du succès, la transformation numérique de l’économie française »

Ce rapport résulte d’une mission confiée à Philippe Lemoine en janvier 2014 par les ministres Pierre Moscovici, Arnaud Montebourg, Fleur Pellerin et Marylise Lebranchu. Il a été remis au Gouvernement en novembre 2014.

Abordant le numérique et donc un champ bien plus large que les mégadonnées, même si ces dernières sont souvent citées, ce rapport a le mérite de mettre en évidence que, sur le plan économique, la transformation numérique présente pour la France bien plus d’opportunités que de risques.

Par ailleurs, certaines affirmations incitent à la réflexion : « Nous pourrions affirmer ainsi un droit de chacun sur ses données personnelles, ouvrant la possibilité de stocker ses données dans des cloud personnels … », « il faut redonner la souveraineté de la donnée aux particuliers … ».

Le principe de faire confiance aux citoyens, en leur redonnant le contrôle de leurs données à caractère personnel, abordé dans ce rapport apparaît de plus en plus fréquemment. Cette piste est-elle socialement envisageable sans créer de clivages dans la population, avec des groupes à plusieurs vitesses selon leur degré de maîtrise technologique ?

Le marché bifaces

C’est peut-être l’occasion d’aborder la théorie du marché bifaces, en lien avec le point précédent, et le pouvoir de l’individu sur ses données. Cette théorie a été développée dans le cadre de l’Ecole d’Economie de Toulouse, impulsée par Jean-Jacques Laffont, dans le contexte de l’économie industrielle, au début des années 2000. Jean Tirole, prix Nobel d4economie en 2014, y a grandement contribué.

Un marché biface repose sur la co-existence de deux catégories d’acteurs distincts mais dépendants l’un de l’autre. Un exemple est celui d’une plate-forme occupant une position centrale sur un marché, un plate-forme proposant des services différents à deux faces (ou côtés) du marché, avec des prix spécifiques.

Média : un journal vend du contenu au lecteur et des espaces publicitaires aux annonceurs, les catégories des lecteurs et des annonceurs étant liées sur le marché des biens ou services (réseau).

Question économiquement majeure : la théorie de la valeur appliquée aux données, les plates-formes centrales ayant un pouvoir de marché bilatéral : elles décident du prix demandé à chaque côté du marché et fixent le plus souvent des prix uniformes (le prix est le même pour tous les agents d’un côté donné du marché).

Peut-on assurer techniquement la confidentialité ?

Les rapports entre « privacy », la protection de la vie privée, et les bases de données sont un champ de recherche déjà abordé au milieu des années 1970.

Pour tous, le respect de la vie privée est une priorité : c’est d’ailleurs le genre d’axiome sur lequel tout le monde est d’accord a priori, mais il est bien connu que « le diable est dans le détail ». Comment alors assurer ce respect sur le plan technique, en plus du cadre réglementaire existant ?

L’émergence des Big Data et l’opportunité économique et de R&D qu’ils présentent provoquent une réflexion actuelle qui frôle le grand écart. Comment concilier respect de la vie privée et potentiel de relance économique ?

Aux Etats-Unis, le PCAST – instance de conseil en sciences et technologies auprès du Président – croit fermement que « les bénéfices sont incomparablement plus grands que les risques de dommages. …. »

Il est donc du plus haut intérêt de garantir au mieux la confidentialité aux personnes participant à des bases de données, qu’elles soient big ou small, afin de faire vivre avec elles une relation de confiance.

Deux grands courants de pensée semblent apparaître : le premier est de type réglementaire, basé sur des garde-fous juridiques ; le second, nord-américain, est plus ouvert.

Au-delà des interdits, existe-t-il des réponses techniques à ce besoin de confidentialité ?

Le cryptage

Comment concilier promesse de confidentialité et de protection de la vie privée tout en utilisant les données recueillies ?

Tout d’abord, il faut distinguer tout ce qui est sécurité informatique (cybersécurité) et protection de vie privée.

Sur le plan de la cybersécurité, les méthodes de cryptage – la cryptographie, ou science du chiffrement, est l’apanage des gendarmes là où la cryptanalyse, science du déchiffrement est le terrain de jeu des voleurs – ont bien évolué depuis leurs origines il y a plus de trois millénaires. Jules César cryptait les messages qu’il envoyait à ses généraux ; le « Grand Chiffre » du Cabinet Noir de Louis XIV, dû à la famille Rossignol des Roches (Antoine, Bonaventure le fils, Antoine-Bonaventure le petit-fils) acquiert au XVIIème siècle une célébrité mondiale pour l’époque. Tout le monde a entendu parler du codage utilisé par le télégraphe de Claude Chappe à la fin du XVIIIème siècle, ou quelques années plus tard par Samuel Morse.

Ces méthodes permettent de rendre illisible, c’est-à-dire incompréhensible, un document – au sens large – à tout acteur ne possédant pas la clé. Une technique de chiffrement est dite symétrique quand la même clé est employée pour coder et pour décoder. Elle sera asymétrique si deux clés différentes et indépendantes fonctionnent, l’une pour masquer, l’autre pour démasquer.

Il faut mentionner les travaux, somme toute récents, de Mme Shafi Goldwasser et Silvio Micali, professeurs au MIT, sur la notion de sécurité sémantique (pré-print en 1982, puis article dans Journal of Computer and Systems Sciences, 1984). Tous deux ont conçu le premier système à chiffrement probabiliste dont on prouve la sécurité absolue. Ils ont reçu, en mars 2013, le Turing Award décerné par l’ACM (Association for Computing Macante sera fondée sur le cryptage quantique, et la polarisation des photons.

Malgré tous les progrès des protocoles de cryptage, les données peuvent courir des risques même en cas de parfaite cybersécurité, que ce soit par hasard, accident, inadvertance, défaillance humaine, en plus des tentatives d’intrusion ou de malversation de tierces parties.

On peut néanmoins considérer que la cybersécurité est une condition nécessaire à la protection de la vie privée, mais pas forcément suffisante.

La vision de Tore Dalénius

Le bien connu statisticien suédois Tore Dalenius a énoncé en 1977, dans le contexte des bases de données telles qu’elles existent alors, des principes touchant à l’éthique, au sens du respect de l’intimité et de la vie privée. Dans son article publié dans Statistik Tidskrift (1977), « Towards a methodology for statistical disclosure control », Dalenius pose le principe suivant :

« Accéder à une base de données ne doit pas permettre d’apprendre plus de choses sur un individu que ce qui pourrait être appris sans accès à cette base de données. »

Il ajoute que, X(i) étant la valeur de la variable X pour l’individu répondant i, si la publication d’un agrégat statistique T permet de déterminer la valeur X(i) plus précisément que sans accès à T, alors il y a eu faille de confidentialité.

Le principe innovant de Dalenius semble simple et cohérent. Malheureusement, on peut démontrer qu’il ne peut être atteint. La raison en est l’existence d’information auxiliaire, c’est-à-dire une information disponible – hors de la base de données initiale – pour toute personne « tierce partie » ou « adversaire » voulant trouver une faille et accéder à des données à caractère personnel.

Sans en faire la démonstration, on peut donner un exemple de l’impossibilité de ce principe. Considérons une base de données contenant les tailles d’échantillons d’hommes adultes de K nationalités, dont l’Italie. Supposons que l’on dispose de l’information auxiliaire : «  Monsieur T mesure deux centimètres de plus que l’homme italien adulte moyen ». A partir de la base de données, on déduit précisément la taille de M. T. Et on remarque que, inversement, l’accès à la seule information additionnelle fournit relativement peu d’éléments sur M. T. En outre, le résultat d’impossibilité s’applique que T contribue à la base de données ou pas.

Plus formellement, le théorème d’impossibilité du principe de Dalenius peut s’écrire ainsi :

Soit S un mécanisme de protection d’une base de données, et une faille F dans cette protection.

Pour toute base de données, il existe toujours une information auxiliaire Z telle que :

  1. Z seule n’a pas d’utilité pour un « adversaire »

  2. Z combinée avec les données protégées permet de trouver dans S une faille F avec une probabilité qui tend vers 1

L’anonymisation

La première technique, a priori intuitive, consiste en l’anonymisation des données.

Vu de loin, cela revient à enlever des bases de données toutes les variables qui pourraient permettre d’identifier le répondant.

Nous retrouvons ici la notion de donnée à caractère personnel de la loi de 1978, une donnée étant considérée personnelle dès qu’elle est relative à un individu identifié ou identifiable de façon directe ou indirecte. Une personne physique sera identifiée par son nom, et aisément identifiable par bien d’autres variables.

Pour l’identifier, on peut disposer d’éléments comme un code d’immatriculation, l’adresse, l’adresse IP, les numéros de téléphone, un code PIN (Personal Identification Number), des photographies, des composants biométriques comme une empreinte digitale ou l’ADN, ou plus généralement tout ensemble de variables permettant par croisement ou recoupement de retrouver un individu dans un ensemble (par exemple, commune de naissance et date de naissance ; ou bien le bureau de vote). L’identification n’est peut-être pas parfaite ou immédiate, mais la loi de probabilité de bonne identification s’éloigne sensiblement de la loi uniforme considérée alors comme la loi de « l’ignorance parfaite ».

Depuis plus d’une dizaine d’années, les nouvelles technologies de la communication créent de nombreuses données de type données à caractère personnel. Ainsi, c’est le cas d’un appel passé depuis un téléphone mobile ou d’une connexion à Internet, et de manière plus large, des « logs » (nom donné il y a plusieurs siècles aux informations élémentaires contenues dans les journaux de bord de la marine), c’est-à-dire des “traces informatiques” facilement exploitables grâce aux progrès des logiciels, et notamment les moteurs de recherche.

L’anonymisation est un concept qui, à première vue, est simple à comprendre et à mettre en œuvre, mais il peut se révéler complexe et tendre à supprimer des variables utiles et pertinentes. En outre, le nombre de failles dans la confidentialité croît avec le progrès des méthodes scientifiques et la probabilité de ré-identifier un individu augmente, même après anonymisation.

Bien que restant un « plus » pour la protection, l’anonymisation n’est pas l’avenir et ne saurait être une base pour une politique de protection de la vie privée.

Destruction des données

Une autre méthode consiste à supprimer les données après une période conventionnelle d’usage opérationnel. Au-delà de la duplication toujours possible d’une base de données, ce non-archivage infini introduit le séduisant concept « d’éphémère ». Cependant, en pratique, des données « caduques » peuvent encore avoir ou retrouver de la valeur bien après leur période de « vie active », sans compter les historiens ou les chercheurs pour lesquels cette période est probablement différente de celle du « milieu des affaires ». 

Agrégation

Une idée facile à mettre en oeuvre consiste à agréger les données individuelles et à ne rendre publics ou utilisables que des résultats agrégés. C’est le principe de la loi de 1951 pour le secret statistique sur les entreprises.

Mais que devient la recherche au niveau « micro », qui s’appuie fréquemment sur les modèles sur données individuelles ?

En outre, les performances des modèles mathématiques permettent de rendre insuffisante cette approche en autorisant une inférence individuelle inversée. Deux exemples pour en illustrer ses limites.

En 2008, N. Homer, S. Szelinger, M. Redman et alii publient « Resolving individuals contributing trace amounts of DNA to highly complex mixtures using high-density SNP genotyping microararys » dans PLoS Genetics (Public Library of Science).

Cet article est un exemple abouti de l’inférence inverse évoquée précédemment, comme le prouve son résumé :

« We use high-density single nucleotide polymorphism (SNP) genotyping microarrays to demonstrate the ability to accurately and robustly determine whether individuals are in a complex genomic DNA mixture. We first develop a theoretical framework for detecting an individual’s presence within a mixture, then show, through simulations, the limits associated with our method, and finally demonstrate experimentally the identification of the presence of genomic DNA of specific individuals within a series of highly complex genomic mixtures, including mixtures where an individual contributes less than 0.1% of the total genomic DNA. These findings shift the perceived utility of SNPs for identifying individual trace contributors within a forensics mixture, and suggest future research efforts into assessing the viability of previously sub-optimal DNA sources due to sample contamination. These findings also suggest that composite statistics across cohorts, such as allele frequency or genotype counts, do not mask identity within genome-wide association studies. The implications of these findings are discussed. »

Un deuxième exemple est fourni par l’article “Identifying participants in the Personal Genome Project by name”, de L. Sweeney, A. Abu et J. Winn. Travaillant sur le Personal Genome Project (PGP) américain, les auteurs montrent qu’ils identifient correctement 84 % des profils ; ce taux monte à 97 % si on relâche la notion d’identification stricte, par exemple en acceptant les diminutifs comme Jim pour James ou Andy pour Andrew.

Obscurcir les données

L’obscurcissement des données – on parle aussi d’assombrissement ou d’obfuscation (du verbe latin obfusco, obfuscare, ou obfundo, obfundere, assombrir, obscurcir) – consiste préserver la confidentialité en « altérant » les données. Ceci peut être atteint soit indirectement en les plongeant dans des espaces de dimension plus élevée, principe de dilution, soit directement en les transformant – le codage n’est pas loin –.

Dans la première famille de méthodes, on peut par exemple créer de nouvelles variables additionnelles qui vont augmenter la dimension initiale K du vecteur recueilli, et créer du « brouillard » masquant.

Dans la deuxième famille, on distingue les techniques non perturbatrices, comme masquer la valeur de certaines cellules dans un tableau de résultats, enlever des variables pour certains individus, partager seulement un échantillon de données extrait de la base de données générale, combiner certaines catégories pour des variables à modalités.

Il y a aussi, et surtout, des méthodes directement interventionnistes sur les données qui vont engendrer du bruit, au sens large. Par exemple, il est possible de modifier certaines variables numériques en les arrondissant, ou en les bloquant par troncature à des seuils maximum ou minimum.

On peut également transformer les K variables en leur appliquant un homomorphisme (X1, …, XK) –> (X1), …, K(XK)), permuter les valeurs d’une même variable entre deux répondants, ou perturber les données en y ajoutant un bruit aléatoire Xk –> Xk + k.

Certaines transformations (permutation, rotation) laisseront invariantes les statistiques, par exemple linéaires, d’autres non.

Une piste d’investigation particulièrement intéressante porte le nom de données synthétiques (« synthetic data »), née des travaux sur les données manquantes de J. Little et D. Rubin.

Une approche innovante : la confidentialité différentielle

Est apparue depuis le milieu des années 2000 une autre forme de « privacy », dont l’une des figures de proue est Cynthia Dwork, chercheuse de Microsoft. Sa philosophie s’inspire très fortement de celle de Dalenius et peut être synthétisée ainsi :

La probabilité d’une conséquence négative quelconque pour l’individu i (par exemple le fait que i se voie refuser un crédit, ou une assurance) ne peut augmenter significativement en raison de la participation de i à une base de données.

Tout en sachant qu’il convient de donner du sens à l’adverbe « significativement » et qu’il est bien sûr très complexe de prédire quelle information, ou combinaison d’informations, pourrait entraîner des conséquences négatives au répondant si elle était rendue publique. D’autant plus que, d’une part, cette information peut être estimée par modèle, et que, d’autre part, le vecteur d’informations négatives est potentiellement différent d’un individu à l’autre.

Cette approche est appelée « differential privacy » (intimité ou confidentialité différentielle), et repose sur des fondements probabilistes et statistiques. Peut-être va-t-elle être amenée à se développer rapidement.

L’idée est de quantifier le risque (probabilité) de faille dans la promesse de confidentialité, tout en mesurant l’effet de la protection des données et de la vie privée sur la qualité des résultats et analyses statistiques.

Un champ de recherche s’ouvre pour développer des méthodes pour analyser les données après introduction d’obscurcissement, d’altération ou toute autre process de modification afin de préserver la confidentialité.

Le principe de l’approche peut être résumé ainsi :

  1. Promettre à une personne appartenant à la base de données qu’une tierce partie (« l’adversaire ») ne pourra rien apprendre de plus sur elle qu’elle accepte de participer ou non.

  2. Mesurer précisément l’efficacité du mécanisme de protection de la confidentialité

  3. Maintenir la confidentialité même si la tierce partie a accès à des données auxiliaires sur l’individu concerné

Une statistique ou fonction randomisée (aléatoire) f garantit la confidentialité différentielle au niveau > 0 si et seulement si pour tous jeux de données voisins D et D’, et pour tout T appartenant à Im(f), l’image de f, on a :

e ≤ e

où deux jeux de données sont voisins s’ils diffèrent d’un individu et d’un seul.

Notons que cela est proche de la technique du Jackknife créée par M. Quenouille en 1949 et 1956, qui, dans une logique d’estimation, travaille sur des échantillons auxquels il a enlevé une observation.

Plus est petit, plus la confidentialité est accrue. Se pose néanmoins la question du choix de .

La définition de f est à prendre au sens large (statistique usuelle comme moyenne, variance, proportion, coefficients d’un modèle, jeu de données synthétiques). Un lien existe entre la confidentialité différentielle et les données synthétiques.