Mi-avril 2019, est paru un numéro double de la revue « Economie et statistiques », consacré aux big data. L’introduction est signée par un fidèle de « Variances », Philippe Tassi. Philippe, avec un peu d’aide de Gérard Bouvier, tous deux du comité éditorial, vous proposent un résumé de cette introduction pour notre revue. Naturellement, tant le numéro double (https://www.insee.fr/fr/statistiques/3706255) que l’introduction (https://www.insee.fr/fr/statistiques/3705956?sommaire=3706255) méritent d’être lus intégralement.

L’introduction débute par une perspective historique, qui fait apparaître les big data comme un retour de balancier vers l’exhaustif après les heures de gloire de l’échantillonnage. Une analyse des différents problèmes posés par les big data constitue le centre de la réflexion qui s’appuie sur le passé récent et s’ouvre vers le futur … proche. L’introduction comporte en outre une présentation des articles du numéro double qui n’est pas reprise ici et une riche bibliographie.

Un peu d’histoire(s)

La collecte de données nombreuses, et même exhaustives, ne date pas de l’ère numérique ; cette activité a suivi de près l’apparition de l’écri­ture, qui était une condition nécessaire. Les historiens et archéologues considèrent que celle‑ci est apparue en Basse Mésopotamie, l’actuel Irak, environ 5 000 ans avant notre ère, époque où se produisent les premières sédentarisations. Cela eut pour conséquence la naissance des cités du pays de Sumer. Pour gérer, connaître et administrer de telles cités, la mémoire ne suffit plus, et il faut employer des traces écrites. Le site d’Uruk a révélé de nombreuses tablettes d’argile, premières manifestations de l’écriture. La collecte de données peut commencer, avec deux centres d’intérêt majeurs : l’astronomie et le dénombrement exhaustif des populations. Ce dénombrement n’est pas étranger aux besoins de compter la force de travail et le potentiel fiscal offert par la population. Les recensements sont assurément des pratiques anciennes. La Chine et l’Inde, au dernier millénaire avant notre ère, ont des systèmes portant sur de vastes territoires. En Inde, l’empire Maurya couvre un vaste territoire, proche de celui de l’Inde actuelle et son premier empereur, Chandragupta, met en place un recensement au 4e siècle avant J. C.

Si l’on retient la définition de l’IA par Yann LeCun, titulaire de la chaire « Informatique et sciences numériques » du Collège de France en 2016, « faire faire aux machines des activités que l’on attribue généralement aux animaux et aux humains », il serait peut‑être pos­sible de faire remonter son apparition à Babylone ou l’Empire chinois, tant il semble naturel d’avoir très tôt cherché à modéliser le comportement du cerveau humain et à représenter l’homme comme une machine pour pouvoir ensuite concevoir des machines apprenantes.

Plus proche de nous, le Catalan Ramon Llull (1232‑1315), philosophe théologien, inventeur des « machines logiques », est considéré comme un précurseur, que Gottfried Leibniz, au 17e siècle reconnaîtra comme source d’inspiration. Le « big data » et l’IA ont donc de très anciennes racines.

L’amorce d’approches d’échantillonnage se produit au milieu du 17e siècle (on citera ici J.Graunt, William Petty et Vauban). Ce n’est qu’au 20e siècle que l’on observe un lent recul de l’exhaus­tivité. On peut dater l’acte fondateur du paradigme de l’échantillonnage en 1895 (Communication d’A. N. Kiaer, au Congrès de Berne de l’Institut International de Statistique). Suivront l’article de référence sur la théorie des sondages (Neyman, 1934) et des applications pratiques : analyses économiques à partir des panels de consommateurs ou distributeurs (Nielsen, GfK, …). G.Gallup triomphe dès 1936 en prévoyant par sondages la victoire de Roosevelt. L’Institut Français d’Opinion Publique (IFOP) est fondé (par J.Stoetzel) en 1937. Après la guerre, l’échantillonnage devient la référence par la rapidité d’exploitation, la réduction des coûts, dans un contexte de forte avancée des probabilités et de la statistique et de l’informatique avec, en outre, une généralisation des domaines d’application en économie, statistique officielle, santé, marketing, sociologie, audience des médias, science politique, etc. Mais un retour de l’exhaustif est tangible depuis la fin du 20e siècle. Des bases de données et une masse d’informations de plus en plus grandes peuvent être traitées numériquement. Mieux encore, il devient possible de mettre sous la même forme des informations historiquement distinctes et hétéro­gènes et de les traiter.

Les big data possèdent deux paramètres majeurs qui aident à définir leur volumé­trie : quantité et fréquence d’acquisition, la quantité recueillie pouvant aller jusqu’à l’exhaustivité, et la fréquence jusqu’au temps réel.

Les questions posées par les big data

Les big data soulèvent des questions diverses, parfois anciennes, parfois nouvelles, concernant les méthodes de traitement, le stockage, la protection et la sécurité, les droits de propriété, etc. : quels traitements statistiques ou algorithmes appliquer aux données ? Quels sont le statut des données et celui de leur auteur/propriétaire ? Qu’en est‑il du cadre réglementaire ou législatif ? Questions qu’il convient d’aborder car les big data s’installent dans de nombreux domaines pour longtemps.

En France, les orientations ont été clairement annoncées par les trente‑quatre pro­positions pour relancer l’industrialisation en France (François Hollande, septembre 2013), le rapport de la Commission Innovation 2030 présidée par Anne Lauvergeon, qui mettait particulièrement en avant la qualité reconnue des formations mathématiques et statistiques françaises. Dans sa réflexion stratégique « Insee 2025 », l’Insee a abordé l’accès aux données privées et leur usage pour la statistique publique. Les objets connectés, l’internet des objets, renforcent ce phénomène (Nemri, 2015).

La confiance se construit sur deux piliers : le premier est réglementaire, le second technique.

Les données et les statistiques, détenues ou élaborées par les administrations ou les entreprises, ont en général été construites à partir d’informations individuelles, ce qui pose la question de la protection des sources, c’est‑à‑dire de la vie privée. Compte tenu des progrès constants de la science et des process de traitement, comment éta­blir et maintenir la confiance du grand public, partie prenante numéro un, tout en respectant l’équilibre entre promesse de confidentialité et utilisation des données recueillies ? Pour y répondre, deux approches complémentaires : l’une est réglemen­taire, car les États ont pris conscience depuis longtemps de la nécessité d’établir des garde‑fous juridiques ; l’autre vise à s’appuyer sur la technologie en dressant des obstacles techniques pour empêcher la diffusion de données contre le gré de leur sujet.

Le cadre législatif français s’appuie notamment sur les lois, celle de 1951 relative à l’obligation, à la coordination et au secret en matière statistique et celle dite « Informatique et Libertés » de 1978. Le secret statistique se définit comme une « impossibilité d’identification », contraignante pour les recensements ou les enquêtes.  Le Code des Postes et Télécommunications électroniques (loi de 1984 modifiée plusieurs fois) aborde le traitement des données personnelles dans le cadre des services de commu­nications électroniques, notamment via les réseaux. Très récemment (2014) le Conseil d’État a publié un ouvrage intitulé « Le numérique et les droits fondamentaux » contenant cinquante propositions. Mentionnons encore les codes de déontologie professionnels, comme celui de l’European Society for Opinion and Market Research (ESOMAR), né en 1948, et régulièrement mis à jour pour préciser les « bonnes pratiques » dans la conduite des études de marché et d’opinion.

La loi de 1978 précise les règles applicables aux données à carac­tère personnel. Elle comporte des définitions précises et extensives de ce qu’est une donnée à caractère personnel, l’identification directe ou indirecte, les traitements, …  Ceci est important, les big data permettant des traitements massifs de données et des analyses extensives permettant l’inférence à des degrés de haute sophistication.

Enfin, depuis 2016 et sa mise en œuvre au niveau européen en mai 2018, le RGPD (Règlement général de protection des données) est au centre de toutes les attentions ; et ce d’autant plus qu’il va être suivi par le règlement e‑privacy, loi spéciale du RGPD.

Protéger les données : une problématique ancienne

Le rapport entre l’informatique, la vie privée, les données nominatives et les bases de données est un champ de recherche assez ancien, abordé formellement depuis les années 1970.

La cyber‑sécurité et les méthodes de cryptage ont bien évolué depuis leur origine il y a plus de trois millénaires. Ces méthodes permettent de rendre illisible, c’est‑à‑dire incompréhensible, un document – au sens large – à quiconque ne détient pas la clé de cryptage. Jules César cryptait les messages qu’il envoyait à ses généraux ; le code utilisé par le télé­graphe électrique de Samuel Morse en est un autre exemple, bien plus récent.

Dans le contexte des bases de données telles qu’elles existaient avant 1980, le statisticien suédois Tore Dalenius a énoncé des principes touchant à l’éthique, au respect de l’intimité et de la vie privée. Son article (Dalenius, 1977) posait le principe suivant : « Accéder à une base de données ne doit pas permettre d’apprendre plus de choses sur un individu que ce qui pourrait être appris sans accéder à cette base de données » . Il ajoutait : X(i) étant la valeur de la variable X pour l’individu i, si la publication d’un agrégat statistique T permet de déterminer X(i) précisément, sans accéder à T, il y a une faille de confidentialité. Ce principe semble acceptable. Garantir la confidentialité est difficile, notamment du fait qu’une tierce partie qui souhaiterait recueillir des données à caractère personnel sur l’individu i peut y parvenir en tirant parti d’informations auxiliaires qui lui sont accessibles en dehors de la base de données.

Différentes solutions … partielles : l’anonymisation, la destruction ou l’agrégation de données

Pour protéger les données, l’anonymisation se pose d’emblée comme une solution. Cela revient à retirer de la base de données toutes les variables permettant d’identifier une personne particulière. Nous retrouvons ici la notion de donnée à caractère personnel évoquée par la loi Informatique et Libertés ; une personne physique est certes identifiée par son nom. Mais elle peut l’être aussi par bien d’autres variables caractéristiques. Citons : un code d’immatricula­tion, une adresse (postale ou IP), des numéros ou codes de téléphone, des photographies, une empreinte digitale ou l’ADN. Plus généralement, des variables permet­tent, par croisement ou par recoupement, de retrouver un individu dans un ensemble (par exemple : sa commune de naissance, la date de sa naissance ou le bureau où il vote). L’identification est moins parfaite ou moins immédiate que par son patronyme, mais elle est très probable, ce qui nous éloigne sensiblement de l’igno­rance parfaite !

Depuis plus d’une dizaine d’années, les technologies d’information et communica­tion créent de nombreuses données exploitables par une analyse du type précédent, à l’occasion d’un appel téléphonique depuis un appareil mobile ou d’une connexion Internet, par exemple. Concept à première vue simple à comprendre et à mettre en œuvre, l’anonymisation peut se révéler complexe ; elle risque aussi de supprimer des variables utiles ou pertinentes de la base de données. En outre, on constate que le nombre de failles dans la confidentialité croît avec les progrès scientifiques.

Une autre méthode consiste à supprimer les données au‑delà d’un certain délai pendant lequel elles resteraient opérationnelles. Néanmoins, des données effa­cées peuvent avoir de la valeur très longtemps, pour des historiens ou pour des chercheurs par exemple. Reprenant le principe de la loi de 1951 pour le secret statistique sur les entreprises, on pourrait alors agréger les don­nées individuelles et ne divulguer, après un certain temps, que des résultats agrégés.

Plus récentes, mais encore imparfaites : l’obscurcissement ou le bruitage

Obscurcir les données consiste à préserver la confidentialité des données en les « altérant ». Ceci peut être fait indirectement, en plongeant ces données dans des espaces de dimension plus élevée, suivant un principe de dilution de la donnée significative ; ou directement en transformant les données pour les rendre insignifiantes. On peut, par exemple, créer des variables additionnelles qui augmen­tent la dimension du vecteur de données et créer ainsi un « brouillard » masquant ce que l’on détient. Dans la deuxième famille, on distingue des techniques non‑perturbatrices : masquer la valeur de certaines cellules dans un tableau de résultats ; enlever des variables concernant certains individus ; diviser un échantillon extrait de la base de données ; combiner certaines catégories pour des variables à moda­lités, etc.

Il y a, aussi et surtout, des méthodes directement interventionnistes sur les données qui permettent d’engendrer du bruit, au sens large, de modifier certaines variables en les arrondissant ou en les bloquant par troncature à des seuils. On peut également transformer les variables en leur appliquant un homomorphisme, permuter entre deux individus la valeur d’une même variable, ou perturber les données par l’ajout d’un bruit aléatoire. Née de travaux sur les données manquantes (Little, 1993 ; Rubin, 1993, 2003), cette piste est particulièrement inté­ressante pour des données synthétiques.

Une approche nouvelle : la confidentialité différentielle

Depuis le milieu des années 2000, une autre perspective existe pour protéger l’in­timité (travaux de Dwork), dont la philosophie s’inspire très fortement de celle de Dalenius : « La probabilité d’une conséquence négative quelconque pour l’indi­vidu i (par exemple le fait qu’il se voie refuser un crédit ou une assurance) ne peut pas augmenter significativement en raison de la représentation de i dans une base de données. »

Il convient de pondérer l’adverbe « significativement » car il est très difficile de prédire quelle information – ou quelle combinaison d’informations – pourrait avoir des conséquences négatives pour l’individu en question, si cette information était rendue publique. D’autant que cette information peut être non pas observée mais estimée par un calcul ; et que, d’autre part, certaines conséquences qui sont consi­dérées comme négatives pour l’un peuvent paraître, au contraire, positives pour un autre ! Cette approche que l’on pourrait appeler « intimité » ou « confidentialité dif­férentielle » (en anglais, differential privacy) repose sur des hypothèses probabilistes et statistiques. Peut‑être va‑t‑elle se développer ? L’idée est de quantifier le risque d’une éventuelle faille de confidentialité, tout en mesurant l’effet d’une protection efficace des données sur la vie privée, en termes statistiques. Un champ de recherche est ainsi ouvert pour analyser les données après obscurcissement, altération ou modifica­tion de l’original afin d’en préserver la confidentialité.

Philippe Tassi et Gérard Bouvier