Variances remercie chaudement Jean-Pierre Le Gléau (ENSAE 1972) pour ce résumé spécialement rédigé pour les lecteurs de Variances de son livre publié en 2019 chez EDP Sciences : Le secret statistique.

Imaginons un instant que les informations recueillies par l’Insee (recensements, enquêtes auprès des ménages, des entreprises) soient libres d’accès à tout un chacun, sans précaution spéciale. Ce serait une catastrophe ! Les particuliers n’accepteraient pas que la divulgation de leurs réponses aux enquêtes risque de leur porter tort, notamment vis-à-vis des impôts, de leur assureur, de leurs voisins, de la police … Et les entreprises ne pourraient admettre que les informations qu’elles confient à l’Insee soient mises à la disposition de leurs concurrents. De ce fait, de nombreux enquêtés refuseraient de répondre ou seraient tentés de donner des réponses inexactes.

C’est pourquoi le législateur a mis en place, dès 1951, une forme spéciale de secret couvrant ces informations : c’est ce que l’on appelle le secret statistique. Dès sa création, ce secret était doté d’une grande force, qui le plaçait entre autres au-dessus du secret fiscal : en effet, alors que la loi prévoit que le fisc et les douanes ont accès à toutes les informations recueillies par les administrations, elle fait une exception pour les données collectées par l’Insee, qui ne peuvent en aucun cas leur être transmises. En revanche, en sens inverse, les données fiscales et douanières peuvent être fournies à l’Insee pour l’aider à établir ses statistiques.

La loi établit donc que les données nominatives recueillies par l’Insee (et plus généralement par le service statistique public) ne peuvent faire l’objet d’aucune communication, sous peine de sanctions très lourdes (un an d’emprisonnement et quinze mille euros d’amende). Fort heureusement, ces sanctions n’ont, à ce jour, pas trouvé d’occasion de se faire appliquer.

Mais les statistiques établies à partir de ces données ont bien évidemment vocation à être largement diffusées. Le hic, c’est que des résultats portant sur des effectifs trop faibles pourraient permettre de déduire des informations individuelles exactes, ou au moins approximatives, sur certaines personnes ou sur certaines entreprises. Pour éviter cela, on a établi des règles pour la diffusion des données agrégées. Par exemple, il est interdit de diffuser des tableaux concernant des entreprises dans lesquels la valeur figurant dans une des cases serait imputable pour plus de 85 % à une seule entreprise. Même chose si le résultat figurant dans une case concerne moins de trois entreprises. On comprend bien pourquoi : si on autorisait la divulgation de chiffres concernant deux entreprises, chacune d’entre elles connaîtrait, par déduction, le résultat de l’autre ! De même, les tableaux concernant les individus ne doivent pas présenter des croisements permettant d’identifier l’un d’entre eux. Au-delà du secret statistique proprement dit, la Commission nationale de l’informatique et des libertés (Cnil) a fixé des règles complémentaires pour ne même pas pouvoir effectuer des « profils » de personnes, même sans parler de les identifier individuellement.

Ces règles se sont élargies au cours du temps à la diffusion de fichiers individuels « anonymes », c’est-à-dire dans lesquels il n’y a plus d’identifiant direct (nom, prénom ou raison sociale). Mais il faut faire attention ! Par exemple, pour les entreprises, dans un fichier où l’on a retiré le nom des sociétés, on peut quand même souvent en identifier quelques-unes grâce à leur activité, à leur taille et à une localisation, même grossière (« un établissement du secteur automobile, de plus de 10 000 salariés en Franche-Comté »…). De même, pour les fichiers d’individus, il est souvent possible de reconnaître une personne en utilisant des croisements d’informations non nominatives (âge, nationalité, lieu de résidence, etc.). En réalité, la suppression du nom et de la raison sociale est bien insuffisante pour vraiment anonymiser un fichier. On parle souvent, dans ce cas, de fichiers « pseudonymisés » : on n’a pas l’identification directe des personnes, mais on pourrait, en se donnant un peu de mal, en reconnaître quelques-unes. Diverses techniques sont possibles pour arriver à un fichier vraiment anonyme. Mais c’est toujours au prix d’une perte plus ou moins importante d’information : agrégation, nomenclature plus grossière, échantillonnage…

Or, ces fichiers servent aussi aux chercheurs. Et ceux-ci ont souvent besoin d’une information individuelle très fine. Leur but n’est évidemment pas de reconnaître telle ou telle personne. Mais ils souhaitent pouvoir croiser des informations venant de différentes sources (emploi, santé, revenus…) ou suivre une évolution temporelle pour un individu (ce qu’on appelle une « trajectoire individuelle »). Comme les techniques statistiques et les ordinateurs ont évolué et permettent maintenant d’analyser de très gros fichiers de données, les chercheurs sont de plus en plus demandeurs d’une information détaillée. Pour leur permettre d’y accéder, dans le cadre du secret statistique, la loi a évolué et des protocoles ont été mis au point pour permettre aux chercheurs d’accéder à des informations très fines, sans pour autant autoriser une diffusion de données très détaillées.

La loi a notamment créé un Comité du secret statistique. C’est un organisme où sont représentées toutes les parties prenantes : producteurs de données, chercheurs, Cnil, syndicats, élus, etc. Ce comité est amené à donner son avis sur toute diffusion, individuelle ou générale, de données confidentielles utilisées pour la production de statistiques publiques. Il donne également un avis sur la façon dont ces données peuvent être communiquées aux chercheurs.

En 2010, a été créé à cette fin le Centre d’accès sécurisé aux données (CASD) qui permet aux chercheurs de travailler de façon confortable sur des fichiers très détaillés, tout en empêchant la diffusion de données identifiables. Le principe est que les données restent sur le serveur. Elles ne sont accessibles pour le chercheur que via un terminal, appelé SD-Box, qui leur permet de « voir » les données confidentielles (pseudonymisées), de travailler dessus, mais jamais de les télécharger, de les extraire, ni de les imprimer. Les chercheurs s’engagent par ailleurs à ne pas tenter de reconnaître des personnes en utilisant une méthode d’identification indirecte. Tous les fichiers intermédiaires créés par le chercheur restent aussi sur le serveur du CASD. Ce n’est que lorsqu’il a terminé la production de statistiques, tableaux, cartes pour son étude qu’il peut demander à avoir accès au fichier de résultats qu’il a créé. Une équipe spécialisée du CASD vérifie alors que ce fichier ne contient plus d’informations confidentielles. Puis il est transmis au chercheur.

Cette technique, initialement réservée aux fichiers créés par le service statistique public, a connu un tel succès que bientôt d’autres fournisseurs de données ont souhaité l’utiliser pour mettre leurs fichiers à la disposition des chercheurs. C’est ainsi que le CASD permet maintenant, en toute sécurité, l’accès aux données fiscales et aux données de santé à des fins de recherche. Les textes législatifs, qui régissaient le secret concernant ces données, ont été modifiés en conséquence.

Par rapport à ses voisins, la France se distingue par un souci de protection très élevé des données à caractère personnel. Rappelons que la première loi protégeant ce type de données a été la loi française dite « Informatique et libertés », en janvier 1978. Depuis 2016, un règlement européen harmonise les pratiques dans tous les pays de l’Union. Mais certains pays, tout en ayant le souci de la protection des données personnelles, sont encore plus stricts sur les données d’entreprises.

Pour la mise à la disposition des chercheurs de données très détaillées, la France a longtemps été dans le peloton de queue. Des arrangements permettaient aux chercheurs d’avoir accès à ces fichiers, dans des conditions pas toujours très confortables. Les vrais pionniers en la matière étaient les pays du Nord, notamment le Canada, le Danemark et les Pays-Bas. Dernière arrivée, la France a bénéficié de l’expérience (et parfois des échecs) de ces pays pour se placer résolument en tête des pays les plus performants dans ce domaine. Des groupes de travail européens tentent maintenant de faire bénéficier tous les pays de l’Union de l’expérience française.

Il est à noter que le secret statistique concerne les données traitées par la statistique publique. D’autres organismes, non publics, collectent de l’information comme sous-produit de leur activité (Google, Orange, Amazon, etc.). Ces organismes ne sont pas soumis au secret statistique. Ils doivent en revanche se conformer aux règles générales sur la protection des données personnelles, comme par exemple le règlement européen (RGPD), entré en vigueur le 25 mai 2018.

Tous les aspects de ces questions autour du secret statistique sont analysés en détail dans mon livre, intitulé « Le secret statistique ». On en trouvera la référence sur le site de l’éditeur :

https://laboutique.edpsciences.fr/produit/1074/9782759823420/Le%20secret%20statistique

Cet ouvrage est le premier à faire un bilan complet des règles et pratiques qui permettent de garantir le secret statistique.

Mots-clés : secret statistique – données personnelles – accès des chercheurs – données fiscales – données de santé

Jean-Pierre Le Gléau
Les derniers articles par Jean-Pierre Le Gléau (tout voir)