Variances remercie chaudement Jean-Pierre Le Gléau (ENSAE 1972) pour ce résumé spécialement rédigé pour les lecteurs de Variances de son livre publié en 2019 chez EDP Sciences : Le secret statistique.

Imaginons un instant que les informations recueillies par l’Insee (recensements, enquĂȘtes auprĂšs des mĂ©nages, des entreprises) soient libres d’accĂšs Ă  tout un chacun, sans prĂ©caution spĂ©ciale. Ce serait une catastrophe ! Les particuliers n’accepteraient pas que la divulgation de leurs rĂ©ponses aux enquĂȘtes risque de leur porter tort, notamment vis-Ă -vis des impĂŽts, de leur assureur, de leurs voisins, de la police 
 Et les entreprises ne pourraient admettre que les informations qu’elles confient Ă  l’Insee soient mises Ă  la disposition de leurs concurrents. De ce fait, de nombreux enquĂȘtĂ©s refuseraient de rĂ©pondre ou seraient tentĂ©s de donner des rĂ©ponses inexactes.

C’est pourquoi le lĂ©gislateur a mis en place, dĂšs 1951, une forme spĂ©ciale de secret couvrant ces informations : c’est ce que l’on appelle le secret statistique. DĂšs sa crĂ©ation, ce secret Ă©tait dotĂ© d’une grande force, qui le plaçait entre autres au-dessus du secret fiscal : en effet, alors que la loi prĂ©voit que le fisc et les douanes ont accĂšs Ă  toutes les informations recueillies par les administrations, elle fait une exception pour les donnĂ©es collectĂ©es par l’Insee, qui ne peuvent en aucun cas leur ĂȘtre transmises. En revanche, en sens inverse, les donnĂ©es fiscales et douaniĂšres peuvent ĂȘtre fournies Ă  l’Insee pour l’aider Ă  Ă©tablir ses statistiques.

La loi Ă©tablit donc que les donnĂ©es nominatives recueillies par l’Insee (et plus gĂ©nĂ©ralement par le service statistique public) ne peuvent faire l’objet d’aucune communication, sous peine de sanctions trĂšs lourdes (un an d’emprisonnement et quinze mille euros d’amende). Fort heureusement, ces sanctions n’ont, Ă  ce jour, pas trouvĂ© d’occasion de se faire appliquer.

Mais les statistiques Ă©tablies Ă  partir de ces donnĂ©es ont bien Ă©videmment vocation Ă  ĂȘtre largement diffusĂ©es. Le hic, c’est que des rĂ©sultats portant sur des effectifs trop faibles pourraient permettre de dĂ©duire des informations individuelles exactes, ou au moins approximatives, sur certaines personnes ou sur certaines entreprises. Pour Ă©viter cela, on a Ă©tabli des rĂšgles pour la diffusion des donnĂ©es agrĂ©gĂ©es. Par exemple, il est interdit de diffuser des tableaux concernant des entreprises dans lesquels la valeur figurant dans une des cases serait imputable pour plus de 85 % Ă  une seule entreprise. MĂȘme chose si le rĂ©sultat figurant dans une case concerne moins de trois entreprises. On comprend bien pourquoi : si on autorisait la divulgation de chiffres concernant deux entreprises, chacune d’entre elles connaĂźtrait, par dĂ©duction, le rĂ©sultat de l’autre ! De mĂȘme, les tableaux concernant les individus ne doivent pas prĂ©senter des croisements permettant d’identifier l’un d’entre eux. Au-delĂ  du secret statistique proprement dit, la Commission nationale de l’informatique et des libertĂ©s (Cnil) a fixĂ© des rĂšgles complĂ©mentaires pour ne mĂȘme pas pouvoir effectuer des « profils » de personnes, mĂȘme sans parler de les identifier individuellement.

Ces rĂšgles se sont Ă©largies au cours du temps Ă  la diffusion de fichiers individuels « anonymes », c’est-Ă -dire dans lesquels il n’y a plus d’identifiant direct (nom, prĂ©nom ou raison sociale). Mais il faut faire attention ! Par exemple, pour les entreprises, dans un fichier oĂč l’on a retirĂ© le nom des sociĂ©tĂ©s, on peut quand mĂȘme souvent en identifier quelques-unes grĂące Ă  leur activitĂ©, Ă  leur taille et Ă  une localisation, mĂȘme grossiĂšre (« un Ă©tablissement du secteur automobile, de plus de 10 000 salariĂ©s en Franche-Comté » ). De mĂȘme, pour les fichiers d’individus, il est souvent possible de reconnaĂźtre une personne en utilisant des croisements d’informations non nominatives (Ăąge, nationalitĂ©, lieu de rĂ©sidence, etc.). En rĂ©alitĂ©, la suppression du nom et de la raison sociale est bien insuffisante pour vraiment anonymiser un fichier. On parle souvent, dans ce cas, de fichiers « pseudonymisĂ©s » : on n’a pas l’identification directe des personnes, mais on pourrait, en se donnant un peu de mal, en reconnaĂźtre quelques-unes. Diverses techniques sont possibles pour arriver Ă  un fichier vraiment anonyme. Mais c’est toujours au prix d’une perte plus ou moins importante d’information : agrĂ©gation, nomenclature plus grossiĂšre, Ă©chantillonnage


Or, ces fichiers servent aussi aux chercheurs. Et ceux-ci ont souvent besoin d’une information individuelle trĂšs fine. Leur but n’est Ă©videmment pas de reconnaĂźtre telle ou telle personne. Mais ils souhaitent pouvoir croiser des informations venant de diffĂ©rentes sources (emploi, santĂ©, revenus
) ou suivre une Ă©volution temporelle pour un individu (ce qu’on appelle une « trajectoire individuelle »). Comme les techniques statistiques et les ordinateurs ont Ă©voluĂ© et permettent maintenant d’analyser de trĂšs gros fichiers de donnĂ©es, les chercheurs sont de plus en plus demandeurs d’une information dĂ©taillĂ©e. Pour leur permettre d’y accĂ©der, dans le cadre du secret statistique, la loi a Ă©voluĂ© et des protocoles ont Ă©tĂ© mis au point pour permettre aux chercheurs d’accĂ©der Ă  des informations trĂšs fines, sans pour autant autoriser une diffusion de donnĂ©es trĂšs dĂ©taillĂ©es.

La loi a notamment crĂ©Ă© un ComitĂ© du secret statistique. C’est un organisme oĂč sont reprĂ©sentĂ©es toutes les parties prenantes : producteurs de donnĂ©es, chercheurs, Cnil, syndicats, Ă©lus, etc. Ce comitĂ© est amenĂ© Ă  donner son avis sur toute diffusion, individuelle ou gĂ©nĂ©rale, de donnĂ©es confidentielles utilisĂ©es pour la production de statistiques publiques. Il donne Ă©galement un avis sur la façon dont ces donnĂ©es peuvent ĂȘtre communiquĂ©es aux chercheurs.

En 2010, a Ă©tĂ© crĂ©Ă© Ă  cette fin le Centre d’accĂšs sĂ©curisĂ© aux donnĂ©es (CASD) qui permet aux chercheurs de travailler de façon confortable sur des fichiers trĂšs dĂ©taillĂ©s, tout en empĂȘchant la diffusion de donnĂ©es identifiables. Le principe est que les donnĂ©es restent sur le serveur. Elles ne sont accessibles pour le chercheur que via un terminal, appelĂ© SD-Box, qui leur permet de « voir » les donnĂ©es confidentielles (pseudonymisĂ©es), de travailler dessus, mais jamais de les tĂ©lĂ©charger, de les extraire, ni de les imprimer. Les chercheurs s’engagent par ailleurs Ă  ne pas tenter de reconnaĂźtre des personnes en utilisant une mĂ©thode d’identification indirecte. Tous les fichiers intermĂ©diaires crĂ©Ă©s par le chercheur restent aussi sur le serveur du CASD. Ce n’est que lorsqu’il a terminĂ© la production de statistiques, tableaux, cartes pour son Ă©tude qu’il peut demander Ă  avoir accĂšs au fichier de rĂ©sultats qu’il a crĂ©Ă©. Une Ă©quipe spĂ©cialisĂ©e du CASD vĂ©rifie alors que ce fichier ne contient plus d’informations confidentielles. Puis il est transmis au chercheur.

Cette technique, initialement rĂ©servĂ©e aux fichiers crĂ©Ă©s par le service statistique public, a connu un tel succĂšs que bientĂŽt d’autres fournisseurs de donnĂ©es ont souhaitĂ© l’utiliser pour mettre leurs fichiers Ă  la disposition des chercheurs. C’est ainsi que le CASD permet maintenant, en toute sĂ©curitĂ©, l’accĂšs aux donnĂ©es fiscales et aux donnĂ©es de santĂ© Ă  des fins de recherche. Les textes lĂ©gislatifs, qui rĂ©gissaient le secret concernant ces donnĂ©es, ont Ă©tĂ© modifiĂ©s en consĂ©quence.

Par rapport Ă  ses voisins, la France se distingue par un souci de protection trĂšs Ă©levĂ© des donnĂ©es Ă  caractĂšre personnel. Rappelons que la premiĂšre loi protĂ©geant ce type de donnĂ©es a Ă©tĂ© la loi française dite « Informatique et libertĂ©s », en janvier 1978. Depuis 2016, un rĂšglement europĂ©en harmonise les pratiques dans tous les pays de l’Union. Mais certains pays, tout en ayant le souci de la protection des donnĂ©es personnelles, sont encore plus stricts sur les donnĂ©es d’entreprises.

Pour la mise Ă  la disposition des chercheurs de donnĂ©es trĂšs dĂ©taillĂ©es, la France a longtemps Ă©tĂ© dans le peloton de queue. Des arrangements permettaient aux chercheurs d’avoir accĂšs Ă  ces fichiers, dans des conditions pas toujours trĂšs confortables. Les vrais pionniers en la matiĂšre Ă©taient les pays du Nord, notamment le Canada, le Danemark et les Pays-Bas. DerniĂšre arrivĂ©e, la France a bĂ©nĂ©ficiĂ© de l’expĂ©rience (et parfois des Ă©checs) de ces pays pour se placer rĂ©solument en tĂȘte des pays les plus performants dans ce domaine. Des groupes de travail europĂ©ens tentent maintenant de faire bĂ©nĂ©ficier tous les pays de l’Union de l’expĂ©rience française.

Il est Ă  noter que le secret statistique concerne les donnĂ©es traitĂ©es par la statistique publique. D’autres organismes, non publics, collectent de l’information comme sous-produit de leur activitĂ© (Google, Orange, Amazon, etc.). Ces organismes ne sont pas soumis au secret statistique. Ils doivent en revanche se conformer aux rĂšgles gĂ©nĂ©rales sur la protection des donnĂ©es personnelles, comme par exemple le rĂšglement europĂ©en (RGPD), entrĂ© en vigueur le 25 mai 2018.

Tous les aspects de ces questions autour du secret statistique sont analysĂ©s en dĂ©tail dans mon livre, intitulĂ© « Le secret statistique ». On en trouvera la rĂ©fĂ©rence sur le site de l’éditeur :

https://laboutique.edpsciences.fr/produit/1074/9782759823420/Le%20secret%20statistique

Cet ouvrage est le premier Ă  faire un bilan complet des rĂšgles et pratiques qui permettent de garantir le secret statistique.

Mots-clĂ©s : secret statistique – donnĂ©es personnelles – accĂšs des chercheurs – donnĂ©es fiscales – donnĂ©es de santĂ©

Jean-Pierre Le Gléau
Les derniers articles par Jean-Pierre Le Gléau (tout voir)