« C’est proprement ne valoir rien que de n’être utile à personne. » Cette affirmation de l’un de nos plus grands penseurs, René Descartes, prend une valeur toute particulière dans toute organisation humaine tournée vers l’extérieur. La statistique publique, depuis ses premiers jours a toujours été au service de l’État pour in fine rendre service à la société. Il s’agissait dès le départ de fournir au dirigeant l’information utile à sa conduite d’un Pays, d’une Nation. Le développement dans les démocraties modernes de cette statistique dite officielle durant la seconde moitié du 20ème siècle n’a fait que renforcer un tel esprit de service public, au fur et à mesure que se déployait une offre de plus en plus directement accessible aux citoyens.
Le passage à la gratuité de l’accès aux données sur les entreprises s’inscrit naturellement dans ce mouvement historique.
L’accès à la statistique publique participe d’une démarche sociétale, au service de la démocratie
La déontologie de la statistique officielle, qui fut établie par les Nations Unies en 1994[1], commence avec le tout premier principe fondamental suivant : « La statistique officielle constitue un élément indispensable du système d’information d’une société démocratique, fournissant aux administrations publiques, au secteur économique et au public des données concernant la situation économique, démographique et sociale et la situation de l’environnement. A cette fin, des organismes responsables de la statistique officielle doivent établir les statistiques officielles selon un critère d’utilisation pratique et les rendre disponibles, en toute impartialité, en vue de rendre effectif le droit d’accès des citoyens à l’information publique. » Ce principe de pertinence, d’impartialité et de droit d’accès égal à l’information statistique, confirme l’utilité sociale de la statistique publique ou officielle, et affirme qu’en donnant accès à l’information statistique à tous les acteurs de la société (administrations, secteur économique, public, citoyens…), l’organisme en charge (Institut National de Statistique) contribue au bon fonctionnement de la démocratie. Cela sous-tend le fait que les statistiques, partagées par tous, en éclairant les débats publics, permettent à une société démocratique de fonctionner mieux. En outre, l’information doit être accessible de manière pratique : on trouve déjà en 1994 une des caractéristiques fondamentales de l’open data.
Cette déontologie est non seulement partagée par l’ensemble du secteur professionnel mondial – la communauté internationale des statisticiens officiels – mais également reconnue par les législateurs[2].
La plupart des sociétés démocratiques modernes sont en effet dotées d’une loi statistique, reprenant les principes déontologiques internationaux, et organisant le fonctionnement des systèmes statistiques publics. La France s’était dotée d’une telle loi dès 1951[3].
La statistique publique est open data par essence : un virage de la gratuité pris dès 2002
Mais la révolution numérique de la société a donné un nouveau souffle à la diffusion de l’information statistique officielle, en rendant l’accès à l’information encore plus facile pour tout citoyen. C’est l’histoire d’une rencontre entre un objectif (donner accès à l’information) et un outil parfaitement adapté à cet objectif (Internet). La territorialité de la citoyenneté disparaissant avec le web, tout citoyen du monde peut désormais bénéficier de l’accès à toutes les informations diffusées par tous les pays, et notamment par leurs Instituts Nationaux de Statistiques.
Ce virage de la diffusion générale, libre et gratuite par Internet, l’Institut National de la Statistique et des Etudes Economiques (Insee) l’a pris dès 2002. Depuis lors, il n’a eu de cesse de rassembler toute l’information diffusable – études et analyses, publications, chiffres-clés, information géographique, tableaux de données agrégées, bases de données détail – en un point d’accès unique, www.insee.fr. Quatre générations de sites se sont succédées pour améliorer toujours l’accessibilité, et s’adapter aux habitudes des internautes. Ce sont désormais près de 18 000 contenus auxquels l’utilisateur peut accéder via une simple recherche par mots-clés, selon le même mode d’accès que proposent les sites les plus connus de commerce en ligne. Aujourd’hui, on « consomme les données » comme on achèterait un bien sur amazon.fr ou sur fnac.com par exemple. Et cela se fait en tout lieu ou toute circonstance : le site web se doit d’être « responsive design », donc lisible sur tout écran (ordinateur, tablette, smartphone). La donnée accompagne ainsi son utilisateur potentiel dans ses déplacements.
Une contribution importante à l’open data public, dès l’ouverture de data.gouv.fr
Ce besoin de faciliter l’accès citoyen aux informations détenues par l’État d’une façon générale a été à l’origine de la création du portail de l’open data français, data.gouv.fr.
Ouvert fin 2011, et s’inspirant – en mieux – des équivalents anglais et américain, il a bénéficié dès le départ de l’apport des dix ans d’open data de l’Insee qui en fut le premier contributeur à l’ouverture. Désormais, six ans plus tard, le portail référence dans son catalogue en ligne plus de 33 500 jeux de données de près de 1 300 acteurs publics.
Les innovations de la loi pour une république numérique et l’impact sur l’accès aux données entreprises
La dernière étape de l’open data français a été franchie avec la loi du 7 octobre 2016 pour une République numérique[4], qui propulsait la France à l’avant-garde des quelque 70 pays du Partenariat pour un Gouvernement Ouvert[5] (PGO) en la dotant déjà du corpus juridique de ce qui n’est encore qu’une politique volontariste sans base juridique dans de nombreux pays.
Cette loi apporte de nombreuses innovations comme par exemple la possibilité de rapprocher deux jeux de données confidentielles individuelles en utilisant une clé de jointure cryptée, ce qui permet d’enrichir les systèmes d’information tout en préservant la confidentialité de l’information. Mais elle met surtout en route deux grandes révolutions dans la politique de l’open data français.
La première est l’obligation sous deux ans pour tout service de l’État de mettre ses bases de données communicables en open data sur Internet. L’idée sous-jacente est de pousser l’État à « libérer » ses données diffusables, dans le contexte où d’une part l’État est redevable de ses activités auprès de ses concitoyens et contribuables, et où d’autre part, on cherche des leviers d’action pour soutenir le développement de l’économie numérique en France, pour subventionner notamment la fameuse « French Tech ». Ces idées sont basées notamment sur une croyance et sur un pari. La croyance est que les nouvelles technologies numériques seront après-demain le principal moteur de l’économie française. Le pari est que l’ouverture des données de l’État puisse bénéficier suffisamment vite et naturellement aux startup françaises pour qu’elles innovent avec de nouveaux produits et services avant que les grands acteurs de l’économie numérique mondiale et notamment américaine, déjà bien implantés et dotés d’une puissance de feu colossale ne s’emparent de l’innovation directement par concurrence, ou indirectement par rachat des innovations. Cette croyance et ce pari sont-ils réalistes ou utopiques ? L’histoire le dira. Dans tous les cas, il y a un bénéfice indéniable de l’ouverture des données pour les citoyens : la transparence des actions de l’État ne peut qu’en être améliorée.
La seconde innovation introduite par la loi pour une république numérique est la création d’un nouveau service public : le service public de la donnée. C’est l’idée fondamentale suivante : de même que des infrastructures de transport ou de communication sont un bien commun dont la qualité ne peut que servir favorablement le développement économique du pays, il existe des jeux de données publiques socle, de référence, sur lesquels s’appuient les autres jeux de données publiques ou privées, qui sont par conséquent directement concernés par un enjeu primordial de qualité de l’information et de qualité de l’accès à cette information. Ainsi est né ce nouveau service public[6], identifiant dans un premier temps une dizaine de bases de données de référence sur lesquelles l’État s’engage à garantir un haut niveau de qualité de la mise à disposition. Y est associé un engagement de service d’expression des utilisateurs permettant une rétroaction qualité sur la donnée elle-même, l’idée force de l’open data étant que plus les utilisateurs sont nombreux, meilleure est la qualité de la donnée si on met bien en place cette possibilité pour les utilisateurs d’exprimer leurs observations directement auprès du producteur de la source.
Dans le domaine de la diffusion des données entreprise de l’Insee, il faut distinguer ce qui relève d’activités statistiques de ce qui relève de la tenue du répertoire d’identification des entreprises.
Les données entreprises relevant des activités statistiques sont soumises à la protection des données individuelles des remontées d’enquête (le secret statistique s’ajoutant au secret des affaires et à la protection des données à caractère personnel). Elles font en conséquence l’objet depuis des années d’une diffusion open data sur insee.fr, mais à un niveau agrégé pour respecter cette protection.
A l’inverse, la diffusion des données entreprises relevant du répertoire d’identification Sirene® a été profondément impactée par la loi pour une République Numérique. Avant fin 2016, l’information était diffusée au niveau individuel, avec pour seule limite la protection des données à caractère personnel, cette diffusion était payante, soit de façon régulière par abonnement et sous licence, soit de façon ponctuelle par achat d’une prestation de service de sélection de listes. Depuis début 2017, la même information est disponible gratuitement et en open data.
La base Sirene® faisant partie de la liste du service public de la donnée, cette diffusion open data est en outre assortie de critères de qualité de la mise à disposition (disponibilité, informations associées, avertissements des utilisateurs, écoute des utilisateurs…). Tous ces critères étaient déjà mis en œuvre auparavant, mais dans le cadre de la diffusion payante, et ainsi, auprès d’un nombre limité d’utilisateurs directs de premier niveau[7].
Les trois impacts visibles de la diffusion open data du répertoire Sirene® de 2017
1- le nombre d’utilisateurs directs a explosé : la diffusion a changé d’échelle
Ainsi, c’est le nombre d’utilisateurs directs et visibles qui a évolué considérablement avec le passage à la gratuité de début 2017, comme en témoigne le graphique ci-dessous.
En résumé et de façon schématique, nous sommes passés de 500 utilisateurs réguliers et 20 utilisateurs ponctuels chaque mois, à 4 400 utilisateurs mensuels, dont au moins 400 potentiellement permanents (qui téléchargent les mises à jour mensuelles ou quotidiennes). La diffusion se partage de manière assez équilibrée sur data.gouv.fr[8] où on accède au fichier complet (1 900 utilisateurs en téléchargements mensuels) et sur sirene.fr où on peut constituer ses propres listes sur mesure (2 500 utilisateurs en téléchargements mensuels). Sirene® a été tous les mois depuis le début 2017 sur le podium des 3 jeux de données les plus consultés de data.gouv.fr, et même le premier un mois sur deux, avec en moyenne 10 000 consultations mensuelles. Cela s’ajoute aux 50 000 consultations mensuelles sur Sirene.fr. Sur ce dernier site, près de 12 000 nouveaux comptes d’utilisateurs ont été créés en 2017, ce qui illustre la nouvelle dynamique.
2- la relation avec les utilisateurs est transformée
Les téléchargements se font de façon totalement anonyme sur data.gouv.fr, ou via l’utilisation d’un simple compte utilisateur, sans plus de formalités, sur sirene.fr. Cette dépersonnalisation de la relation qui accompagne naturellement l’open data peut être considérée comme une régression, car certains utilisateurs, notamment les plus avertis et dont l’usage des données est à la fois intensif et professionnel bénéficiaient avant 2017 d’un service d’accompagnement associé à la diffusion des données. Ainsi, la tarification de la source Sirene® visait à couvrir par les recettes engendrées deux natures de coûts : d’une part, le coût de fourniture de ce service d’accompagnement, et d’autre part le coût de la qualité de la donnée proprement dite, puisque de l’ordre de 10 000 opérations manuelles de mise à jour de l’information sur l’identification des entreprises sont réalisées afin de l’améliorer au niveau individuel. Le passage à la gratuité a demandé à l’État de prendre en charge les coûts inhérents à la tenue du répertoire. Ainsi, la qualité de la donnée est maintenue et garantie par le budget de l’État. Mais le service d’accompagnement, non couvert, a été réduit, l’ensemble des citoyens contribuables n’ayant pas à prendre en charge collectivement un service qui ne bénéficierait qu’à une petite part d’entre eux, dans une activité qui sort du champ de la solidarité sociétale.
Néanmoins, il appartient à l’Insee en tant que service producteur et responsable de la diffusion du répertoire de définir le niveau de relations et d’interactions avec les utilisateurs. Certains d’entre eux peuvent souhaiter s’abonner à des informations régulières sur les évolutions du contenu de l’information diffusée en open data.
Il y a en tout cas toujours un service socle universel d’interaction avec les usagers, qui s’inscrit dans le cadre du code des relations entre le public et l’administration (CRPA). Ces canaux d’échange permettent aujourd’hui à environ 200 à 400 utilisateurs de bénéficier chaque mois d’une réponse personnalisée de la part de l’Insee. C’est selon les mois 1,5 à 3 fois plus qu’avant 2017.
Un nouvel aspect de la relation utilisateurs est la constitution d’une communauté d’utilisateurs open data, qui participent à un forum[9] mis à disposition sur data.gouv.fr. Sur cet espace d’échanges, des questions sont posées, qui trouvent une réponse soit par un autre utilisateur, soit par l’Insee. Des contributions sont également postées, qui font état d’outils mis à disposition, ou de réutilisations illustratives du jeu de données.
De l’existence et des activités de cette communauté émergent pour le producteur de la donnée quelques challenges : quel niveau d’interaction et donc d’implication de l’Insee dans son animation, quel relais des réutilisations considérées comme des valeurs ajoutées ? Ces contributions ouvrent des perspectives de collaborations qui pourraient mener à des partenariats.
3- la technologie de mise à disposition doit suivre : les API transforment les SI et leurs interactions
Pour faire face au changement d’échelle, les modalités techniques de mise à disposition doivent s’adapter. Nous passons ainsi progressivement d’une transmission sécurisée par connexion télématique bilatérale à une intégration automatique par API c’est-à-dire par une interface de programmation « machine to machine ». Cette technologie mûre utilise les langages de communication du web pour permettre à une machine d’interroger à distance un serveur de l’Insee afin d’obtenir en retour tout ou partie du répertoire, ou simplement pour des interrogations unitaires portant sur une seule entreprise ou établissement. Les interfaces de programmation, assez peu coûteuses, permettent d’intégrer l’interrogation du répertoire directement dans les systèmes d’information des utilisateurs, selon les besoins et à tout moment, et ainsi évitent le stockage de l’information en dur sur les serveurs de l’utilisateur, solution classique qui avait de nombreux inconvénients : une politique coûteuse de conservation de toute l’information, ainsi qu’un dispositif de rafraîchissement des données devait être mise en place. Au contraire, l’utilisateur n’a plus à se préoccuper de l’accès à l’information, qui lui est assuré par l’Insee. Une telle solution est plus efficace puisque l’utilisateur ne récupère que l’information dont il a besoin quand il en a besoin. L’accès par API, actuellement en phase de test, sera déployé progressivement courant 2018. Une version simple est déjà opérationnelle, pour les consultations en ligne sur sirene.fr et pour le service APIEntreprise[10] de l’État plateforme. APIEntreprise permet dans le cadre du programme « Dites-le nous une fois » de simplifier au maximum la charge administrative pour les entreprises (démarches de marchés publics simplifiés et de demandes de subventions), grâce à l’échange automatisé des informations entre administrations concernées. Ce type de services illustre l’avenir de la diffusion des informations : une diffusion plus sobre, plus efficiente, non redondante. Cette innovation permise par les API bénéficie comme on vient de l’illustrer à la fois aux usagers – citoyens et entreprises, à l’État dans ses échanges inter-administratifs, et aux administrations en interne dans la gestion de leur propre système d’informations.
Au final, le passage à la gratuité de l’accès au répertoire Sirene® en open data a permis de nombreux progrès : moderniser l’accès à l’information, augmenter drastiquement l’utilisation directe de l’information, faire émerger une nouvelle communauté d’utilisateurs open data. Par contre, c’est l’État français et donc le contribuable français qui finance le maintien d’un haut niveau de qualité de l’information et de sa mise à disposition, et ceci, au bénéfice de tout internaute, donc au-delà des frontières de la Nation. Cela fait des utilisateurs étrangers des bénéficiaires gratuits d’un service qu’ils n’ont absolument pas contribué à financer, donc leur donne un avantage de type « passager clandestin » sur les autoroutes de l’information. Dès lors, seule la réciprocité d’un accès en open data pour les internautes français aux données publiques étrangères permet par juste réciprocité de rééquilibrer la générosité française. Cela appelle le développement dans toutes les démocraties ouvertes du monde de la politique open data de leurs gouvernements : tout l’esprit du Partenariat pour un Gouvernement Ouvert.
[1]Les principes fondamentaux de la statistique officielle (ONU)
[2]Le Règlement 223/2009 du Parlement européen et du Conseil relatif aux statistiques européennes a entériné dans ses articles 1 et 11 le respect par tous les INS européens des principes déontologiques précisés dans le code de bonnes pratiques de la statistique européenne. Ce code donne d’ailleurs la vision commune dans son préambule : « En s’appuyant sur des principes et des méthodes scientifiques, le système statistique européen proposera et améliorera en permanence un programme de statistiques européennes harmonisées, lequel constitue un fondement indispensable pour les processus démocratiques et le progrès de la société. »
[3]Loi n° 51-711 du 7 juin 1951 sur l’obligation, la coordination et le secret en matière de statistiques
[4]Loi n° 2016-1321 du 7 octobre 2016 pour une République numérique
[5]Partenariat pour un Gouvernement Ouvert : https://www.opengovpartnership.org/
[6]Service public de la donnée : https://www.data.gouv.fr/fr/reference
[7]Nous n’avions pas de connaissance des utilisateurs indirects de second rang, car ceux-ci accédaient à l’information Sirene® via leurs fournisseurs : une petite centaine de rediffuseurs – des sociétés de services du secteur de l’information, apportant un service d’accès à une information multi-source enrichie, permettant à leurs clients d’identifier, de coter une entreprise (scoring), ou de la cibler pour des opérations marketing.
[8]Sirene® sur data.gouv.fr : https://www.data.gouv.fr/fr/datasets/base-sirene-des-entreprises-et-de-leurs-etablissements-siren-siret/
[9]Contributions communautaires en bas de la page d’accès à Sirene sur data.gouv.fr : https://www.data.gouv.fr/fr/datasets/base-sirene-des-entreprises-et-de-leurs-etablissements-siren-siret/
[10]API Entreprise est un des API proposé par l’offre Etat plateforme, plateforme de services publics numériques en ligne, rendus accessibles par API. C’est une plateforme d’échange qui met à disposition des opérateurs publics et des administrations, des données et des documents administratifs de référence, relatifs aux entreprises et associations, qui sont délivrés par les administrations et les organismes publics, afin de simplifier les démarches administratives et la gestion des dossiers.
Commentaires récents