Informatique, statistique, économie, passage dans le privé chez Meilleurtaux : comment ce chemin vous a-t-il conduit à la délégation à la transformation numérique de la DGFiP ?
Avec le recul, les différentes étapes de ma carrière s’inscrivent assez naturellement dans ce qu’on appelle les transformations numériques. À l’INSEE, je suis parti côté informatique, puis j’ai fait des allers-retours entre informatique, statistiques et économie. On aboutit finalement à un profil qu’aujourd’hui on qualifie de data scientist — un mélange entre statistiques et maîtrise des outils numériques. L’INSEE, c’est un peu le temple de la data science. Après quatre ans dans le privé chez Meilleurtaux, j’ai rejoint la DGFiP où je dirige aujourd’hui la délégation à la transformation numérique — la DTNum. Son rôle s’apparente à celui d’un catalyseur : alors que le numérique a envahi tous les aspects de la vie professionnelle et privée, la DTNum accompagne la diffusion de ses usages au sein d’une organisation de 93 000 agents, afin de produire les bénéfices attendus par les usagers et l’administration.
La DGFiP est souvent perçue comme une administration fiscale avant tout (« les impôts »). Pourtant, votre service joue un rôle de moteur d’innovation en matière de data science. Quels sont concrètement les domaines où ces innovations sont déployées ?
Les innovations s’inscrivent assez naturellement dans les grands métiers de la DGFiP. Le premier, et sans doute le plus emblématique, c’est la lutte contre la fraude. La DGFiP dispose de volumes considérables de données sur les entreprises et les particuliers, sur lesquelles on peut déployer des méthodes statistiques pour détecter des schémas de fraude, puis orienter le travail des agents chargés des contrôles. Il y a toujours, en aval, un retraitement humain pour s’assurer que les cas détectés sont bien des cas réels — et c’est la combinaison des deux qui fait l’efficacité du dispositif.
Du point de vue des outils mobilisés, on dispose de toute la panoplie du machine learning : on qualifie des situations de fraude, on constitue des jeux de données autour de ces situations, et on fait de l’apprentissage. Le choix de l’algorithme dépend ensuite du type de données et de la configuration que l’on cherche à détecter. Pour les fraudes en réseau — des entreprises écrans avec des filiales à l’étranger, par exemple — les technologies de graphes sont particulièrement pertinentes, car ces configurations sont précisément de l’ordre des graphes.
Un cas d’usage qui a beaucoup retenu l’attention du public, c’est le projet Foncier Innovant, développé en 2021 et mis en production en 2022. Il s’agit de détecter des bâtis non déclarés — et donc non taxés au titre de la taxe foncière — à partir de photos aériennes et satellites. On est là sur des réseaux de neurones appliqués à la détection de formes : les piscines, ce sont des rectangles bleus, même si je simplifie un peu, car il existe des cas où des toits sont également bleus dans certaines régions. Ce produit fonctionne très bien et présente un retour sur investissement très satisfaisant.
Au-delà de la fraude, il y a aussi la détection de signaux faibles : identifier en amont les collectivités locales ou les entreprises dont la situation financière pourrait se dégrader, pour pouvoir intervenir avant que les difficultés ne s’aggravent. Et enfin, la relation usagers, où les outils statistiques permettent à la fois de piloter l’activité et d’améliorer la qualité de service — que ce soit pour la déclaration d’impôts, le paiement de factures locales comme la cantine ou le conservatoire, ou encore les services rendus aux entreprises.
La DGFiP semble engagée dans une transformation continue. Quelles sont les innovations à venir qui vous paraissent les plus structurantes ?
La facturation électronique est sans aucun doute le grand sujet de 2026. L’ouverture du service est prévue à l’automne, avec des paliers progressifs en fonction de la taille des entreprises. Concrètement, cela va permettre de capter l’ensemble de l’activité économique avec un niveau de détail et une fraîcheur de la donnée que l’on n’avait pas jusqu’à présent. On parle potentiellement d’une transmission par les entreprises de l’information portant sur l’intégralité des transactions B to B et B to C — NDLR : soit environ 4 000 milliards d’euros de transactions. C’est un changement majeur.
Dans un premier temps, nous travaillons à mobiliser cette donnée pour la lutte contre la fraude. Mais les discussions sont déjà engagées avec d’autres partenaires de l’administration — les douanes, l’INSEE — qui ont également un intérêt fort pour cette donnée, à des fins statistiques notamment. Cela questionne d’ailleurs le dispositif d’enquêtes existant : de quelle information complémentaire sur les entreprises a-t-on besoin quand on connaît précisément ce qui sort de chez elles ? Cette mise à disposition se fera dans un deuxième temps, en définissant précisément les usages et le cadre réglementaire, car à chaque fois qu’on parle d’utilisation de la donnée, il faut avoir en tête la question du fondement juridique et celle du RGPD.
Sur le plan technologique, l’IA générative multimodale ouvre également de nouvelles perspectives. Le projet Foncier Innovant, par exemple, a été développé avec des technologies de 2021 — avant l’explosion de l’IA générative et de sa capacité à traiter des images. Aujourd’hui, se pose la question d’une refonte complète en mobilisant les tout derniers modèles. On ne peut pas refondre une application tous les ans, mais en moins de cinq ans, des technologies apparaissent qui permettent de repenser complètement un dispositif — c’est assez notable.
Un autre exemple concret d’IA générative déjà déployée : un outil de traitement automatisé des amendements fiscaux, développé pour les équipes qui travaillent sur la loi de finances. Ces équipes — une dizaine de personnes — doivent analyser et chiffrer des volumes considérables d’amendements sur une période très courte : 3 500 amendements fiscaux en première lecture à l’Assemblée nationale, 1 200 au Sénat pour 2025. L’outil catégorise automatiquement chaque amendement, le route vers la bonne équipe, et en produit un résumé pour permettre aux agents d’entrer plus rapidement dans le sujet. Résultat : le temps de traitement a été divisé par dix. Ce qui s’appelait « la semaine de la mort » reste exigeant, mais devient beaucoup plus supportable. Et ce d’autant plus que le volume ne cesse d’augmenter : les députés eux-mêmes s’outillent avec l’IA pour déposer davantage d’amendements.
Je voudrais par ailleurs insister sur le rôle majeur de la DGFiP dans la gestion publique, avec la mise en paiement de 80 % des dépenses publiques. Dans ce domaine, l’IA fournit une aide notable pour le contrôle des opérations exécutées.
Innover dans une grande administration de 93 000 agents, c’est un défi organisationnel particulier. Comment trouver le bon équilibre entre initiative individuelle et cadre institutionnel ? Et quels sont les risques liés à la démocratisation des outils ?
C’est vraiment une vaste question. Il y a une formule qui m’a marqué, celle de Jean-Marc Béguin, ancien directeur à l’INSEE : « l’innovation naît dans les interstices ». C’est vrai — l’innovation n’est pas quelque chose qui se décrète, il y a une spontanéité et une part d’imprévu. Pour autant, je pense qu’il faut quand même mettre un peu d’institutionnel autour, et trouver le bon équilibre.
Pourquoi ? Parce que les idées viennent de partout. Et avec les outils numériques mis à disposition de presque tout le monde, on voit se développer des initiatives locales — des applicatifs créés directement par les agents avec des outils bureautiques, voire avec notre assistant IA interne. On ne peut pas imaginer à l’avance toutes les idées qu’ils vont avoir, ni comment ils vont transformer leur façon de travailler. Il y a quelque chose d’intéressant et d’utile dans ce qui se fait à ce niveau-là.
Mais cela crée aussi ce qu’on appelle de la dette technique. On voit dans toutes les organisations des développements Excel qui sont presque des bombes laissées au successeur : des formules, des macros, et le suivant appuie sur un bouton en espérant que ça continue à marcher. L’enjeu, c’est donc de développer en suivant des méthodologies, de documenter, et de comprendre ce que fait l’outil — pour qu’il reste exploitable quand les personnes changent de poste.
Sur la démocratisation des outils statistiques, la situation est à double tranchant. Oui, la mise à disposition change complètement la donne : tout le monde se retrouve avec des outils extrêmement puissants entre les mains. Mais cela amène une série de questions. Jusqu’à présent, ceux qui accédaient à ces outils — pour faire des régressions, des graphiques, de l’analyse — avaient par construction acquis les compétences pour maîtriser les concepts. Aujourd’hui, on peut utiliser l’outil sans en maîtriser les concepts. C’est un raccourci énorme, mais qui demande beaucoup de précautions.
Un cas d’école, c’est le camembert en 3D : techniquement facile à produire, mais il change les proportions visuelles et oriente vers une fausse interprétation. Plus fondamentalement, un chiffre en tant que tel n’a pas d’existence réelle — l’inflation, on ne la croise pas dans la rue. Il y a toujours, dans le travail du statisticien, une étape de conceptualisation qui est complexe et qui demande des compétences. Ces outils doivent donc être utilisés par des personnes disposant du socle de connaissances nécessaire pour produire un travail de qualité.
Quel regard portez-vous sur l’apport d’un jeune diplômé de l’ENSAE à la DGFiP — et réciproquement, ce que cette expérience peut lui apporter ?
Ce qu’apporte un jeune ENSAE de façon extrêmement nette, c’est sa compréhension de ce que c’est que la donnée et ce qu’est un outil statistique. C’est une compétence qui est nécessaire — et qui est très abstraite. Le chiffre, c’est abstrait. La notion d’erreur statistique, c’est abstrait. Et dans un contexte où les solutions ont l’air très simples d’utilisation, et où les fournisseurs ont tout intérêt à ce qu’un maximum de personnes les achètent, cette culture statistique reste indispensable. Avec le développement de l’IA générative, elle reste même primordiale.
Et oui, il vaut mieux aussi avoir un profil un peu informaticien. C’est là où l’on retrouve cette notion hybride qu’on appelle data scientist. Pour construire des outils avec de l’IA générative, on mobilise une API — c’est quelque chose de technique, qui passe typiquement par un programme en Python. Pour retraiter de la donnée, il faut également des compétences informatiques. Il faut également être en mesure de maintenir et développer des outils d’analyse, de simulation, de gestion de données, avec une forte composante technique – et parfois, il faut savoir gérer les « bombes techniques » laissées par les prédécesseurs.
En retour, ce que la DGFiP peut offrir à un jeune sortant de l’ENSAE, c’est d’abord beaucoup de données — c’est la base, si on veut se faire plaisir d’un point de vue statistique et intelligence artificielle. Des moyens aussi : une plateforme de la donnée, des plateformes machine learning, une plateforme IA générative avec des puissances de calcul importantes. Et surtout, des enjeux qui sont très structurants pour la nation, avec cette dimension régalienne : si les impôts s’arrêtent, l’État s’arrête. Il y a un rôle fondamental à jouer — sur la lutte contre la fraude, sur les comptes publics, sur la détection de fragilités financières, sur le service aux citoyens. C’est à la fois intellectuellement stimulant pour quelqu’un qui aime résoudre des problèmes et innover, et profondément ancré dans l’intérêt général.
Enfin, ce que l’on fait à la DGFiP ressemble beaucoup à ce que l’on peut faire dans une grande entreprise privée. Hormis bien sûr la finalité — faire du bénéfice d’un côté, rendre le service public de l’autre — les enjeux se ressemblent beaucoup en matière de gestion de l’innovation : l’être humain est un peu le même partout dans son rapport à l’innovation. Ce qui fait peut-être la vraie différence, c’est la taille. Dans une structure de 93 000 agents, faire en sorte que toutes les directions départementales aient l’information, que tous les agents sachent où on en est sur la stratégie data et IA — c’est un sacré challenge. L’enjeu n’est pas seulement d’innover, c’est de garder une cohérence suffisante dans l’ensemble de la structure, pour qu’elle aille dans une direction partagée, avec des exigences de qualité, de sécurité, et d’égalité de service public.
Propos recueillis par Olivier Redoulès
Dossier Statistiques – Sommaire :
-
- Editorial
- De la causalité à la corrélation : une histoire riche en réflexions
- L’IA générative : une histoire de mathématiques – Voyage au cœur des équations qui font parler les machines
- Origine et fondements statistiques de l’hybridation des sources de données
- Les données synthétiques : promesses et réalités
- Innovation et datascience à la DGFiP : entretien avec Benoît Rouppert, délégué à la transformation numérique
- Les innovations en datascience à l’Insee : apprentissage statistique et nouvelles sources de données
- Les sondages électoraux en France à l’aune du contrôle de la Commission des Sondages
Commentaires récents