Depuis le début de la pandémie de la Covid-19, beaucoup de statistiques ont été utilisées dans le débat public pour décrire les fluctuations de l’épidémie et pour justifier les politiques publiques. Ces statistiques ont presque toujours été d’origine administrative ou professionnelle. En France, elles proviennent, pour l’essentiel, de l’administration des hôpitaux, des praticiens de la santé ou de la sécurité sociale (assurance maladie). Une seule enquête indépendante de la gestion sanitaire administrative a été menée (à ma connaissance) : c’est l’enquête EPICOV[1], menée en trois vagues depuis le printemps 2020. Elle a été surtout exploitée pour mettre en lumière les disparités sociales de l’impact de la pandémie et très peu pour en cerner l’importance[2].
Rappelons la différence essentielle entre ces deux types de statistiques. Quand elle utilise des données administratives ou des données d’entreprises, la profession statistique essaye de tirer le meilleur parti possible d’un matériau qui n’a pas été conçu pour produire de l’information, mais pour d’autres buts. Elle n’a pas la maîtrise sur les conditions qui président au recueil des données : les champs couverts, les concepts et les nomenclatures utilisés, tout cela lui est, pour l’essentiel, imposé de l’extérieur. Les conclusions des analyses en dépendent inévitablement. C’est le contraire dans le cas d’une enquête créée ex nihilo. Dès la conception de l’enquête, la visée informative est présente et détermine le choix des unités interrogées, des définitions et des interrogations. Si le processus est bien préparé et bien conduit, le résultat donne des réponses claires à des questions connues avant le début du processus.
En statistique publique
Cette opposition fait partie de la culture de la statistique publique. Aux avantages des enquêtes, qui viennent d’être présentés, les partisans de l’exploitation des données administratives[3] opposent deux arguments très forts : leur moindre coût et le détail qu’elles permettent d’obtenir. Produites pour d’autres fins, les données administratives ne coûtent presque rien au système statistique public, alors que la collecte d’une enquête est très onéreuse. Par ailleurs, les données administratives, généralement exhaustives dans le champ qu’elles couvrent, peuvent être exploitées à des niveaux géographiques fins ou selon beaucoup d’autres nomenclatures ; tandis que les données d’enquêtes sont presque toujours recueillies par échantillonnage, ce qui limite drastiquement les exploitations possibles.
La mesure du chômage est l’exemple traditionnel où coexistent les deux types de statistiques. D’un côté, l’exploitation des données administratives issues de Pôle Emploi ; de l’autre, une très grande enquête par sondage, l’enquête emploi, dont la série actuelle est l’héritière d’une longue histoire commencée vers 1950. Cet ancrage historique explique sans doute que le système statistique public réussisse à maintenir une certaine primauté du résultat des enquêtes emploi dans le débat public, malgré bien des vicissitudes : jusqu’à nouvel ordre, le taux de chômage qui fait foi reste celui de l’enquête emploi. Et lorsque les deux sources divergent fortement, comme ce fut le cas entre 2014 et 2018, leur rapprochement est riche d’enseignements (dans ce cas, il a permis de mettre en lumière le développement des situations intermédiaires entre emploi et chômage).
Ce succès n’est pas le seul : comme autre exemple, on peut citer les enquêtes de victimation, introduites il y a une trentaine d’années pour tenter de pallier les déficiences de la statistique policière. Mais il faut bien reconnaître que la tendance générale est dans l’autre sens. Soumis à des contraintes budgétaires fortes, de mieux en mieux armé juridiquement pour obtenir les données des autres administrations publiques, voire certaines données privées, le système statistique public recourt de plus en plus aux fichiers administratifs (et notamment aux fichiers socio-fiscaux). Et il en tire une information de plus en plus riche : le public apprécie beaucoup qu’une information statistique puisse être rapprochée de lui géographiquement et renouvelée fréquemment.
La même tendance s’observe s’agissant de la connaissance des ménages et de la connaissance des entreprises. Dans ce dernier cas, les données administratives se prévalent aussi de l’impératif d’alléger la charge de réponse. La quasi-totalité des données comptables utilisées dans le système statistique public provient désormais des déclarations fiscales des entreprises. Au point qu’il est permis de craindre que les limitations « génétiques » des données administratives soient très peu mises en avant, sinon carrément oubliées. On peut craindre que la réalité administrative finisse par recouvrir la réalité économique et sociale, imposant ses concepts et laissant échapper à l’observation des pans de la réalité qu’elle ignore.
En épidémiologie
N’étant pas épidémiologiste, j’apporte ici le point de vue d’un pur utilisateur.
Lorsqu’ils exposent les principes de leurs modèles, les épidémiologistes introduisent à propos d’une maladie dans une population donnée des concepts tels que la prévalence (rapport entre le nombre des malades à un instant donné et la population totale) et l’incidence (rapport entre le nombre de nouveaux malades, durant une période donnée et la population qui était susceptible de tomber malade en début de période). Ils décrivent ensuite la dynamique de l’épidémie à l’aide de ces concepts, et d’autres qui en sont dérivés, comme le célèbre « R », « nombre de reproduction » qui indique si l’épidémie progresse, stagne ou régresse.
En pratique, dans le cas de la Covid-19, Santé Publique France, dans son point épidémiologique hebdomadaire, fournit des chiffres pour le taux d’incidence et pour le « R-effectif », chiffres détaillés géographiquement, par âge, etc. Il n’est pas facile de trouver la source exacte de ces chiffres : les documents méthodologiques ne sont pas mis en avant. Il semble que l’incidence soit calculée à partir des résultats des tests auxquels s’est soumise une partie de la population : les « nouveaux cas » sont en réalité les « tests positifs », alors que l’on peut « attraper la Covid » sans être testé, surtout s’agissant d’une maladie souvent asymptomatique. Quant au dénominateur, il s’agit de la population totale et non pas de la population soumise au risque de tomber malade, qui représente une fraction inconnue de la population totale. On le voit, le taux d’incidence est calculé à partir de sources qui n’ont pas été conçues pour cela : on retrouve ici la limitation fondamentale décrite plus haut. Ni la définition de « qui est malade ? », ni le champ d’observation des malades potentiels ne sont contrôlés pour l’observation.
Faute d’être bien connu en niveau, le taux d’incidence est-il mieux retracé en évolution par ces statistiques administratives ? Pour l’affirmer, il faut en particulier supposer que le biais, introduit en ne considérant que la population ayant subi un test, est constant : c’est une hypothèse redoutable, la décision de se faire tester étant fortement liée à la conjoncture de l’épidémie, et aux mesures publiques qui l’accompagnent. Si ce qui vient d’être dit est exact, en France, la politique publique de lutte contre l’épidémie est pilotée sur la base de chiffres certainement fiables, mais dont le rapport avec la réalité épidémique peut être brouillé, sans qu’une enquête de contrôle permette de surveiller leurs dérives potentielles, comme l’enquête emploi le permet pour les chiffres de Pôle Emploi. C’est, pour le moins, inquiétant !
Apparemment, la plupart des pays du monde sont dans la même situation. Selon un récent article publié par Variances[4], la Grande-Bretagne fait exception. Elle a mis en place un dispositif d’observation de la prévalence de la maladie indépendant des sources administratives. On aimerait en savoir beaucoup plus sur la nature de ce dispositif et sur son efficacité pour contrôler les autres sources.
Pourquoi si peu de données d’enquêtes dans une discipline comme l’épidémiologie ?
Si la statistique utilisant des données administratives se taille la part du lion, c’est évidemment pour la raison dite plus haut : elle fournit plus de détail pour un moindre coût. C’est encore plus vrai des sources de données non structurées souvent appelées « big data », captées « au fil de l’eau » et analysées ensuite par les techniques statistiques les plus avancées. Ces techniques se font fort de pouvoir tenir compte de toutes les sources d’incertitude, y compris peut-être l’instabilité des définitions et des champs d’observation. Si cette prétention est justifiée, l’avantage des enquêtes traditionnelles tend évidemment à s’amenuiser. C’est une question qui mériterait d’être approfondie.
Mais le principal aspect du problème est celui du prix qu’on attache à une information de qualité. Les enquêtes statistiques sont chères, d’autant plus chères que l’on s’attache à préserver le mieux possible ce qui en fait l’intérêt spécifique. Contrôler le champ d’observation implique de recourir à des bases de sondage idoines, qu’il faut dans certains cas créer à grands frais. Observer tous les cas qu’on a décidé a priori d’observer nécessite des efforts très coûteux pour atteindre les unités les plus difficiles à joindre. Appliquer dans l’observation des définitions précises entraîne des précautions dans le recueil des données, qui peuvent nécessiter l’intervention d’enquêteurs spécialisés. Au bout du compte, on récupère des données de meilleure qualité, mais moins nombreuses. Faute d’un prix élevé pour ces données, l’arbitrage est rendu en défaveur des enquêtes.
« Prix » ne peut pas s’entendre ici dans son sens monétaire : il n’y a pas de réel marché pour l’information mise sur la place publique. Ce qui est en jeu, c’est l’importance que la société attache à disposer d’une information concernant des phénomènes sociaux qui soit indépendante des cadres administratifs (au sens large). Cette importance se traduit par les moyens accordés à la réalisation d’enquêtes, sans contrepartie monétaire directe. Dans le cas de la Covid-19, en France, de tels moyens ont-ils été demandés pour des enquêtes de prévalence ou d’incidence représentatives de la population et fréquemment répétées ? On ne sait pas. S’ils ont été demandés, ont-ils été refusés ? Toujours est-il que ces moyens n’ont pas été mis en place. En toute hypothèse, quelque part la conviction a manqué : on n’a pas estimé que cela valait le coût, malgré l’importance des politiques publiques en jeu.
De ce fait on ne saura pas à quel degré les indicateurs utilisés étaient erronés, ni les conséquences que ces erreurs ont entraînées. Raison de plus pour analyser de très près les leçons de l’expérience anglaise citée par Variances.
Mots-clés : statistiques – enquêtes – santé – données administratives
[1] « Epidémiologie et conditions de vie sous le covid-19 » Réf.: https://drees.solidarites-sante.gouv.fr/sources-outils-et-enquetes/enquete-epicov-epidemiologie-et-conditions-de-vie-sous-le-covid-19
[2] On peut citer aussi les enquêtes menées auprès des participants à la cohorte épidémiologique « Constances » ; mais ces enquêtes n’ont pas vocation à représenter la population totale.
[3] Prises ici au sens large : issues de l’activité courante d’administrations ou d’entreprises, voire de ménages.
[4] « Covid-19 Anatomy of a methodology crisis. Why surveys of prevalence and severity are still needed. » Samuel J. Sender, Mircea Sofonea et Pierre Sonigo – https://variances.eu/?p=6188
- Le rôle irremplaçable d’une statistique indépendante de la gestion - 25 novembre 2021
- Pour la défense des principes fondateurs de la statistique publique - 6 novembre 2019
Excellent article, que je vais citer dans mon prochain papier.