La santé publique est définie dans le rapport de la commission d’enquête sur le développement futur de la fonction de santé publique en Angleterre de 1988 comme “la science et l’art de prévenir les maladies, de prolonger la vie et de promouvoir la guérison grâce aux efforts organisés de la société”. Son objectif ostensiblement appliqué positionne cette discipline à l’intersection des sciences de la vie, des sciences sociales et de la médecine.

L’épidémiologie est une des disciplines centrales de la santé publique. Elle est traditionnellement divisée en deux approches distinctes : la première est l’épidémiologie clinique, la seconde l’épidémiologie populationnelle. L’épidémiologie clinique s’intéresse à la production de connaissances en lien avec des aspects cliniques, en particulier l’évaluation d’interventions thérapeutiques ou diagnostiques, avec pour objectif d’améliorer la prise en charge des malades par les cliniciens. Au contraire, l’épidémiologie populationnelle vise à produire des informations qui éclairent le processus décisionnel collectif, à la fois dans la définition des politiques de santé publique et dans l’évaluation des risques sanitaires auxquels sont exposés des groupes d’individus.  Nous nous concentrerons ici sur l’approche populationnelle.

L’épidémiologie populationnelle peut à son tour être stratifiée en fonction de l’objectif de l’analyse. On peut ainsi distinguer l’épidémiologie descriptive, qui s’intéresse à la description des variations du fardeau des maladies, l’épidémiologie analytique, qui s’intéresse aux causes de ces variations, et l’épidémiologie interventionnelle, qui cherche à agir sur ces causes pour améliorer la santé des populations. D’autres stratifications existent, notamment celle qui repose sur le mode de transmission des maladies étudiées. On peut ainsi distinguer l’épidémiologie des maladies non transmissibles, telles que les cancers, et l’épidémiologie des maladies infectieuses, dont l’objet est l’étude des maladies causées par des agents pathogènes infectieux (virus, champignons ou bactéries).

Zoom sur l’épidémiologie des maladies infectieuses

Plus spécifiquement, l’épidémiologie des maladies infectieuses s’intéresse aux conditions de l’émergence de maladies provoquées par des agents pathogènes infectieux, aux mécanismes expliquant leurs propagations, à l’estimation de leur fardeau tant sur la santé que sur le plan économique et aux stratégies permettant de réduire ce fardeau.

Les épidémiologistes spécialisés en maladie infectieuse ont régulièrement le droit à un coup de projecteur médiatique lors de pandémies, le dernier cas étant la pandémie de la COVID-19, ou d’épidémie inhabituelle, par exemple lors de l’épidémie de la variole du singe en 2022. Un des signes distinctifs de l’épidémiologie des maladies infectieuses est la place occupée par la modélisation mathématique mécaniste dans la compréhension des dynamiques épidémiques et des effets des interventions sur ces dynamiques.

Dans leurs formes les plus simples, ces modèles utilisent un ensemble d’équations différentielles ordinaires (EDO) pour modéliser ces dynamiques en prenant en compte les spécificités de l’infection, par exemple l’existence d’une période asymptomatique, et de la population étudiée, par exemple une pyramide des âges spécifique. Ces modèles peuvent être ensuite utilisés pour estimer des scénarios contrefactuels prenant en compte différentes interventions comme les couvre-feux ou l’utilisation de vaccins. L’utilisation d’équations aux dérivées partielles (EDP) permet d’introduire dans la modélisation des effets supplémentaires, par exemple des effets mémoires ou de perte d’immunité, en conservant une structure de modèle parcimonieuse.

Les modèles à EDO ou EDP ont pour particularité de modéliser des agrégats pour des populations spécifiques, par exemple le nombre hebdomadaire d’hospitalisés, et non directement des états individuels. Les approches par réseaux ou par agents permettent d’intégrer cette dimension individuelle dans l’analyse, au prix d’une structure de modèle hautement paramétrée et de coûts computationnels bien plus élevés que les modèles par ODE ou EDP. Les approches par réseaux sont particulièrement indiquées pour modéliser des infections sexuellement transmissibles (par exemple la transmission du virus de l’immunodéficience humaine, VIH), où les réseaux sexuels jouent un rôle central dans la dynamique des épidémies, ou des dynamiques infectieuses dans des périmètres géographiques restreints, comme les hôpitaux ou des foyers, même si des exemples d’application à l’échelle d’un pays existent.

Un exemple concret d’utilisation d’un modèle stochastique individu-centré est l’étude de l’”acquisition” de bactéries résistantes aux antibiotiques par le nouveau-né dans les ménages comprenant de multiples sources hypothétiques d’”acquisition”. L’estimation des paramètres s’effectue à l’aide de méthodes de type MCMC (Markov Chain Monte Carlo), qui facilitent une approche bayésienne robuste pour caractériser les distributions a posteriori des paramètres du modèle et quantifier les incertitudes associées aux estimations. Les données nécessaires pour alimenter ce type de modèle proviennent d’études de cohorte de ménages. Par exemple, dans une communauté semi-rurale de Madagascar, 60 nouveau-nés et leurs familles ont été suivis longitudinalement avec des visites régulières à domicile et des prélèvements d’échantillons biologiques.

Outre les modèles mécanistiques ou individu-centrés, des modèles phénoménologiques peuvent être employés, notamment lorsque l’objectif de la recherche est descriptif. Un exemple concret est l’approche ”disease mapping”, qui a pour objectif d’obtenir la production d’information descriptive sur l’hétérogénéité spatiale de l’incidence d’une maladie (i.e., le flux de nouveaux cas) ou de la prévalence (i.e., le stock des individus infectés). Ces approches ont une longue tradition, la première carte épidémique connue date de 1694 (!) et décrivait la propagation spatiale de la peste entre 1690 et 1692 dans la province de Bari, en Italie. En France, ”l’école de Paris de statistiques médicales” a également préfiguré ces analyses. On peut notamment citer Joseph-François Malgaigne et sa carte de l’incidence de la hernie en France, datant de 1840. Les approches modernes de cartographie des maladies reposent principalement sur des modèles hiérarchiques Bayésiens permettant d’encoder dans le modèle des informations a priori sur la relation spatiale entre les zones géographiques considérées, par exemple leur contiguïté. L’enjeu statistique principal est d’obtenir des estimations stables pour des zones géographiques dans lesquelles le nombre d’échantillons collectés est faible, par exemple car le système de surveillance est peu développé. L’approche s’étend naturellement à des données spatio-temporelles, un enjeu supplémentaire étant alors de tenir compte des différentes relations susceptibles d’exister entre le temps et l’espace. Sur R, un package très populaire pour ce type d’approche est R-INLA, qui utilise une approximation de Laplace pour estimer les distributions postérieures des paramètres du modèle. L’article qui a initié cette approche extrêmement populaire a d’ailleurs été co-écrit par un des chercheurs du CREST et enseignant à l’Ensae, Nicolas Chopin ! Typiquement, ces approches disease mapping utilisent des données collectées de manière routinière, par exemple par le Système National des Données de Santé (SNDS), les registres nationaux, ou par les laboratoires de biologie.

Le rôle qu’ont à jouer les Ensae en santé publique et en épidémiologie

La santé publique n’est généralement pas considérée comme un des débouchés naturels de l’Ensae, contrairement à la sociologie quantitative ou l’économie. Les techniques quantitatives utilisées sont cependant fondamentalement les mêmes dans ces champs qu’en épidémiologie, les différences majeures relevant de la pratique de la modélisation et du vocabulaire utilisé pour présenter les modèles et non d’aspects techniques. Outre ces quelques subtilités, le principal défi consistera à acquérir une compréhension minimale de termes inconnus pour la majorité des Ensae, car relevant de la biologie, l’écologie, la génomique ou la médecine. C’est d’ailleurs la cohabitation de toutes ces disciplines qui rend ce champ disciplinaire fascinant pour un statisticien, qui se retrouve très régulièrement confronté à de nouveaux types de données. On peut par exemple mentionner l’utilisation des données génomiques qui peuvent être exploitées pour reconstruire des généalogies de virus et des dynamiques de propagations à partir de modèles statistiques !

Les Ensae ont donc toutes les compétences requises pour travailler sur ces thématiques et se rendre utiles, comme en témoigne le parcours professionnel de Simon Cauchemez (Ensae 2001), responsable de l’unité de Modélisation Mathématique des Maladies Infectieuses et ancien membre du Conseil scientifique Covid-19.

Comment se spécialiser en épidémiologie en étudiant à l’Ensae ?

Si l’Ensai a une spécialité entièrement consacrée aux biostatistiques, ce n’est pas le cas de l’Ensae. Le choix des stages et du combo 3A-M2 sera donc décisif. A titre d’exemple, Maria Alexa, coautrice de cet article, a choisi en 3A la spécialisation Data Science, Statistiques et Apprentissage, tout en suivant en parallèle le Master Mathématiques pour les Sciences du Vivant de l’Institut Polytechnique de Paris. Elle a ensuite réalisé son stage de fin d’études au sein de l’unité Épidémiologie et modélisation de la résistance aux antimicrobiens de l’Institut Pasteur, et y fait actuellement sa thèse. Son parcours a d’ailleurs fait l’objet d’un podcast Ensae&vous en deux parties (partie 1 et 2), permettant d’en apprendre plus sur son projet doctoral.

Depuis la pandémie de COVID-19, la communauté des modélisateurs se structure autour de l’Action Coordonnée Modélisation des maladies infectieuses (AC49) de l’ANRS|MIE. La liste des membres de l’AC offre un bon point de départ pour identifier les équipes qui ont des thématiques de recherche susceptibles d’intéresser un étudiant à la recherche d’un stage. Par exemple, l’équipe de Lulla Opatowski, hébergée dans le laboratoire Epidémiologie et modélisation de la résistance aux antimicrobiens de l’Institut Pasteur, pourra intéresser un étudiant souhaitant travailler sur les effets de l’exposition de la population aux médicaments anti-infectieux (antibiotiques et vaccins), notamment en termes de risque d’infection, de résistance bactérienne aux antibiotiques et d’échappement à la vaccination. Autre exemple, l’équipe de Samuel Alizon, Ecologie et Evolution de la Santé, hébergée au Centre Interdisciplinaire de Recherche en Biologie du Collège de France, pourra intéresser un étudiant souhaitant travailler sur la propagation des maladies sexuellement transmissibles, sur des thématiques d’épidémiologie évolutive, notamment la modélisation phylogénétique, ou sur des thématiques liées à la santé de la femme (par exemple, le microbiote vaginal). En cas de questions ou de doutes sur les thématiques d’une équipe de l’AC modélisation, les auteurs de l’article peuvent être contactés !

 

Mots-clés : Santé Publique – Épidémiologie – Maladies infectieuses – Modélisation

Maria Alexa et Olivier Supplisson