Nous sommes heureux de publier cet article de Kim Antunez, qui vient d’obtenir le prix du meilleur mémoire de stage de fin d’études de l’ENSAE, parcours ingénieur réalisé au sein du laboratoire de sociologie du CREST sous la direction d’Ivaylo Petev.  Kim a bien voulu résumer pour variances.eu les grandes lignes de son travail.


Kim, peux-tu nous rappeler rapidement ton parcours ?

Après avoir été diplômée de l’École nationale de la statistique et de l’analyse de l’information (ENSAI) et d’un Master 2 en Statistique-économétrie, spécialité statistique publique en 2015, je suis devenue statisticienne de l’Insee. J’ai d’abord travaillé au Commissariat général à l’égalité des territoires (CGET), un service du Premier Ministre, où j’ai développé une expertise sur l’analyse spatiale et les sources de données territorialisées. Puis, j’ai travaillé à la Direction de la recherche, des études, de l’évaluation et des statistiques (DREES) du Ministère des Solidarités et de la Santé, en tant que chargée d’étude sur le Baromètre d’opinion, une enquête qui suit chaque année depuis 2000 l’évolution de la perception des inégalités sociales et du système de protection sociale en France. En 2019, j’ai obtenu le concours d’administrateur de l’Insee qui m’a conduite à faire deux ans de scolarité à l’ENSAE. Aujourd’hui, j’anime une petite équipe de quatre personnes de la direction générale de l’Insee dédiée à l’« analyse urbaine ». Nous outillons les directions régionales de l’Insee et réalisons des études statistiques, économiques et sociales à un échelon géographique infracommunal.

Explique-nous la genèse de ton projet de mémoire ?

Mon stage de fin d’études et mémoire de recherche a été réalisé dans le cadre de mon double diplôme de troisième année à l’ENSAE et de Master 2 de Sociologie, parcours Sociologie Quantitative & Démographie (SQD) accrédité par l’Université Paris-Saclay, sous la direction d’Ivaylo Petev. J’ai souhaité, au moment du choix de mon sujet et durant la réalisation de mes travaux, allier les compétences acquises par ces deux formations.

Côté sciences sociales, j’ai fait le choix d’éclairer le phénomène de la pauvreté. D’abord car c’était un sujet adapté à la méthodologie que je souhaitais découvrir et utiliser. Ensuite car il était suffisamment vaste pour que je puisse découvrir la littérature sur le sujet en autodidaxie. Cette revue de littérature me servira d’ailleurs probablement dans un de mes futurs postes de statisticienne publique. Enfin, le poste que j’ai occupé à la Drees sur son Baromètre d’opinion m’a procuré l’avantage de bien connaître la base de données et les thématiques qui y sont traitées.

Côté méthodologie statistique, le cours introductif que j’ai suivi à l’ENSAE m’a donné l’envie de creuser les méthodes à variables latentes, introduites par les sciences humaines dès le début du XXème siècle mais très peu enseignées en France.

Pourquoi utiliser des méthodes en variables latentes en sciences sociales ?

Ces techniques sont un complément de grande valeur aux méthodes statistiques plus classiques (économétriques et géométriques). Elles ont pour hypothèse fondamentale l’existence de variables non observables directement dans la base de données (typiquement l’intelligence, et dans notre cas la pauvreté) mais dont on peut mesurer des effets ou des conséquences.

Par ailleurs, à la différence des habituelles Analyses des Correspondances Multiples (ACM), les analyses en Facteurs communs Exploratoires (AFE), conservent la structure des corrélations entre indicateurs et ne s’intéressent pas uniquement à la variance. La variance totale se décompose en effet en une somme de deux variances :

– la variance commune qui correspond à la variance partagée par tous les indicateurs d’un même facteur (c’est-à-dire d’une même variable latente) ;
–  la variance unique (inexistante dans le cas d’une ACM) : celle spécifique à chaque indicateur (par exemple la variance spécifique au fait de toucher le RSA au-delà de la variance attribuable à la pauvreté institutionnelle) et celle due aux éventuelles erreurs de mesures.

Ces méthodes en variables latentes sont toutefois complexes, ce qui pose parfois des difficultés de convergence des algorithmes et d’interprétation des résultats des différents modèles.

Quels sont les principaux résultats de ton étude ?

En m’appuyant sur le Baromètre d’opinion de la Drees, j’ai construit un espace social de la pauvreté mobilisant trois dimensions largement citées dans la littérature :

* La pauvreté monétaire, indicateur phare et traditionnel d’étude des inégalités ;
* La pauvreté institutionnelle, c’est-à-dire liée au fait de bénéficier ou non de prestations sociales et d’être en situation d’assistance vis-à-vis de l’État ;
*  La pauvreté subjective, c’est-à-dire basée sur des indicateurs focalisés sur le ressenti des individus. Deux indicateurs du Baromètre d’opinion ont été utilisés dans notre étude : le sentiment de pauvreté (indiquer se sentir pauvre) et les difficultés financières perçues (indiquer disposer d’un revenu inférieur au revenu minimum que l’on juge nécessaire pour vivre convenablement).

Dans un objectif de cumulativité, j’ai tout d’abord souhaité prolonger l’étude de Duvoux & Papuchon (2018). J’ai constaté à mon tour que, même si le niveau de vie explique fortement ces indicateurs de pauvreté subjective, la pauvreté institutionnelle joue également un grand rôle à niveau de vie fixé. Par ailleurs, certains groupes sociaux se sentent particulièrement pauvres toutes choses étant égales par ailleurs : les locataires, les personnes en dehors du marché du travail – et les ouvriers et employés dans une moindre mesure – et les ménages composés d’un seul adulte (familles monoparentales et personnes vivant seules).

Dans le but de connaître les interactions entre les trois dimensions de la pauvreté évoquées précédemment, j’ai ensuite proposé une démarche englobante de construction de l’espace social de la pauvreté. J’ai pour cela utilisé deux méthodes :

– une Analyse des Correspondances Multiples (ACM) a tout d’abord montré que les différentes dimensions sont fortement corrélées et amènent à la construction par Classification Ascendante Hiérarchique (CAH) de cinq classes ordonnées de pauvreté.

–  une Analyse en Facteurs communs Exploratoire (AFE), modélisant les dimensions comme des variables latentes, a ajouté de la nuance en démontrant que les dimensions de la pauvreté sont non seulement théoriquement construites mais également empiriquement validées. Les indicateurs de pauvreté institutionnelle, directement en lien avec les politiques publiques de lutte contre la précarité, se rassemblent en effet en une même dimension latente. Parmi les personnes appartenant aux classes moyennes, certains profils sont plus susceptibles de percevoir des prestations sociales : les jeunes de 18 à 29 ans, les locataires, les inactifs et les ménages avec enfants (d’un ou deux adultes). Ce sont ces mêmes ménages qui se sentent le moins en difficulté financière à niveau de revenu fixé. En outre, la relativement forte corrélation entre difficultés financières réelles – via le niveau de vie déclaré –  et perçues (corrélation de Spearman supérieure à 0,5) valide la pertinence des indicateurs de pauvreté subjective comme compléments aux indicateurs objectifs.

Le mémoire se ponctue par une méthodologie synthétique amenant à elle seule à des résultats semblables à ceux obtenus avec les méthodes précédentes : l’Analyse en Facteurs communs Confirmatoire (AFC). L’indice synthétique de pauvreté construit par cette méthode montre que l’éloignement du marché du travail et l’appartenance à une famille monoparentale accentuent fortement les chances d’être pauvre, toutes dimensions confondues. En outre, l’analyse des dimensions prises une à une montre que le poids du subjectif est relativement faible chez ces populations, pourtant particulièrement pauvres. En revanche, chez les personnes vivant seules sans enfant et les ouvriers, la pauvreté subjective est particulièrement élevée comparativement à leur niveau de pauvreté objective. Chez les plus jeunes et les ménages avec enfants, la situation est opposée avec un niveau de pauvreté subjectif relativement faible.

Dans ton mémoire, tu mets en avant la reproductibilité des codes que tu proposes, pourquoi est-ce important pour toi ?

Convaincue par l’open-data, l’open-source, et l’automatisation de processus statistiques utiles à différents types d’acteurs, j’ai réalisé ces dernières années des projets en ce sens, mobilisant principalement le logiciel statistique R.

En particulier, j’ai voulu montrer par ce mémoire que la science reproductible concerne tout autant les sciences sociales que l’informatique et la statistique. Même si je comprends les freins qui limitent parfois sa mise en œuvre (données non ouvertes, technicité des outils…), je trouve qu’elle est gage de confiance puisqu’elle permet de fournir aux lecteurs l’ensemble des clefs de compréhension des résultats d’une recherche, de les critiquer (au sens noble du terme), voire de les améliorer.  C’est pourquoi les codes et ce présent rapport sont disponibles sur mon site github.

Quelles conclusions peut-on tirer de ce travail, et quelles sont ses retombées possibles ?

L’utilisation combinée d’un Baromètre d’opinion et de méthodes en variables latentes a permis d’étudier sous un angle relativement original l’espace social de la pauvreté en France. Les chercheurs en sciences sociales pourront, grâce aux codes mis à disposition, mettre en place les mêmes méthodes dans leurs propres travaux de recherche.

Sur la thématique même du mémoire, il serait intéressant d’utiliser des données alternatives au Baromètre d’opinion, par exemple les données du dispositif SRCV (ou European Union Statistics on Income and Living Conditions, EU-SILC). Celles-ci sont non seulement bien fournies en termes de renseignements collectés sur la composition du ménage mais également sur les revenus et les privations matérielles. Elles sont néanmoins légèrement moins adaptées que le Baromètre aux données subjectives mais comportement toutefois un module « attitudes, sentiments et qualité de vie ».

En termes de méthodologie, un point qu’il serait important d’affiner est certainement la correction des données manquantes. Étant relativement peu nombreuses, le choix a été fait de se limiter uniquement à l’imputation des revenus.

Enfin, même si les méthodes d’analyse factorielle sont très informatisées et souvent mobilisées via des logiciels « presse boutons », elles demandent en réalité une certaine expertise (technique d’analyse, nombre de facteurs à interpréter, type de rotation…). Les résultats et l’interprétation qui en découlent nécessitent une bonne taille d’échantillon et un choix judicieux des variables. Comme dans les modèles économétriques, les variables doivent être discriminantes mais elles doivent aussi ici être suffisamment corrélées pour constituer des facteurs. Les données devraient en toute rigueur être distribuées normalement et être liées linéairement entre elles pour pouvoir être estimées par maximum de vraisemblance. Certains points méthodologiques mériteraient donc certainement d’être approfondis par des regards d’experts pour affiner les conclusions tirées des différents modèles.

Pour conclure, je dirais qu’en lisant mes travaux, les chercheurs en sciences sociales trouveront peut-être que la technique prend un peu trop le pas sur le raisonnement sociologique. Les statisticiens seront peut-être avides d’en savoir plus sur la théorie mathématique sur laquelle reposent les méthodes d’analyse en classes latentes. En tous cas, j’ai construit mes travaux dans l’idée de satisfaire ces deux types de profils et j’espère m’en être sortie convenablement.

Je laisse les lecteurs juges !

 

Mots-clés : Sciences sociales – Pauvreté – Pauvreté subjective – Variables latentes – Reproductibilité


Références et détails

Lien vers le mémoire : https://antuki.github.io/EspaceSocial_Pauvrete/rapport/_book/index.html

Duvoux, N., & Papuchon, A. (2018). Qui se sent pauvre en France ? Revue Française de Sociologie, 59(4), 607–647.

Kim Antunez
Les derniers articles par Kim Antunez (tout voir)