Variances remercie les deux auteurs et l’Insee pour ce deuxième volet d’un article tiré du Courrier des Statistiques de décembre 2024 : L’économie racontée par les données bancaires − Courrier des statistiques N12 – 2024 | Insee

Depuis la crise sanitaire en 2020, l’Insee bénéficie d’un accès à des échantillons anonymisés de comptes bancaires de La Banque Postale et du Crédit Mutuel Alliance Fédérale. Ces données, riches en informations, ont permis de documenter l’évolution de la situation financière des ménages en temps réel lors de la crise inédite de la Covid-19, puis lors de l’épisode inflationniste en 2022. Elles ont également permis de documenter la situation quotidienne des ménages, mettant en lumière des épisodes de découvert en fin de mois, et d’évaluer une politique publique en mesurant les impacts financiers, distributifs et environnementaux de la remise à la pompe instaurée en 2022 à la suite de la hausse des prix du carburant.

Les données bancaires sont une mine d’informations précieuses, mais leur utilisation soulève de nombreux défis. Après quatre années d’utilisation, un premier bilan de leur exploitation est proposé dans cet article. Comment construire des concepts qui ont un sens économique à partir de ces données ? Comment s’assurer de leur représentativité ? Quels sont les apports de ces données pour la statistique publique ? Si elles ne permettent pas de remplacer les données d’enquêtes et fiscales, elles complètent les analyses conjoncturelles. En outre, elles permettent de répondre à des questions anciennes sur la consommation et l’épargne des ménages auxquelles les sources traditionnelles ne pouvaient apporter de réponses.

Dans ce deuxième volet de cet article, nous détaillerons les défis à relever pour exploiter les données bancaires et expliquerons les nouvelles informations qu’elles apportent à la statistique publique : comment complètent-elles le diagnostic conjoncturel ? À quelles nouvelles questions économiques permettent-elles de répondre ? Enfin, nous reviendrons sur leurs limites, notamment en matière de représentativité.

Du côté du statisticien : de la base de données à la publication d’une étude économique

Les données transmises par les banques (voir le premier volet de l’article) comportent de riches informations contenues dans de multiples tables ; le statisticien doit les retraiter afin de réaliser des études économiques.

Transformer les données transmises en bases statistiques facilement utilisables

Une fois les données reçues, la première étape consiste en des macro-contrôles internes. Cela consiste à produire une série de vérifications sur la volumétrie des données afin de s’assurer que le dernier rafraîchissement ne comporte pas d’erreurs grossières. Concrètement, cela revient à vérifier dans les différentes tables que les évolutions du nombre de clients et du nombre de transactions ne sont pas erratiques. Le statisticien ne maîtrisant pas le processus amont, les macro-contrôles sont primordiaux. Il se peut par exemple que les dernières données transmises au statisticien soient incomplètes (comme des transactions manquantes en fin de mois).

Ensuite, le statisticien construit à partir des données bancaires des variables économiques : les variables correspondant aux concepts à étudier. Par exemple, le patrimoine financier brut d’un groupe famille/foyer est reconstitué à partir de la somme des soldes sur ses comptes.

Les données sont structurées selon une représentation rectangulaire familière au chargé d’étude, dans laquelle une ligne correspond à une observation, c’est-à-dire un groupe famille/foyer un mois donné (ou un jour donné selon la fréquence étudiée). Les colonnes contiennent les variables d’intérêt : revenus, dépenses, patrimoine financier et caractéristiques sociodémographiques.

L’échantillon est ensuite restreint à la population d’intérêt et un calage[1] est mis en place. Différents filtres peuvent être appliqués afin de conserver uniquement l’échantillon de clients souhaité. De plus, l’échantillon peut être calé sur plusieurs marges (âge quinquennal, sexe, population par département) afin de le rendre davantage représentatif de la population française.

Enfin de nouveaux macro-contrôles externes sont réalisés sur les données finales. L’objectif est de confronter les informations et les messages issus des données bancaires à ceux provenant d’autres sources. Idéalement, les données bancaires doivent être confrontées à des données portant sur les mêmes concepts, pour permettre des comparaisons plus directes, et surtout de même fraîcheur. Une première confrontation naturelle et fondamentale est donc la comparaison des données des deux banques. Mais d’autres sources peuvent également être mobilisées, comme les indicateurs de la Banque de France (publiés mensuellement), ou encore les données du Groupement d’Intérêt Économique des Cartes Bancaires (GIE CB), qui permettent de tracer des évolutions agrégées de dépenses par carte bancaire.

Au bout du compte, des données comme les autres ?

Les données bancaires sont alors traitées par le statisticien de la même manière que n’importe quelle autre source de données. Il peut donc effectuer les opérations statistiques et économétriques nécessaires pour répondre à sa problématique. La dernière étape consiste à extraire les résultats agrégés du CASD (pour LBP) ou de la banque (pour CMAF) après vérification de leur conformité (notamment l’absence de données individuelles).

Ces données permettent de répondre à plusieurs problématiques, du suivi conjoncturel à l’évaluation de politiques publiques.

Voir vite et net : des données transformées pour améliorer le suivi conjoncturel

Pour éclairer la conjoncture, ces données ont le quadruple avantage de la fraîcheur, de la granularité fine, de la grande taille de l’échantillon et de la diversité des informations fournies. En effet, elles sont mobilisables rapidement : les données du mois M sont disponibles à la fin, voire au milieu du mois M+1. Les opérations sont disponibles au niveau journalier, permettant une analyse en temps réel des réactions des clients face à un choc soudain, comme la baisse des taxes sur le carburant. En outre, les échantillons de clients sont ici suffisamment grands pour focaliser l’étude sur des populations particulières, comme les bénéficiaires du RSA[2] pendant la crise sanitaire ou les grands consommateurs de carburant au moment du déclenchement de la guerre en Ukraine. Avec les enquêtes traditionnelles, ces populations ne sont souvent pas suffisamment nombreuses dans les échantillons pour être étudiées spécifiquement. Cet avantage pour la statistique publique a également été souligné lors de l’utilisation de données administratives exhaustives qui permettent d’aller au-delà des décompositions habituelles en dixième de patrimoine et permettent de zoomer jusqu’au centième, voire jusqu’au millième (André et Meslin, 2022). Enfin, les variables sont suffisamment riches pour à la fois mesurer les concepts habituellement mobilisés à l’Insee comme les revenus, la consommation ou l’épargne mais également des grandeurs parlantes pour le grand public comme le solde à la fin du mois.

Ces atouts ont été pleinement exploités lors de la crise sanitaire et de l’épisode inflationniste qui a suivi. Tout d’abord, les données bancaires ont permis de documenter la hausse de l’épargne du fait de la chute de la consommation pendant les confinements (Insee, 2021). Ensuite, elles ont permis de montrer que les revenus de la plupart des clients ont été affectés seulement de manière limitée et temporaire par la crise, mais que certaines populations en marge du marché de l’emploi, comme les allocataires du RSA, ont été davantage pénalisées (Bonnet et alii, 2021). Par ailleurs, plusieurs indicateurs ont été construits permettant de conclure que la précarité financière n’a pas augmenté significativement au cours de la crise sanitaire (figure 3). Au début de la période inflationniste en 2022 et de nouveau en 2023, deux études ont montré que la précarité financière, mesurée par quelques indicateurs sur les découverts bancaires, augmente depuis début 2021, mais reste inférieure à son niveau d’avant-crise sanitaire (Adam et alii, 2022, Bonnet et alii, 2023).

Figure 3 – Précarité financière sur le panel de clients de La Banque Postale entre janvier 2019 et janvier 2021

Mesurer la diversité des ménages : des données massives qui complètent les enquêtes sans pouvoir les remplacer

En Espagne, des chercheurs soulignent l’importance de ces données, qui permettent d’augmenter la précision des mesures d’inégalités de consommation, lesquelles reposent sinon sur des enquêtes. Leur apport est affirmé dans un document de travail de l’Université de Cambridge : « Une fois organisées selon les principes de la comptabilité nationale, [les données bancaires peuvent] reproduire les statistiques officielles actuelles sur la consommation globale au niveau national avec un haut degré de précision. En raison de la richesse des données de transaction, elles peuvent en outre produire de nouveaux comptes distributionnels de la consommation, qui révèlent des inégalités de consommation plus importantes que ne le suggèrent les enquêtes. » (Buda et alli, 2022).

Elles permettent également d’aller au-delà des limites des données d’enquêtes de consommation (comme l’enquête Budget de Famille[3]), grâce à la possibilité de suivre les ménages en panel et d’étudier certaines populations spécifiques, qui, sinon, ne seraient pas en effectifs suffisants. De plus, ces enquêtes ne recensent la consommation de certains biens que sur une courte période, ce qui limite la connaissance de la distribution de la consommation. Par exemple, si un ménage répondant n’a pas consommé un bien pendant la période d’interrogation, il est impossible de savoir s’il ne le consomme jamais ou seulement rarement. Disposer d’informations très précises et détaillées est ainsi fondamental pour mesurer la diversité des pertes liées à une hausse des prix du carburant ou de l’énergie, qui peuvent varier très fortement au cours de l’année.

Enfin, les données bancaires peuvent partiellement remédier aux limites liées aux erreurs de déclarations, comme la sous-déclaration du patrimoine financier.

Analyser l’évolution de la situation financière des ménages à la suite de chocs de prix ou de revenus

Pour les études économiques, les données bancaires ont l’avantage décisif de contenir simultanément des informations quotidiennes sur le revenu, la consommation et l’épargne d’un panel de ménages observé sur plusieurs années. L’apport de ces données est souligné pour mesurer la réaction des ménages à des chocs de revenus (Baker et alii, 2020), qu’ils soient permanents (hausse de salaire, passage à la retraite) ou temporaires (épisode de chômage, allocation exceptionnelle, prime inflation). Il est possible de savoir si les ménages peuvent puiser dans leur épargne ou doivent se résoudre à diminuer leur consommation à la suite d’un choc de revenu. Elles participent donc à l’évaluation de politiques publiques. À ce titre, ces données ont déjà permis d’évaluer les impacts financiers, distributifs et environnementaux des remises sur le carburant mises en place par le gouvernement à la suite des fortes variations de prix consécutives à la guerre en Ukraine (Adam et alii, 2023, figure 4).

Figure 4 – Prix et consommation de carburant entre septembre 2021 et janvier 2023, variations quotidiennes par rapport à la moyenne sur la période

Ces données ont également permis d’étudier l’évolution de la situation financière des ménages au jour le jour (Bonnet et alii, 2023), illustrant les contraintes de liquidité qui pèsent sur ceux-ci au fil du mois : parmi eux, combien sont dans le rouge la veille du jour de paie (figure 5) ? Enfin, elles permettent de mesurer les achats à l’étranger des résidents français, et donc d’étudier les questions de tourisme, d’achats transfrontaliers et d’évitement des taxes pour des biens tels que le tabac (Hillion, 2024) ou le carburant (Adam et alii, 2024).

Figure 5 – Part des ménages à découvert au fil du mois

Les données bancaires sont donc une source d’information riche, et ont le grand avantage, par rapport aux enquêtes, d’épargner au statisticien public (et aux comptes publics) les coûts liés au processus de collecte. L’inconvénient principal est la perte de la maîtrise du processus (Rivière, 2018). Tout comme les données administratives, les données bancaires existent à des fins de gestion, indépendamment des besoins statistiques. Par conséquent, le champ et les variables de ces données ne répondent pas nécessairement aux besoins du statisticien. La construction conjointe des bases avec les banques ne permet que partiellement de résoudre ce problème du fait de la nature des données d’origine.

La représentativité : étudier la santé financière des Français ou simplement celle d’une clientèle particulière ?

Le champ étudié dans les données bancaires correspond aux clients de la banque et n’est donc pas représentatif de la population française. Il exclut par définition les personnes non titulaires d’un compte bancaire, mais chaque banque peut aussi se spécialiser différemment sur certains segments de la population. Avoir les données de deux banques aux clientèles différentes est un atout pour répondre à cet enjeu. Des comparaisons avec des sources externes permettent également de quantifier l’ampleur du biais. En termes de revenus, de patrimoine et de consommation, la clientèle de CMAF apparaît en moyenne un peu plus aisée que la population générale et celle de LBP un peu moins. Cependant les clientèles des deux banques présentent une diversité importante qui semble couvrir une large partie du spectre économique des ménages français. L’analyse des catégories socioprofessionnelles disponibles dans les fichiers bancaires pointe une surreprésentation des étudiants et une sous-représentation des retraités ; cela peut résulter d’un biais de représentativité ou d’un délai de mise à jour de la situation professionnelle.

Afin de corriger ce biais potentiel, l’échantillon peut être calé sur l’âge quinquennal, le sexe et le département. Ces variables sont les seules pour lesquelles il est certain que la définition est la même entre l’échantillon bancaire et la source de référence. Le calage contribue à tendre vers un échantillon plus représentatif de la population ; mais faute d’avoir les données de l’ensemble des banques, l’échantillon ne peut pas respecter les standards de représentativité des enquêtes. Il est donc impossible de produire des chiffres « officiels » sur l’évolution des revenus, de l’épargne ou de la consommation à partir de ces données bancaires.

Un texte à trou : les comptes bancaires, une vision partielle du patrimoine des ménages

Outre la question de la représentativité, les informations sur les ménages et leur situation économique provenant des données bancaires sont incomplètes (Baker et alii, 2020). Certains clients peuvent disposer de plusieurs comptes dans différentes banques, ce qui peut conduire à sous-estimer leurs revenus, leurs dépenses, mais surtout leur patrimoine financier (notamment en cas de détention d’assurances-vie). L’enquête Histoire de Vie et Patrimoine[4] mesure l’ampleur du phénomène qui se concentre surtout chez les ménages aux plus hauts revenus : les 10 % de ménages aux plus hauts revenus détiennent 60 % de leur patrimoine financier[5] au sein de leur banque principale, contre 90 % pour les 10 % aux revenus les plus faibles. De plus, le patrimoine immobilier est inconnu. Pour réduire ce problème de complétude, des chercheurs utilisent parfois des données d’application qui agrègent les comptes des clients des différentes institutions bancaires (Olafsson et Pagel, 2018). Cependant, les utilisateurs d’une telle application bancaire sont probablement moins représentatifs de la population générale que les clients d’une banque dans leur ensemble.

Des statistiques éloquentes, mais éloignées des mesures usuelles de la statistique publique

Contrairement aux enquêtes, les données bancaires ne permettent pas une mesure directe des concepts usuels de la statistique publique. Alors que le statisticien souhaite mesurer les revenus, l’épargne et la consommation, la banque enregistre des flux entrants ou sortants par type de moyen de paiement. Et alors que le statisticien souhaite calculer des statistiques par ménage, les données bancaires permettent, dans le meilleur des cas, un regroupement des membres du ménage bancarisés au sein de l’établissement bancaire considéré.

Précisément, la notion de ménage[6] est approchée par celle de groupe famille, qui repose sur des informations transmises au conseiller et sur la détention de comptes joints. La taille des ménages est donc sous-estimée, car le conjoint et les enfants ne sont pas toujours intégrés dans le ménage, notamment s’ils n’ont pas de compte ouvert dans cette banque[7]. Les revenus mensuels sont mesurés à partir des flux entrants, mais cette mesure inclut des transferts qui ne correspondent pas tous à des revenus, tels que des transferts entre comptes d’un même individu dans des banques différentes. La catégorisation des virements (pension de retraite, allocation de chômage, prestation sociale, salaire, etc.) distingue certains types de revenus au sein des virements entrants. Mais si le repérage des revenus de remplacement semble fiable, comme les revenus d’allocations chômage qui proviennent de France Travail, celui des revenus d’activité l’est moins, tout comme celui des revenus du capital ; par exemple, les loyers versés entre particuliers ne peuvent être distingués de transferts réguliers entre membres d’une même famille n’appartenant pas à la même banque. Les dépenses mensuelles peuvent être mesurées par la somme des dépenses par carte[8], des retraits (au distributeur ou au guichet), et de certains prélèvements[9]. Le fait d’exclure les chèques et les virements émis conduit à sous-estimer les dépenses. Cependant, inclure tous les virements, chèques et prélèvements conduirait à surestimer les dépenses, tel qu’en cas de virement à soi-même ou de prélèvement de remboursement de crédit. La nature des dépenses n’est pas toujours facile à identifier. La catégorisation des dépenses par carte ne permet qu’imparfaitement d’identifier la structure du panier de consommation. Seul le type de vendeur est connu mais pas le détail des biens achetés. Or, un supermarché, par exemple, vend des biens très divers.

Les exploitations des données bancaires sont encore récentes. Elles se sont révélées précieuses lors de la période exceptionnelle de la crise sanitaire, mais la statistique publique doit encore prouver sa capacité à les utiliser dans le cadre d’un usage conjoncturel pérenne.

En temps de crise les évolutions écrasent le bruit des données, mais que peut-on mesurer par temps calme ?

Les questions de volatilité des indicateurs, de représentativité partielle, ou de complétude peuvent apparaître secondaires dans l’étude d’un choc aussi violent que la crise sanitaire ou la crise inflationniste. Le bruit provenant de dynamiques saisonnières et d’imprécisions inhérentes à ces données est alors de deuxième ordre par rapport aux variations subies par l’économie. En période de moins grandes turbulences, ces limites sont plus problématiques et pourraient conduire à tirer des enseignements erronés sur la conjoncture. L’enjeu est d’autant plus important que la profondeur temporelle de ces données demeure faible. À terme, avec des séries de plus longue période, il sera possible de neutraliser une partie du bruit en désaisonnalisant[10]. La désaisonnalisation pourrait même être journalière, plutôt que mensuelle, afin de bénéficier de la grande fréquence de ces données.

Un fort potentiel pour les études économiques et des limites potentiellement surmontables

Les études réalisées depuis quatre ans à partir des données bancaires ont permis de mieux cerner leur potentiel et leurs limites. Elles renseignent en temps réel sur les revenus, la consommation et le patrimoine de centaines de milliers de ménages et permettent ainsi de documenter l’évolution de la situation financière des ménages à la suite de chocs conjoncturels ou individuels. En revanche, malgré leur richesse, elles ne peuvent pas remplacer les enquêtes. Les principales limites sont les suivantes : la clientèle d’une banque n’est jamais totalement représentative de la France entière (certains ménages ne détiennent d’ailleurs aucun compte en banque), les différents types de biens achetés dans une enseigne sont inconnus des banques, les données d’une seule banque ne donnent qu’une vision partielle des flux et du patrimoine des clients multi-bancarisés. Par ailleurs, pour l’instant, le statisticien ne dispose pas de suffisamment de recul pour désaisonnaliser ces données et donc pour exploiter tout le potentiel qu’offre leur très grande fréquence.

À terme, certaines limites peuvent cependant être partiellement surmontées. Ainsi, pour mieux connaître leurs clients, les banques enrichissent continûment leurs données. Chaque amélioration de la catégorisation des flux sur les comptes est un pas supplémentaire vers une identification des revenus et des dépenses tels qu’usuellement définis dans la statistique publique. Chaque information collectée par le conseiller améliore également le regroupement des clients d’un même ménage. Nourrir les partenariats existants, et en développer de nouveaux, permettra de gagner en représentativité et d’acquérir une vision plus complète des comptes des personnes multi-bancarisées. Enfin, avec des partenariats plus anciens, la profondeur temporelle des données augmente : de deux ans à la naissance des partenariats, l’historique disponible des clients est désormais de plus de cinq ans.

 

L’Insee remercie La Banque Postale et Crédit Mutuel Alliance Fédérale pour leur disponibilité et pour avoir permis l’accès à des données de comptes bancaires dans un cadre garantissant l’anonymat des clients.

Nos partenaires souhaitent rappeler les éléments suivants :

Pour La Banque Postale : ce partenariat contribue pleinement à la réalisation des objectifs environnementaux et sociaux que La Banque Postale a défini dans ses statuts en tant qu’entreprise à mission. Les données bancaires, communiquées anonymement, fournissent des points de vue inédits et complémentaires sur les situations financières des ménages, permettant d’enrichir les outils de statistique publique, et ainsi plus largement le débat public.

Pour Crédit Mutuel Alliance Fédérale : Crédit Mutuel Alliance Fédérale, première banque à adopter le statut d’entreprise à mission, participe à ces études dans le cadre des missions qu’elle s’est fixées :

– Contribuer au bien commun en œuvrant pour une société plus juste et plus durable : pour Crédit Mutuel Alliance Fédérale, participer à l’information économique c’est contribuer au débat démocratique ;

– Protéger l’intimité numérique et la vie privée de chacun : Crédit Mutuel Alliance Fédérale veille à la protection absolue des données de ses clients. Toutes les analyses réalisées dans le cadre de cette étude ont été effectuées sur des données strictement anonymisées et sur les seuls systèmes d’information sécurisés du Crédit Mutuel et hébergés en France.

 

Mots-clés : Insee – Statistiques – Banques – Big data – Épargne – Revenu


[1] Le calage sur marges est une technique statistique visant à améliorer la précision des enquêtes par sondage. Elle consiste à modifier les poids de sondage des individus de l’échantillon afin que les totaux pondérés sur l’échantillon de certaines variables correspondent aux totaux connus pour ces variables sur l’ensemble du champ d’observation (la population, le parc de logements, les entreprises). Voir aussi « Miscellanées sur le calage » : https://www.insee.fr/fr/information/2387498.

[2]RSA : Le revenu de solidarité active est une prestation de protection sociale française, qui complète les revenus d’une personne démunie ou aux ressources faibles, afin de lui garantir un revenu minimal.

[3] https://www.insee.fr/fr/metadonnees/source/serie/s1194.

[4] https://www.insee.fr/fr/metadonnees/source/serie/s1005.

[5] La proportion s’élève à 75 % en se restreignant au patrimoine détenu en banque.

[6] https://www.insee.fr/fr/metadonnees/definition/c1879.

[7] En outre, à CMAF, un nouveau groupe client est automatiquement créé quand un enfant atteint l’âge de 18 ans, même s’il réside toujours chez ses parents.

[8] La nomenclature MCC identifie le type d’établissement récipiendaire de la transaction (station essence, boulangerie, mais aussi supermarché, etc.) : le détail des biens consommés au sein de ces établissements n’est pas observé.

[9] Les prélèvements relatifs aux crédits ou aux impôts sont exclus, car il ne s’agit pas de dépenses de consommation.

[10] Désaisonnaliser consiste à appliquer un traitement statistique pour éliminer les effets dus aux phénomènes saisonniers.

Odran Bonnet & Tristan Loisel