Economie et Statistique consacre son dernier numéro aux usages et aux enjeux des big data ou données de masse du point de vue de la production statistique.

L’article d’introduction de ce numéro par Philippe Tassi a fait l’objet d’une synthèse déjà parue dans variances.eu le lundi 9 septembre. Nous rappellerons simplement la définition que donne Philippe Tassi de la révolution des données de masse (big data) : données dont la volumétrie comporte deux paramètres joints : quantité et fréquence d’acquisition, la quantité pouvant aller jusqu’à l’exhaustivité, la fréquence pouvant aller jusqu’au temps réel.

Nous nous concentrerons sur les 8 autres articles du numéro (leurs références figurent en conclusion).

Un apport très modeste des données de masse aux statistiques publiques

La première conclusion que l’on peut tirer de l’ensemble de ces articles concerne la modestie des retombées des données de masse pour la statistique, ou en tout cas la statistique publique. L’utilité mise en évidence, concentrée sur l’amélioration des prévisions à très court terme, conforte en outre le biais court-termiste souvent dénoncé de l’information récente.

La faute ne semble pas en revenir à une statistique publique frileuse, qui ignorerait un eldorado à sa porte pour ne pas se commettre avec les Big Data. Cette réaction a pu jouer : l’article d’Evelyn Ruppert et al. interroge : les Institutions Statistiques Publiques ne vont-elles pas miner la confiance des citoyens en s’appuyant sur les données de masse ? Mais les autres articles montrent des statisticiens publics consacrant une énergie considérable à essayer de « faire parler » les données de masse.

En synthèse, les données de masse peuvent enrichir des données d’enquêtes publiques, mais au prix d’un gros travail et dans un domaine limité : leur rapidité va permettre d’améliorer des prévisions de très court terme intéressant les conjoncturistes ou ceux suivant les marchés.

Cinq articles illustrent cinq recherches, quatre publiques et une privée.

L’article de Clément Bortoli et al. s’appuie sur une analyse sémantique des articles du Monde sur plusieurs années pour en extraire un « sentiment médiatique » sur l’évolution de l’économie, qu’il compare à l’enquête Insee sur le climat des affaires. Ce sentiment médiatique suit de près l’enquête Insee, mais, analysé seul, il est moins pertinent. Sa prise en compte améliore la pertinence de la prévision de l’enquête mais uniquement sur le très court terme.

L’article de François Robin analyse les recherches sur Google concernant les ventes internet pour améliorer un volet de l’enquête de la Banque de France sur le commerce de détail (celui concernant le commerce en ligne). La préparation des données est lourde et compliquée, ne serait-ce que parce que les vendeurs sur internet (et donc les questions des internautes) changent sans cesse. Il y a une amélioration mais elle ne concerne que la qualité des prévisions à un mois.

Deux articles sur l’utilisation de données téléphoniques illustrent le chemin de croix que représente l’utilisation des données d’Orange pour répondre à deux questions qui ont pourtant l’air simples : où habitent ceux qui téléphonent ? (Guillaume Cousin et al.) Et combien de nuitées de touristes en France ? (Benjamin Sakarovitch et al.)

Oui, il y a une très forte corrélation entre nuitées touristiques et données téléphoniques. Elle permettra par exemple d’identifier une hausse des entrées de touristes américains, mais pas de dire combien ils sont, ni mêmes s’ils sont plus nombreux que les allemands (à cause de comportement d’utilisation des cartes SIM très différents). Après de multiples redressements, les évaluations du nombre de touristes (en niveau) à partir des données téléphoniques restent catastrophiques.

L’idée qu’on puisse avec les appels de quelqu’un savoir où il habite paraît encore plus intuitive. Et pourtant, à l’issue à nouveau d’un travail de redressement considérable, on fait encore 15 % d’erreurs sur le département (!) d’une personne. Une des raisons est l’inégalité d’accès au service (qu’oublient facilement les urbains avant de partir en vacances dans la France profonde) : une antenne pour moins d’un hectare dans les endroits les plus favorisés, une antenne pour 10.000 hectares dans les endroits les moins favorisés.

L’article s’intéressant aux relations entre big data et statistiques privées est celui de Lorie Dudoignon et al. Il explique comment Médiamétrie a su adapter ses outils de mesure d’audience traditionnels (des enquêtes généralement limitées à quelques milliers d’individus) aux données de masse accessibles à ses clients : le détail des consultations de leur site internet, ou les voies de retour dévoilant la consultation de leurs chaines de télévision. Médiamétrie a donc bâti des approches hybrides combinant ses (modestes) données par échantillon, et les données de masse de ses clients, dans un schéma bien plus contraint (une menace existentielle) que celui d’institutions publiques testant des améliorations possibles de leurs outils traditionnels sur une base volontaire. La démonstration de la complémentarité des deux approches est convaincante. Les approches par échantillonnage, qui l’avaient emporté il y a deux siècles sur les approches exhaustives, ne sont pas (encore ?) défaites par les possibilités nouvelles de traiter l’exhaustivité, mais surtout parce que l’exhaustivité n’est pas (encore ?) au rendez-vous.

Cet article n’épuise pas les liens entre statistiques privées et données de masse. La plupart des données de masse sont produites et exploitées confidentiellement, croisées avec des fichiers clients exhaustifs dont on ne sait pas vraiment ce qu’ils contiennent : elles peuvent donc enrichir fortement les statistiques privées. La difficulté de leur interprétation, révélée par les statisticiens publics, amène pourtant à soupçonner qu’elles sont peu ou mal utilisées dans beaucoup de grandes entreprises. Pete Richardson rappelle que l’origine de cette explosion des données est « un concept industriel, la croissance exponentielle des capacités de stockage et de traitement des données ». Plus prosaïquement, on est devant une solution technique à la recherche de problèmes solvables, que le monde du numérique, prisonnier de la loi de Moore, cherche à susciter chez ses grands clients.

L’article de Pete Richardson donne un panorama général des très nombreuses autres études conduites sur ce thème de l’utilisation de données de masse à des fins statistiques, et aboutit aux mêmes conclusions sur les trois familles de données susceptibles d’être utilisées.

  • Les recherches Google peuvent améliorer la précision de beaucoup de prévisions économiques, mais modestement et à très court terme. C’est modeste mais ce n’est pas rien : l’auteur remarque que le fameux indicateur de confiance des consommateurs de l’Université du Michigan ne passe pas ce test, n’apportant aucune valeur prédictive supplémentaire…
  • Les données tirées de médias sociaux comme Twitter sont encore plus difficiles à utiliser et moins efficaces.
  • Celles tirées des transactions de masse sont nettement moins accessibles aux statisticiens mais ont des propriétés analogues aux autres : on peut par exemple améliorer les toutes premières estimations du PIB en prenant en compte les données de paiements par cartes de débit.

On a donc un décalage entre les espoirs créés par ces nouveaux gisements d’informations, souvent relayés par leurs producteurs eux-mêmes (notamment dans le cas de Google) et les désillusions ensuite. Robin et al. nous rappellent l’enthousiasme créé il y a quelques années par l’idée que les recherches Google sur le nom des maladies allaient remplacer et améliorer de lourdes enquêtes épidémiologiques. Cela n’a jamais vraiment marché et Google a discrètement fermé son service Google flux ouvert en grande pompe. Pete Richardson qualifie de « quête du Graal » déçue les recherches multiples lancées pour tenter d’extraire de données de masse des informations prédictives sur l’évolution quotidienne des actions américaines (j’aurais plutôt fait un parallèle avec la quête bien moins métaphysique des alchimistes pour transmuter le plomb en or ; en remarquant aussi que si quelqu’un a trouvé le Graal, il n’en a probablement pas tiré une publication universitaire…).

Cette improductivité ne doit pas surprendre. Les données de masse n’ont pas été faites pour aider la statistique publique. Elles reflètent une caractéristique majeure du numérique, détestée des statisticiens : son instabilité, tant l’outil de mesure se déforme constamment.

Des outils nouveaux qui ne révolutionnent pas encore la statistique

Un second thème du numéro concerne les progrès que les données de masse ont permis de faire faire aux traitements statistiques. C’est la même cause (le développement des capacités informatiques, de stockage et de traitement) qui a permis à la fois les nouvelles données de masse et leurs nouveaux modes de traitement, avec un discours unifié aux clients : vous avez besoin de nouvelles capacités numériques, à la fois pour stocker plus d’informations et pour gérer les traitements qui vous permettront de les interpréter.

Ces nouvelles techniques statistiques, dites aussi d’apprentissage statistique (Machine Learning) ou techniques neuronales, sont décrites de manière extrêmement précise (pas toujours accessible au non-statisticien) par l’article d’Arthur Charpentier et al. Elles sont particulièrement efficaces pour la reconnaissance des visages, avec des applications qui sont désormais partout (et surtout dans les institutions de maintien de l’ordre). Mais l’article nous explique qu’elles permettent n’importe quel classement et peuvent donc répondre aux mêmes questions que l’économétrie, comme : quelles variables expliquent le mieux l’évolution du PIB ? ou le vote en faveur d’un parti ? ou l’achat d’un produit ? Des méthodes au nom poétique comme le lasso adaptatif permettent de travailler avec des milliers de variables, parfois plus que d’observations, et d’extraire les plus significatives.

Ce sont des modèles « boite noire » moins interprétables que les modèles économétriques, et qui n’intègrent pas comme eux une quantification de l’incertitude. Mais l’article aboutit à la même conclusion que tous ceux du numéro : l’avenir est aux méthodes hybrides. En outre, les méthodes d’apprentissage statistique paraissent les seules à pouvoir répondre à des questions difficiles pour l’économétrie, comme : parmi 1530 instruments pédagogiques, quels sont les plus utiles pour la réussite scolaire ? Les auteurs pensent que ce type de problème deviendra récurrent avec l’augmentation du volume de données. Ils ont peut-être raison, même si on peut se dire que la réponse à des questions aussi difficilement décidables que « quelle est la bonne méthode d’éducation » ne relèvent pas vraiment de boites noires adaptées à des questions basiques comme : « qui est sur cette photo ». Elles auront en tout cas plus de mal à emporter la conviction.

Opportunités et risques pour la statistique

Globalement, le numéro est très rassurant quant à l’avenir de la statistique et des statisticiens : de plus en plus de données, d’outils pour traiter ces données et de difficultés à sélectionner entre ces outils, c’est pain bénit pour les statisticiens. Pete Richardson souligne d’ailleurs la nécessité d’améliorer les moyens de comparaison et de test entre les différentes méthodes de mesure.

Partout les auteurs insistent sur les précautions statistiques que nécessitent ces nouvelles données et ces nouveaux outils, sauf à perdre en précision : dans l’utilisation du sentiment médiatique, Clément Bortoli et al. relèvent par exemple que la méthode humaine (un dictionnaire de sentiments prédéfinis) est plus efficace qu’une technique d’apprentissage statistique de sélection des variables les plus efficaces. Pete Richardson conclut aussi de son étude transversale que les applications les plus réussies sont celles qui s’intègrent à des cadres économiques cohérents, par opposition à une approche « boite noire ».

Donc pas de risque à court terme que ces nouvelles sources, combinées à des outils informatiques « boite noire » ne demandant aucune connaissance du sous-jacent, fassent disparaître les statisticiens, remplacés par des robots statistiques administrant des données de masse, bien au contraire.

L’avenir est-il aussi rose pour la statistique publique d’intérêt général, celle étudiée dans l’essentiel des articles ? Quelles nouvelles frontières les données de masse ouvrent-elles à la statistique publique ?

Le numéro globalement risque de ne pas faire rêver le jeune s’intéressant à la statistique publique, ni le citoyen soucieux de mieux comprendre le monde d’aujourd’hui. Il est plus question d’améliorations à la marge des enquêtes traditionnelles, que de nouvelles grandes enquêtes publiques ou de moyens nouveaux pour permettre à la société de mieux se connaître. La statistique publique renvoie d’elle-même une image honnête, professionnelle, curieuse, mais pas vraiment audacieuse.

Trois enquêtes publiques nouvelles et originales liées aux données de base seulement sont citées.

  • Guillaume Cousin remarque que les données téléphoniques de masse peuvent être très intéressantes dans des domaines éloignés du suivi conjoncturel, comme de bâtir des indicateurs de ségrégation sociale : est-ce que les gens des différents quartiers se croisent ? Se croisent-ils de façon homogène entre quartiers favorisés et défavorisés ?
  • L’article d’Evelyn Ruppert et alt. cite deux études participatives : une étude canadienne, à partir d’une application OneStreetMap construisant collectivement une carte du monde permet à chaque citoyen constatant une erreur ou un changement dans un nom de rue de saisir une modification ; et une application européenne permet aux participants volontaires de tracer les espèces de plantes envahissantes (mais les auteurs prennent immédiatement leurs distances en citant des critiques dénonçant « l’exploitation d’une main d’œuvre gratuite » par de tels projets).

Du côté des menaces pesant sur la statistique publique, rien n’est dit. Mais Clément Bortoli et al. concluent leur article en affirmant : « Les instituts de conjoncture se doivent de continuer à développer leur activité de production d’indicateurs : les indicateurs « big data » ne sauraient les remplacer car économistes et pouvoirs publics doivent disposer d’une source indépendante et maîtrisée. » Une prescription aussi tranchée suggère quand même une inquiétude latente…

Une première menace non dite est liée à la marchandisation de l’information. L’article de Lorie Dudoignon et al. qui reprend les facteurs permettant de répondre à la question : « qu’est-ce qu’une bonne statistique » en oublie un essentiel : le coût d’obtention de l’information comparé à ce qu’elle apporte. Comme dans tous les autres domaines, la concurrence entre sources statistiques risque de se faire plus sur le coût que sur la qualité : qu’est-on prêt à payer pour un gain de précision ? Dans un contexte de réduction des dépenses publiques, ne se contentera-t-on pas pour les données publiques d’informations « presque aussi bonnes », renvoyant pour la précision sur des sources privées payantes ?

Il est dommage à cet égard que le numéro ne traite pas des données météorologiques, qui pourraient demain illustrer ce risque. Le secteur est en effet dominé par des acteurs statistiques publics, les premiers au monde à avoir utilisé les données de masse avant qu’elles s’appellent Big Data, coordonnés au niveau mondial depuis 150 ans autour d’une idée magnifique (le partage gratuit de données entre tous les acteurs au nom de l’intérêt général). Ce « commun » est aujourd’hui remis en cause par la pression d’un nombre croissant d’acteurs privés, alimentés notamment par l’internet des objets et soutenus par le gouvernement américain.

L’article d’Evelyn Ruppert et al. indique en filigrane une seconde menace. Il s’essaie à une prospective, citoyenne et sympathique, en demandant de repenser les relations avec le public dans la production de données statistiques si l’on veut que les citoyens leur fassent confiance ; de démocratiser la production de statistique. Il souligne l’importance de statistiques co-produites et plus proches du citoyen : un paradoxe est que dans ce domaine les données de masse, souvent menaçantes pour les données privées, ont un avantage. Elles sont plus proches du citoyen que des enquêtes par sondage confidentielles. Internet, Google, notre carte SIM, c’est ce que nous utilisons tous les jours. Nous sommes prêts à croire a priori la promesse d’exhaustivité, de précision et « d’objectivité » de données issues « automatiquement » de ces outils. Ce n’est pas du tout le cas, nous disent dans ce numéro les spécialistes des statistiques, mais ils sont et resteront sur la défensive face à des outils aussi dominants.

La sensibilité montante à la protection des données privées pourrait représenter un avantage puissant pour la statistique publique. Mais cette question n’est traitée que du point de vue de la statistique privée, par l’article de Lorie Dudoignon et al. qui développe un plaidoyer puissant, même s’il est pro domo : les enquêtes par sondage sont beaucoup plus éthiques que les données de masse, puisque le consentement de l’individu est à la base de l’information produite, alors que Google et ses équivalents sont dans une relation totalement déséquilibrée entre collecteur et collecté.

Mots clé : big data, données de masse, conjoncture, méthodes statistiques, statistiques publiques, données téléphoniques


Références :

Prévoir la croissance du PIB en lisant le journal – Clément Bortoli, Stéphanie Combes et Thomas Renault

Utilisation de Google Trends dans les enquêtes mensuelles sur le Commerce de Détail de la Banque de France – François Robin

L’apport des Big Data pour les prévisions macroéconomiques à court terme et « en temps réel » : une revue critique – Pete Richardson

Les données de téléphonie mobile peuvent-elles améliorer la mesure du tourisme international en France ? – Guillaume Cousin et Fabrice Hillaireau

Estimer la population résidente à partir de données de téléphonie mobile, une première exploration – Benjamin Sakarovitch, Marie-Pierre de Bellefon, Pauline Givord et Maarten Vanhoof

Big Data et mesure d’audience : un mariage de raison ? – Lorie Dudoignon, Fabienne Le Sager et Aurélie Vanheuverzwyn

Économétrie et Machine Learning – Arthur Charpentier, Emmanuel Flachaire et Antoine Ly

Données numériques de masse, « données citoyennes » et confiance dans la statistique publique – Evelyn Ruppert, Francisca Grommé, Funda Ustek-Spilda et Baki Cakici