{"id":4372,"date":"2019-09-18T08:00:48","date_gmt":"2019-09-18T06:00:48","guid":{"rendered":"http:\/\/variances.eu\/?p=4372"},"modified":"2019-09-18T08:19:38","modified_gmt":"2019-09-18T06:19:38","slug":"big-data-et-statistiques-synthese-du-numero-special-deconomie-et-statistiques-numero-505-506","status":"publish","type":"post","link":"https:\/\/variances.eu\/?p=4372","title":{"rendered":"Big Data et statistiques  &#8211; Synth\u00e8se du num\u00e9ro sp\u00e9cial d\u2019Economie et Statistique num\u00e9ro 505-506"},"content":{"rendered":"<p>Economie et Statistique consacre son dernier num\u00e9ro aux usages et aux enjeux des big data ou donn\u00e9es de masse du point de vue de la production statistique.<\/p>\n<p>L\u2019article d\u2019introduction de ce num\u00e9ro par Philippe Tassi a fait l\u2019objet d\u2019une <span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"http:\/\/variances.eu\/?p=4357\">synth\u00e8se d\u00e9j\u00e0 parue dans variances.eu<\/a><\/span><\/span> le lundi 9 septembre. Nous rappellerons simplement la d\u00e9finition que donne Philippe Tassi de la r\u00e9volution des donn\u00e9es de masse (big data)\u00a0: donn\u00e9es dont la volum\u00e9trie comporte deux param\u00e8tres joints : quantit\u00e9 et fr\u00e9quence d\u2019acquisition, la quantit\u00e9 pouvant aller jusqu\u2019\u00e0 l\u2019exhaustivit\u00e9, la fr\u00e9quence pouvant aller jusqu\u2019au temps r\u00e9el.<\/p>\n<p>Nous nous concentrerons sur les 8 autres articles du num\u00e9ro (leurs r\u00e9f\u00e9rences figurent en conclusion).<\/p>\n<h3><strong>Un apport tr\u00e8s modeste des donn\u00e9es de masse aux statistiques publiques<\/strong><\/h3>\n<p>La premi\u00e8re conclusion que l\u2019on peut tirer de l\u2019ensemble de ces articles concerne la modestie des retomb\u00e9es des donn\u00e9es de masse pour la statistique, ou en tout cas la statistique publique. L\u2019utilit\u00e9 mise en \u00e9vidence, concentr\u00e9e sur l\u2019am\u00e9lioration des pr\u00e9visions \u00e0 tr\u00e8s court terme, conforte en outre le biais court-termiste souvent d\u00e9nonc\u00e9 de l\u2019information r\u00e9cente.<\/p>\n<p>La faute ne semble pas en revenir \u00e0 une statistique publique frileuse, qui ignorerait un eldorado \u00e0 sa porte pour ne pas se commettre avec les Big Data. Cette r\u00e9action a pu jouer\u00a0: l\u2019article d\u2019Evelyn Ruppert et al.\u00a0interroge : les Institutions Statistiques Publiques ne vont-elles pas miner la confiance des citoyens en s\u2019appuyant sur les donn\u00e9es de masse\u00a0? Mais les autres articles montrent des statisticiens publics consacrant une \u00e9nergie consid\u00e9rable \u00e0 essayer de \u00ab\u00a0faire parler\u00a0\u00bb les donn\u00e9es de masse.<\/p>\n<p>En synth\u00e8se, les donn\u00e9es de masse peuvent enrichir des donn\u00e9es d\u2019enqu\u00eates publiques, mais au prix d\u2019un gros travail et dans un domaine limit\u00e9\u00a0: leur rapidit\u00e9 va permettre d\u2019am\u00e9liorer des pr\u00e9visions de tr\u00e8s court terme int\u00e9ressant les conjoncturistes ou ceux suivant les march\u00e9s.<\/p>\n<p>Cinq articles illustrent cinq recherches, quatre publiques et une priv\u00e9e.<\/p>\n<p>L\u2019article de Cl\u00e9ment Bortoli et al. s\u2019appuie sur une analyse s\u00e9mantique des articles du Monde sur plusieurs ann\u00e9es pour en extraire un \u00ab\u00a0sentiment m\u00e9diatique\u00a0\u00bb sur l\u2019\u00e9volution de l\u2019\u00e9conomie, qu\u2019il compare \u00e0 l\u2019enqu\u00eate Insee sur le climat des affaires. Ce sentiment m\u00e9diatique suit de pr\u00e8s l\u2019enqu\u00eate Insee, mais, analys\u00e9 seul, il est moins pertinent. Sa prise en compte am\u00e9liore la pertinence de la pr\u00e9vision de l\u2019enqu\u00eate mais uniquement sur le tr\u00e8s court terme.<\/p>\n<p>L\u2019article de Fran\u00e7ois Robin analyse les recherches sur Google concernant les ventes internet pour am\u00e9liorer un volet de l\u2019enqu\u00eate de la Banque de France sur le commerce de d\u00e9tail (celui concernant le commerce en ligne). La pr\u00e9paration des donn\u00e9es est lourde et compliqu\u00e9e, ne serait-ce que parce que les vendeurs sur internet (et donc les questions des internautes) changent sans cesse. Il y a une am\u00e9lioration mais elle ne concerne que la qualit\u00e9 des pr\u00e9visions \u00e0 un mois.<\/p>\n<p>Deux articles sur l\u2019utilisation de donn\u00e9es t\u00e9l\u00e9phoniques illustrent le chemin de croix que repr\u00e9sente l\u2019utilisation des donn\u00e9es d\u2019Orange pour r\u00e9pondre \u00e0 deux questions qui ont pourtant l\u2019air simples\u00a0: o\u00f9 habitent ceux qui t\u00e9l\u00e9phonent\u00a0? (Guillaume Cousin et al.) Et combien de nuit\u00e9es de touristes en France\u00a0? (Benjamin Sakarovitch et al.)<\/p>\n<p>Oui, il y a une tr\u00e8s forte corr\u00e9lation entre nuit\u00e9es touristiques et donn\u00e9es t\u00e9l\u00e9phoniques. Elle permettra par exemple d\u2019identifier une hausse des entr\u00e9es de touristes am\u00e9ricains, mais pas de dire combien ils sont, ni m\u00eames s\u2019ils sont plus nombreux que les allemands (\u00e0 cause de comportement d\u2019utilisation des cartes SIM tr\u00e8s diff\u00e9rents). Apr\u00e8s de multiples redressements, les \u00e9valuations du nombre de touristes (en niveau) \u00e0 partir des donn\u00e9es t\u00e9l\u00e9phoniques restent catastrophiques.<\/p>\n<p>L\u2019id\u00e9e qu\u2019on puisse avec les appels de quelqu\u2019un savoir o\u00f9 il habite para\u00eet encore plus intuitive. Et pourtant, \u00e0 l\u2019issue \u00e0 nouveau d\u2019un travail de redressement consid\u00e9rable, on fait encore 15 % d\u2019erreurs sur le d\u00e9partement (!) d\u2019une personne. Une des raisons est l\u2019in\u00e9galit\u00e9 d\u2019acc\u00e8s au service (qu\u2019oublient facilement les urbains\u00a0avant de partir en vacances dans la France profonde)\u00a0: une antenne pour moins d\u2019un hectare dans les endroits les plus favoris\u00e9s, une antenne pour 10.000 hectares dans les endroits les moins favoris\u00e9s.<\/p>\n<p>L\u2019article s\u2019int\u00e9ressant aux relations entre big data et statistiques priv\u00e9es est celui de Lorie Dudoignon et al. Il explique comment M\u00e9diam\u00e9trie a su adapter ses outils de mesure d\u2019audience traditionnels (des enqu\u00eates g\u00e9n\u00e9ralement limit\u00e9es \u00e0 quelques milliers d\u2019individus) aux donn\u00e9es de masse accessibles \u00e0 ses clients\u00a0: le d\u00e9tail des consultations de leur site internet, ou les voies de retour d\u00e9voilant la consultation de leurs chaines de t\u00e9l\u00e9vision. M\u00e9diam\u00e9trie a donc b\u00e2ti des approches hybrides combinant ses (modestes) donn\u00e9es par \u00e9chantillon, et les donn\u00e9es de masse de ses clients, dans un sch\u00e9ma bien plus contraint (une menace existentielle) que celui d\u2019institutions publiques testant des am\u00e9liorations possibles de leurs outils traditionnels sur une base volontaire. La d\u00e9monstration de la compl\u00e9mentarit\u00e9 des deux approches est convaincante. Les approches par \u00e9chantillonnage, qui l\u2019avaient emport\u00e9 il y a deux si\u00e8cles sur les approches exhaustives, ne sont pas (encore\u00a0?) d\u00e9faites par les possibilit\u00e9s nouvelles de traiter l\u2019exhaustivit\u00e9, mais surtout parce que l\u2019exhaustivit\u00e9 n\u2019est pas (encore\u00a0?) au rendez-vous.<\/p>\n<p>Cet article n\u2019\u00e9puise pas les liens entre statistiques priv\u00e9es et donn\u00e9es de masse. La plupart des donn\u00e9es de masse sont produites et exploit\u00e9es confidentiellement, crois\u00e9es avec des fichiers clients exhaustifs dont on ne sait pas vraiment ce qu\u2019ils contiennent\u00a0: elles peuvent donc enrichir fortement les statistiques priv\u00e9es. La difficult\u00e9 de leur interpr\u00e9tation, r\u00e9v\u00e9l\u00e9e par les statisticiens publics, am\u00e8ne pourtant \u00e0 soup\u00e7onner qu\u2019elles sont peu ou mal utilis\u00e9es dans beaucoup de grandes entreprises. Pete Richardson rappelle que l\u2019origine de cette explosion des donn\u00e9es est \u00ab\u00a0un concept industriel, la croissance exponentielle des capacit\u00e9s de stockage et de traitement des donn\u00e9es\u00a0\u00bb. Plus prosa\u00efquement, on est devant une solution technique \u00e0 la recherche de probl\u00e8mes solvables, que le monde du num\u00e9rique, prisonnier de la loi de Moore, cherche \u00e0 susciter chez ses grands clients.<\/p>\n<p>L\u2019article de Pete Richardson donne un panorama g\u00e9n\u00e9ral des tr\u00e8s nombreuses autres \u00e9tudes conduites sur ce th\u00e8me de l\u2019utilisation de donn\u00e9es de masse \u00e0 des fins statistiques, et aboutit aux m\u00eames conclusions sur les trois familles de donn\u00e9es susceptibles d\u2019\u00eatre utilis\u00e9es.<\/p>\n<ul>\n<li>Les recherches Google peuvent am\u00e9liorer la pr\u00e9cision de beaucoup de pr\u00e9visions \u00e9conomiques, mais modestement et \u00e0 tr\u00e8s court terme. C\u2019est modeste mais ce n\u2019est pas rien\u00a0: l\u2019auteur remarque que le fameux indicateur de confiance des consommateurs de l\u2019Universit\u00e9 du Michigan ne passe pas ce test, n\u2019apportant aucune valeur pr\u00e9dictive suppl\u00e9mentaire\u2026<\/li>\n<li>Les donn\u00e9es tir\u00e9es de m\u00e9dias sociaux comme Twitter sont encore plus difficiles \u00e0 utiliser et moins efficaces.<\/li>\n<li>Celles tir\u00e9es des transactions de masse\u00a0sont nettement moins accessibles aux statisticiens mais ont des propri\u00e9t\u00e9s analogues aux autres\u00a0: on peut par exemple am\u00e9liorer les toutes premi\u00e8res estimations du PIB en prenant en compte les donn\u00e9es de paiements par cartes de d\u00e9bit.<\/li>\n<\/ul>\n<p>On a donc un d\u00e9calage entre les espoirs cr\u00e9\u00e9s par ces nouveaux gisements d\u2019informations, souvent relay\u00e9s par leurs producteurs eux-m\u00eames (notamment dans le cas de Google) et les d\u00e9sillusions ensuite. Robin et al. nous rappellent l\u2019enthousiasme cr\u00e9\u00e9 il y a quelques ann\u00e9es par l\u2019id\u00e9e que les recherches Google sur le nom des maladies allaient remplacer et am\u00e9liorer de lourdes enqu\u00eates \u00e9pid\u00e9miologiques. Cela n\u2019a jamais vraiment march\u00e9 et Google a discr\u00e8tement ferm\u00e9 son service Google flux ouvert en grande pompe. Pete Richardson qualifie de \u00ab\u00a0qu\u00eate du Graal\u00a0\u00bb d\u00e9\u00e7ue les recherches multiples lanc\u00e9es pour tenter d\u2019extraire de donn\u00e9es de masse des informations pr\u00e9dictives sur l\u2019\u00e9volution quotidienne des actions am\u00e9ricaines (j\u2019aurais plut\u00f4t fait un parall\u00e8le avec la qu\u00eate bien moins m\u00e9taphysique des alchimistes pour transmuter le plomb en or\u00a0; en remarquant aussi que si quelqu\u2019un a trouv\u00e9 le Graal, il n\u2019en a probablement pas tir\u00e9 une publication universitaire\u2026).<\/p>\n<p>Cette improductivit\u00e9 ne doit pas surprendre. Les donn\u00e9es de masse n\u2019ont pas \u00e9t\u00e9 faites pour aider la statistique publique. Elles refl\u00e8tent une caract\u00e9ristique majeure du num\u00e9rique, d\u00e9test\u00e9e des statisticiens\u00a0: son instabilit\u00e9, tant l\u2019outil de mesure se d\u00e9forme constamment.<\/p>\n<h3><strong>Des outils nouveaux qui ne r\u00e9volutionnent pas encore la statistique<\/strong><\/h3>\n<p>Un second th\u00e8me du num\u00e9ro concerne les progr\u00e8s que les donn\u00e9es de masse ont permis de faire faire aux traitements statistiques. C\u2019est la m\u00eame cause (le d\u00e9veloppement des capacit\u00e9s informatiques, de stockage et de traitement) qui a permis \u00e0 la fois les nouvelles donn\u00e9es de masse et leurs nouveaux modes de traitement, avec un discours unifi\u00e9 aux clients\u00a0: vous avez besoin de nouvelles capacit\u00e9s num\u00e9riques, \u00e0 la fois pour stocker plus d\u2019informations et pour g\u00e9rer les traitements qui vous permettront de les interpr\u00e9ter.<\/p>\n<p>Ces nouvelles techniques statistiques, dites aussi d\u2019apprentissage statistique (Machine Learning) ou techniques neuronales, sont d\u00e9crites de mani\u00e8re extr\u00eamement pr\u00e9cise (pas toujours accessible au non-statisticien) par l\u2019article d\u2019Arthur Charpentier et al. Elles sont particuli\u00e8rement efficaces pour la reconnaissance des visages, avec des applications qui sont d\u00e9sormais partout (et surtout dans les institutions de maintien de l\u2019ordre). Mais l\u2019article nous explique qu\u2019elles permettent n\u2019importe quel classement et peuvent donc r\u00e9pondre aux m\u00eames questions que l\u2019\u00e9conom\u00e9trie, comme\u00a0: quelles variables expliquent le mieux l\u2019\u00e9volution du PIB\u00a0? ou le vote en faveur d\u2019un parti\u00a0? ou l\u2019achat d\u2019un produit\u00a0? Des m\u00e9thodes au nom po\u00e9tique comme le lasso adaptatif permettent de travailler avec des milliers de variables, parfois plus que d\u2019observations, et d\u2019extraire les plus significatives.<\/p>\n<p>Ce sont des mod\u00e8les \u00ab\u00a0boite noire\u00a0\u00bb moins interpr\u00e9tables que les mod\u00e8les \u00e9conom\u00e9triques, et qui n\u2019int\u00e8grent pas comme eux une quantification de l\u2019incertitude. Mais l\u2019article aboutit \u00e0 la m\u00eame conclusion que tous ceux du num\u00e9ro\u00a0: l\u2019avenir est aux m\u00e9thodes hybrides. En outre, les m\u00e9thodes d\u2019apprentissage statistique paraissent les seules \u00e0 pouvoir r\u00e9pondre \u00e0 des questions difficiles pour l\u2019\u00e9conom\u00e9trie, comme\u00a0: parmi 1530 instruments p\u00e9dagogiques, quels sont les plus utiles pour la r\u00e9ussite scolaire\u00a0? Les auteurs pensent que ce type de probl\u00e8me deviendra r\u00e9current avec l\u2019augmentation du volume de donn\u00e9es. Ils ont peut-\u00eatre raison, m\u00eame si on peut se dire que la r\u00e9ponse \u00e0 des questions aussi difficilement d\u00e9cidables que \u00ab\u00a0quelle est la bonne m\u00e9thode d\u2019\u00e9ducation\u00a0\u00bb ne rel\u00e8vent pas vraiment de boites noires adapt\u00e9es \u00e0 des questions\u00a0basiques comme : \u00ab\u00a0qui est sur cette photo\u00a0\u00bb. Elles auront en tout cas plus de mal \u00e0 emporter la conviction.<\/p>\n<h3><strong>Opportunit\u00e9s et risques pour la statistique<\/strong><\/h3>\n<p>Globalement, le num\u00e9ro est tr\u00e8s rassurant quant \u00e0 l\u2019avenir de la statistique et des statisticiens : de plus en plus de donn\u00e9es, d\u2019outils pour traiter ces donn\u00e9es et de difficult\u00e9s \u00e0 s\u00e9lectionner entre ces outils, c\u2019est pain b\u00e9nit pour les statisticiens. Pete Richardson souligne d\u2019ailleurs la n\u00e9cessit\u00e9 d\u2019am\u00e9liorer les moyens de comparaison et de test entre les diff\u00e9rentes m\u00e9thodes de mesure.<\/p>\n<p>Partout les auteurs insistent sur les pr\u00e9cautions statistiques que n\u00e9cessitent ces nouvelles donn\u00e9es et ces nouveaux outils, sauf \u00e0 perdre en pr\u00e9cision\u00a0: dans l\u2019utilisation du sentiment m\u00e9diatique, Cl\u00e9ment Bortoli et al. rel\u00e8vent par exemple que la m\u00e9thode humaine (un dictionnaire de sentiments pr\u00e9d\u00e9finis) est plus efficace qu\u2019une technique d\u2019apprentissage statistique de s\u00e9lection des variables les plus efficaces. Pete Richardson conclut aussi de son \u00e9tude transversale que les applications les plus r\u00e9ussies sont celles qui s\u2019int\u00e8grent \u00e0 des cadres \u00e9conomiques coh\u00e9rents, par opposition \u00e0 une approche \u00ab\u00a0boite noire\u00a0\u00bb.<\/p>\n<p>Donc pas de risque \u00e0 court terme que ces nouvelles sources, combin\u00e9es \u00e0 des outils informatiques \u00ab\u00a0boite noire\u00a0\u00bb ne demandant aucune connaissance du sous-jacent, fassent dispara\u00eetre les statisticiens, remplac\u00e9s par des robots statistiques\u00a0administrant des donn\u00e9es de masse, bien au contraire.<\/p>\n<p>L\u2019avenir est-il aussi rose pour la statistique publique d\u2019int\u00e9r\u00eat g\u00e9n\u00e9ral, celle \u00e9tudi\u00e9e dans l\u2019essentiel des articles\u00a0? Quelles nouvelles fronti\u00e8res les donn\u00e9es de masse ouvrent-elles \u00e0 la statistique publique\u00a0?<\/p>\n<p>Le num\u00e9ro globalement risque de ne pas faire r\u00eaver\u00a0le jeune s\u2019int\u00e9ressant \u00e0 la statistique publique, ni le citoyen soucieux de mieux comprendre le monde d\u2019aujourd\u2019hui. Il est plus question d\u2019am\u00e9liorations \u00e0 la marge des enqu\u00eates traditionnelles, que de nouvelles grandes enqu\u00eates publiques ou de moyens nouveaux pour permettre \u00e0 la soci\u00e9t\u00e9 de mieux se conna\u00eetre. La statistique publique renvoie d\u2019elle-m\u00eame une image honn\u00eate, professionnelle, curieuse, mais pas vraiment audacieuse.<\/p>\n<p>Trois enqu\u00eates publiques nouvelles et originales li\u00e9es aux donn\u00e9es de base seulement sont cit\u00e9es.<\/p>\n<ul>\n<li>Guillaume Cousin\u00a0remarque que les donn\u00e9es t\u00e9l\u00e9phoniques de masse peuvent \u00eatre tr\u00e8s int\u00e9ressantes dans des domaines \u00e9loign\u00e9s du suivi conjoncturel, comme de b\u00e2tir des indicateurs de s\u00e9gr\u00e9gation sociale\u00a0: est-ce que les gens des diff\u00e9rents quartiers se croisent\u00a0? Se croisent-ils de fa\u00e7on homog\u00e8ne entre quartiers favoris\u00e9s et d\u00e9favoris\u00e9s\u00a0?<\/li>\n<li>L\u2019article d\u2019Evelyn Ruppert et alt. cite deux \u00e9tudes participatives\u00a0: une \u00e9tude canadienne, \u00e0 partir d\u2019une application OneStreetMap construisant collectivement une carte du monde permet \u00e0 chaque citoyen constatant une erreur ou un changement dans un nom de rue\u00a0de saisir une modification\u00a0; et une application europ\u00e9enne permet aux participants volontaires de tracer les esp\u00e8ces de plantes envahissantes (mais les auteurs prennent imm\u00e9diatement leurs distances en citant des critiques d\u00e9non\u00e7ant \u00ab\u00a0l\u2019exploitation d\u2019une main d\u2019\u0153uvre gratuite\u00a0\u00bb par de tels projets).<\/li>\n<\/ul>\n<p>Du c\u00f4t\u00e9 des menaces pesant sur la statistique publique, rien n\u2019est dit. Mais Cl\u00e9ment Bortoli et al. concluent leur article en affirmant : \u00ab\u00a0Les instituts de conjoncture se doivent de continuer \u00e0 d\u00e9velopper leur activit\u00e9 de production d&rsquo;indicateurs\u00a0:\u00a0les indicateurs \u00ab\u00a0big data\u00a0\u00bb ne sauraient les remplacer car \u00e9conomistes et pouvoirs publics doivent disposer d\u2019une source ind\u00e9pendante et ma\u00eetris\u00e9e.\u00a0\u00bb Une prescription\u00a0aussi tranch\u00e9e sugg\u00e8re quand m\u00eame une inqui\u00e9tude latente&#8230;<\/p>\n<p>Une premi\u00e8re menace non dite est li\u00e9e \u00e0 la marchandisation de l\u2019information. L\u2019article de Lorie Dudoignon et al. qui reprend les facteurs permettant de r\u00e9pondre \u00e0 la question\u00a0: \u00ab\u00a0qu\u2019est-ce qu\u2019une bonne statistique\u00a0\u00bb en oublie un essentiel : le co\u00fbt d\u2019obtention de l\u2019information compar\u00e9 \u00e0 ce qu\u2019elle apporte. Comme dans tous les autres domaines, la concurrence entre sources statistiques risque de se faire plus sur le co\u00fbt que sur la qualit\u00e9\u00a0: qu\u2019est-on pr\u00eat \u00e0 payer pour un gain de pr\u00e9cision\u00a0? Dans un contexte de r\u00e9duction des d\u00e9penses publiques, ne se contentera-t-on pas pour les donn\u00e9es publiques d\u2019informations \u00ab\u00a0presque aussi bonnes\u00a0\u00bb, renvoyant pour la pr\u00e9cision sur des sources priv\u00e9es payantes\u00a0?<\/p>\n<p>Il est dommage \u00e0 cet \u00e9gard que le num\u00e9ro ne traite pas des donn\u00e9es m\u00e9t\u00e9orologiques, qui pourraient demain illustrer ce risque. Le secteur est en effet domin\u00e9 par des acteurs statistiques publics, les premiers au monde \u00e0 avoir utilis\u00e9 les donn\u00e9es de masse avant qu\u2019elles s\u2019appellent Big Data, coordonn\u00e9s au niveau mondial depuis 150 ans autour d\u2019une id\u00e9e magnifique (le partage gratuit de donn\u00e9es entre tous les acteurs au nom de l\u2019int\u00e9r\u00eat g\u00e9n\u00e9ral). Ce \u00ab\u00a0commun\u00a0\u00bb est aujourd\u2019hui remis en cause par la pression d\u2019un nombre croissant d\u2019acteurs priv\u00e9s, aliment\u00e9s notamment par l\u2019internet des objets et soutenus par le gouvernement am\u00e9ricain.<\/p>\n<p>L\u2019article d\u2019Evelyn Ruppert et al. indique en filigrane une seconde menace. Il s\u2019essaie \u00e0 une prospective, citoyenne et sympathique, en demandant de repenser les relations avec le public dans la production de donn\u00e9es statistiques si l\u2019on veut que les citoyens leur fassent confiance\u00a0; de d\u00e9mocratiser la production de statistique. Il souligne l\u2019importance de statistiques co-produites et plus proches du citoyen\u00a0: un paradoxe est que dans ce domaine les donn\u00e9es de masse, souvent mena\u00e7antes pour les donn\u00e9es priv\u00e9es, ont un avantage. Elles sont plus proches du citoyen que des enqu\u00eates par sondage confidentielles. Internet, Google, notre carte SIM, c\u2019est ce que nous utilisons tous les jours. Nous sommes pr\u00eats \u00e0 croire a priori la promesse d\u2019exhaustivit\u00e9, de pr\u00e9cision et \u00ab\u00a0d\u2019objectivit\u00e9\u00a0\u00bb de donn\u00e9es issues \u00ab\u00a0automatiquement\u00a0\u00bb de ces outils. Ce n\u2019est pas du tout le cas, nous disent dans ce num\u00e9ro les sp\u00e9cialistes des statistiques, mais ils sont et resteront sur la d\u00e9fensive face \u00e0 des outils aussi dominants.<\/p>\n<p>La sensibilit\u00e9 montante \u00e0 la protection des donn\u00e9es priv\u00e9es pourrait repr\u00e9senter un avantage puissant pour la statistique publique. Mais cette question n\u2019est trait\u00e9e que du point de vue de la statistique priv\u00e9e, par l\u2019article de Lorie Dudoignon et al. qui d\u00e9veloppe un plaidoyer puissant, m\u00eame s\u2019il est pro domo\u00a0: les enqu\u00eates par sondage sont beaucoup plus \u00e9thiques que les donn\u00e9es de masse, puisque le consentement de l\u2019individu est \u00e0 la base de l\u2019information produite, alors que Google et ses \u00e9quivalents sont dans une relation totalement d\u00e9s\u00e9quilibr\u00e9e entre collecteur et collect\u00e9.<\/p>\n<p><em>Mots cl\u00e9\u00a0: big data, donn\u00e9es de masse, conjoncture, m\u00e9thodes statistiques, statistiques publiques, donn\u00e9es t\u00e9l\u00e9phoniques<\/em><\/p>\n<hr \/>\n<p><strong><em>R\u00e9f\u00e9rences\u00a0:<\/em><\/strong><\/p>\n<p><em><strong>Pr\u00e9voir la croissance du PIB en lisant le journal<\/strong> &#8211; Cl\u00e9ment Bortoli, St\u00e9phanie Combes et Thomas Renault<\/em><\/p>\n<p><em><strong>Utilisation de Google Trends dans les enqu\u00eates mensuelles sur le Commerce de D\u00e9tail de la Banque de France <\/strong>&#8211; Fran\u00e7ois Robin<\/em><\/p>\n<p><em><strong>L\u2019apport des Big Data pour les pr\u00e9visions macro\u00e9conomiques \u00e0 court terme et \u00ab\u00a0en temps r\u00e9el\u00a0\u00bb\u00a0:\u00a0une revue critique<\/strong> &#8211; Pete Richardson<\/em><\/p>\n<p><em><strong>Les donn\u00e9es de t\u00e9l\u00e9phonie mobile peuvent-elles am\u00e9liorer la mesure du tourisme international en France\u00a0?<\/strong> &#8211; Guillaume Cousin et Fabrice Hillaireau<\/em><\/p>\n<p><em><strong>Estimer la population r\u00e9sidente \u00e0 partir de donn\u00e9es de t\u00e9l\u00e9phonie mobile, une premi\u00e8re exploration <\/strong>&#8211; Benjamin Sakarovitch, Marie-Pierre de Bellefon, Pauline Givord et Maarten Vanhoof<\/em><\/p>\n<p><em><strong>Big Data et mesure d\u2019audience\u00a0:\u00a0un mariage de raison ?<\/strong> &#8211; Lorie Dudoignon, Fabienne Le Sager et Aur\u00e9lie Vanheuverzwyn<\/em><\/p>\n<p><em><strong>\u00c9conom\u00e9trie et<\/strong> <strong>Machine Learning<\/strong> &#8211; Arthur Charpentier, Emmanuel Flachaire et Antoine Ly<\/em><\/p>\n<p><em><strong>Donn\u00e9es num\u00e9riques de masse, \u00ab\u00a0donn\u00e9es citoyennes\u00a0\u00bb et confiance dans la statistique publique<\/strong> &#8211; Evelyn Ruppert, Francisca Gromm\u00e9, Funda Ustek-Spilda et Baki Cakici<\/em><\/p>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Economie et Statistique consacre son dernier num\u00e9ro aux usages et aux enjeux des big data ou donn\u00e9es de masse du point de vue de la production statistique. L\u2019article d\u2019introduction de ce num\u00e9ro par Philippe Tassi a fait l\u2019objet d\u2019une synth\u00e8se d\u00e9j\u00e0 parue dans variances.eu le lundi 9 septembre. Nous rappellerons simplement la d\u00e9finition que donne [&hellip;]<\/p>\n","protected":false},"author":96,"featured_media":4373,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_et_pb_use_builder":"","_et_pb_old_content":"","_et_gb_content_width":"","_exactmetrics_skip_tracking":false,"footnotes":""},"categories":[99,133],"tags":[],"class_list":["post-4372","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-big-data","category-themes","et-has-post-format-content","et_post_format-et-post-format-standard"],"_links":{"self":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/4372","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/users\/96"}],"replies":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=4372"}],"version-history":[{"count":0,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/4372\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/media\/4373"}],"wp:attachment":[{"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=4372"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=4372"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=4372"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}