De l’échantillon ….

Depuis les premières tablettes cunéiformes du pays de Sumer jusqu’à la fin du XIXème siècle, on peut considérer que le monde a vécu sous le règne quasi-exclusif de « l’exhaustivité ».

Il y eut bien, au milieu du XVIIème siècle, de premières approches d’échantillonnage avec l’école dite de l’arithmétique politique de John Graunt et William Petty en Angleterre, et les avancées de Sébastien Le Prestre de Vauban et Jean-Baptiste Colbert en France : Vauban publie en 1686 un livre intitulé « Méthode généralle et facille pour faire le dénombrement des peuples ».

Cependant, ces tentatives innovantes ne se sont pas généralisées. La norme reste la vision exhaustive ; les pays les plus développés sur le plan statistique – n’oublions pas que statistique vient du latin status, mot dont l’un des sens est « attitude, posture, position, état » mais aussi qui possède un acception plus large en tant que « gouvernement, Etat » – qui gèrent des recensements, qu’ils soient de population, d’entreprises ou d’établissements industriels, ou de terres agricoles.

Le XXème siècle est marqué par le lent recul de l’exhaustif et la montée de plus en plus affirmée du paradigme de l’échantillonnage. On peut considérer que l’acte fondateur en est la communication d’Anders N. Kiaer, directeur du Bureau Central de Statistique du Royaume de Norvège, lors du Congrès de Berne de l’Institut International de Statistique d’août 1895 (IIS, maintenant dénommée ISI dans sa version anglaise International Statistical Institute). Intitulée Observations et expériences concernant des dénombrements représentatifs, elle ouvre un premier et long débat sur l’échantillonnage, la « pars pro toto ».

Au niveau le plus général, il faut apprécier tout particulièrement les quatre premières lignes qui composent le préambule de l’exposé de A. N. Kiaer, pertinentes et visionnaires.

Suite à l’exposé initial de Kiaer, pas très bien accueilli par le monde scientifique de l’époque, et à ses communications ultérieures, puis à d’autres interventions reprenant de façon théorique ou expérimentale les idées de Kiaer, l’IIS crée en mai 1924 une commission pour étudier le bien-fondé de ces techniques représentatives.

Elle est présidée par le célèbre Adolph Jensen, l’auteur de la bien connue inégalité éponyme, et comporte des célébrités comme Corrado Gini, Arthur Bowley ou Lucien March. Les travaux de la Commission Jensen vont confirmer l’intérêt scientifique de l’approche. Anders Kiaer, décédé en 1919, n’est plus de ce monde lorsque, lors du congrès biennal de l’IIS de 1925, Jensen en tire deux communications : « Rapport sur la méthode représentative en statistique » et « La méthode représentative en pratique » ; ces conclusions seront publiées dans le Bulletin de l’Institut International de Statistique, en 1926, Volume 22, Livre 1. En quelques mots, l’approche représentative de Kiaer est confirmée.

Le développement est ensuite rapide : en 1934 paraît l’article de référence de la théorie des sondages de Jerzy Neyman, « On the two different aspects of representative method : the method of stratified sampling and the method of purposive selection”, publié dans le Journal of the Royal Statistical Society, Vol. 97.

Fait plutôt rare, tout au moins à l’époque, dans le domaine scientifique : ces premiers travaux trouvent rapidement un écho dans le monde des applications opérationnelles. En économie, à la suite des articles de J-M. Keynes, au début des années trente, on voit l’apparition en 1935 des premiers panels de consommateurs et de distributeurs, opérés par des sociétés comme Nielsen aux Etats-Unis, GfK en Allemagne, et plus tard Cecodis – Centre d’étude de la consommation et de la distribution – en France. La société allemande GfK est créée par des professeurs d’économie de l’université de Nuremberg.

Toujours en 1935, aux Etats-Unis, George Gallup lance son entreprise, l’American Institute for Public Opinion, et se fait connaître du grand public en « prédisant », à l’aide d’un échantillon d’électeurs, la victoire de Franklin D. Roosevelt sur Andrew Landon aux élections présidentielles américaines de 1936. Jean Stoetzel en crée le clone français en 1937, l’Institut Français d’Opinion Publique (IFOP), première société d’études d’opinion en France.

Après guerre, l’échantillonnage devient la référence par la rapidité d’exploitation, la réduction des coûts, dans un contexte de forte avancée des théories des probabilités et statistique, de l’informatique, avec en outre une généralisation des domaines d’application : économie, statistique « officielle », santé, marketing, sociologie, audience, politique, etc.

aux Big Data

Majoritairement, le XXéme siècle a donc statistiquement vécu sous le paradigme de l’échantillonnage, les recensements exhaustifs ont battu en retraite. Alors que dans les années 1960, il y avait encore, au niveau du système statistique public, le recensement démographique, le recensement agricole, le recensement industriel, aucun de ces dispositifs d’observation n’existe encore aujourd’hui. 

Depuis la fin du XXème siècle et le début du XXIème, la convergence numérique a favorisé le recueil automatique de données observées sur des populations de plus en plus grandes, créant des bases de données contenant une masse croissante d’informations, et annonçant le potentiel retour du paradigme de l’exhaustif.

En outre, le passage au digital a permis de mettre sous la même forme des informations historiquement distinctes et hétérogènes comme des fichiers de données quantitatives, de textes, de sons (l’audio), d’images fixes ou d’images mobiles (la video), ce qui est une révolution aussi fondamentale que si les êtres humains se mettaient tous à parler la même langue.

Sont apparues ainsi ce qu’on appelle maintenant les Big Data, ou données massives, ou plutôt, pour les français, les mégadonnées puisque c’est le nom que recommande depuis août 2014 la Commission Nationale de Terminologie.

Notons au passage l’humour de la Commission qui montre ainsi non seulement sa ferme détermination, légitime, à lutter contre les termes anglais (« big ») mais aussi latins, puisque « data » n’est autre que le pluriel de la forme A du supin du verbe do, das, dare, dedi, datum …, qui signifie donner en latin. A priori, ou plutôt à première vue, c’est une extension hardie du champ de compétences. Espérons que la dite Commission ne va pas réaliser que l’anglais Big a été traduit par le préfixe méga qui vient directement du grec ancien, probablement aussi condamnable que le latin !

Plus sérieusement, les Big Data possèdent deux paramètres majeurs qui aident les à définir : la quantité et la fréquence d’acquisition. On peut donc écrire « Volumétrie = Quantité x Fréquence », la quantité pouvant aller jusqu’à l’exhaustivité, et la fréquence pouvant aller jusqu’au temps réel.

A ces Big Data on a coutume d’associer des V, historiquement 3, puis 6. Les 3 V « primitifs » sont Volume, Variété et Vélocité. Volume, pour la quantité de données échangées (recueil, stockage et traitement), Variété, pour la diversité des formats (texte, audio, image, video), des sources (sites, réseaux sociaux, téléphones, Radio Frequency Identification (RFID), Global Positioning System (GPS), ..), et des origines (données internes structurées, externes non structurées), et enfin Vélocité pour le recueil et le traitement des données en « temps réel ».

Plus récemment ont été ajoutés trois autres V, plus « marketing », car c’est l’une des forces du Big Data que de bien se faire connaître et reconnaître : Véracité pour la confiance des utilisateurs dans l’information recueillie, Visualisation pour le traitement et la présentation optimisée des données et des résultats à des non-spécialistes pour l’aide à la décision, et enfin Valeur pour la création de valeur pour l’entreprise.

Les « Big Data » ont soulevé et soulèvent des questions diverses, parfois anciennes, parfois innovantes, concernant les méthodes de traitement, le stockage, etc .. Ces questions n’ont pas toutes encore de réponse optimale, mais il faut en être conscient et être vigilant. Appliquer la politique de l’autruche et ignorer ces informations ne saurait être une option satisfaisante pour un scientifique.

D’abord, que fait-on sur le plan des traitements statistiques, c’est-à-dire les fameux « algorithmes » que nous voyons apparaître jusque dans la presse quotidienne ? Quel est le statut des données, et celui de leur auteur-propriétaire ? Le cadre réglementaire ou législatif existant est-il toujours adapté, ou de façon plus réaliste puisque nous savons tous qu’en général le droit court derrière la pratique sociale, évolue-t-il presque aussi rapidement que la réalité de la statistique et des bases de données ?

Données homogènes sur échantillon ou données hétérogènes nombreuses : un faux débat ?

On assiste depuis quelque temps à des échanges parfois passionnés à propos des données, semblant opposer les tenants de données homogènes issues d’un échantillonnage réalisé selon les « règles de l’Art », et les données hétérogènes provenant de collectes peu structurées mais massives.

Sur un tout autre plan, cela rappelle les débats sans fin des années soixante, et d’ailleurs assez stériles, avec le recul du temps, entre les tenants de l’analyse géométrique des données et les défenseurs d’une approche probabiliste ou statistique mathématique.

Surtout ne pas entrer dans ce jeu dérisoire. De même que dans les années 1990 les mégabases de données (alors en mode déclaratif, maîtrisées par des sociétés comme Claritas ou Axciom) n’ont pas tué l’échantillonnage, la victoire des Big Data et la disparition des « sondages » sont, à moyen terme, très peu probables.

Tout d’abord, il faut prendre conscience que tous les domaines n’engendrent pas forcément des mégadonnées. Néanmoins, de fait, dans de nombreux secteurs d’activité, les données sont là, et depuis le début des années 2000, on assiste à un retour possible vers l’exhaustif grâce aux nouvelles technologies et à la convergence numérique. En télécom et médias, on parle de « voie de retour » ou « return path data » via des objets qui transmettent leur état instantané, comme smartphones, tablettes, TV connectées, box ADSL, etc…, ou encore les cartes de fidélité en grande consommation, sans oublier la généralisation des capteurs et l’arrivée des objets connectés.

Pour l’usage et les traitements, la réponse est simple à énoncer, même si elle peut être très compliquée à concevoir ou à mettre en oeuvre. Il faut s’inspirer, en référence, de la « philosophie » des grands théoriciens de la statistique et des sondages, comme Jean-Claude Deville et Carl-Eric Sarndal : quand on a des données ou de l’information auxiliaire, il faut s’en servir.

Excellent principe : c’est donc à la science statistique de trouver des réponses mathématiques intelligentes.

Pour illustrer ceci, dans le domaine des médias, a été mise au point l’hybridation de sources, mélange des données d’échantillonnage ou de panels et des données en grand nombre, de granularités différentes : nous avons l’observation de comportements fins à partir de panels d’individus d’une part, et le recueil d’informations plus grossières sur l’état de « box » ou de « devices », d’autre part.

Un objet n’est pas un individu, la plupart d’entre eux ont plusieurs utilisateurs, et en outre « exhaustif » ne signifie pas « sans erreur », ou « parfait ». Ceci est une évidence, mais c’est pourtant ce que croient fréquemment certains non-spécialistes, et il n’est pas simple de faire comprendre, par exemple, que la quantité ou l’exhaustivité ne sont pas forcément le Graal. Ceci nous ramène à Anders Kiaër, 1895, à Jerzy Neyman, 1934, ou aux « votes de paille » de Gallup en 1936, et donc au fondement de la théorie des sondages.

Deux exemples à ce sujet : en télévision, une box ADSL allumée continue à rester active sur le signal de la dernière chaîne regardée, même quand le téléviseur est éteint. Il y a là création indue d’information qui se trouve être complète mais entièrement fausse. Cela fait un biais de quelques heures de durée de vision !

Pour Internet, on considère qu’en moyenne le taux de visites créées par des robots ou autres technologies de contact est de l’ordre de 50 à 60 % (Source Le Journal du Net). Il faut donc traiter et filtrer des données quasi-exhaustives !

Une fois ce nettoyage effectué, quelques exposés scientifiques récents ont montré que l’approche hybridant des sources distinctes était porteuse d’avenir, donnant naissance à une nouvelle base plus riche que les sources parentes.

Dans le domaine du marketing médias, Médiamétrie a développé deux techniques d’hybridation, qui ont été récompensées au printemps 2015 par deux award mondiaux.

La première est appelée « panel up » : comme son nom l’indique, l’approche « panel up » améliore la donnée individuelle issue d’un panel, en utilisant une technique de type « redressement sous contraintes ». La seconde est dénommée « log up », qui individualise l’état d’un device, via une approche de modélisation permettant de passer de l’état d’une box à ses utilisateurs potentiels.

Ainsi, ont été rapprochés les comportements d’un panel d’internautes se connectant via un ordinateur avec le dénombrement de l’ensemble des visites et des pages vues des sites. Avec l’accord du marché de l’Internet, cette approche hybride « panel up » est devenue la référence de la mesure d’audience de l’Internet via un PC ou un Mac depuis l’été 2012.

Et la télévision suivra, c’est inéluctable. D’ores et déjà, à titre exploratoire pour certaines chaînes thématiques payantes, sont estimés les comportements individuels d’audience des personnes vivant dans un foyer équipé d’une box CanalSat en travaillant sur les log (informations élémentaires) des boîtiers, enrichies des éléments du panel TV, en utilisant un modèle, un algorithme entièrement nouveau développé par la direction scientifique de Médiamétrie et utilisant le cadre général de la théorie de chaînes de Markov cachées pour passer de l’état d’un objet aux individus qui le font fonctionner. Andreï Markov (1856-1922) est à l’origine des modèles de description probabiliste du passage de l’état d’un système à un autre état. Le modèle de Markov caché date, quant à lui, de 1965, ses applications étant développées à partir de la fin des années 1970 et durant les années 1980.

Les résultats hybrides garantissent une cohérence globale bien meilleure entre les résultats marginaux auxquels conduiraient chacun des deux systèmes d’observation pris séparément.

Mais, avec du recul, il y a quarante ans, quand à l’INSEE, pour élaborer le « Système Unifié de Statistique d’Entreprises », étaient rapprochées les données des échantillons des enquêtes annuelles d’entreprise, les données exhaustives fiscales, et même parfois les données contenues dans les rapports de conseil d’administration, n’était-ce pas déjà de l’hybridation de sources ?

Pour conclure avec une image, il y a encore quelques années, on observait en général un phénomène via un échantillon, on avait donc une « brique » d’observations faite avec une matière homogène. Maintenant c’est comme si l’on disposait de plusieurs briques, mais la finalité est de construire un mur : la solidité des briques est importante, mais la qualité du ciment l’est également. Les briques sont les divers dispositifs engendrant des données, la conception et la modélisation statistique sont le ciment. Ce ciment, c’est le métier des spécialistes de l’observation, des sondages, de la statistique mathématique, de la modélisation, et plus généralement de l’utilisation optimale des techniques mathématiques.

Ce mélange de data de natures différentes est même une fabuleuse opportunité pour les métiers scientifiques, au sens large, vision totalement opposée à celle de certains qui prétendent que profusion de données dispensera de mathématiques et même d’intelligence !