L’émergence somme toute récente des Big Data semble avoir bouleversé de nombreux jugements sur la donnée et ses qualités, et introduit dans l’esprit des profanes une volonté d’opposition et deux risques de confusion.
Le premier consiste à faire comme si la quantité de données était devenu le critère de performance sinon unique, pour beaucoup, ou du moins dominant. Quantité et qualité seraient-ils devenus synonymes ?
Le deuxième risque résulte d’un mélange entre les données et les résultats qui s’en déduisent, et pourquoi pas des analyses et décisions qui en découlent.
Alors, essayons de faire un match entre données d’échantillon ou de panels et big data.

Les critères de G. Brackstone

Nous allons faire arbitrer ce match d’un nouveau genre par Gordon Brackstone.
Dans son article intitulé « Le rôle des méthodologistes dans la gestion de la qualité des données », publié dans Méthodes d’enquêtes et sondages (Pierre Lavallée et Louis-Paul Rivest, Dunod, Paris, 2006), Gordon Brackstone (Statistics Canada) a introduit six critères permettant de préciser la notion de qualité, par nature multiforme. Une autre référence est l’exposé d’Anne-Marie Dussaix en conférence d’ouverture du 7ème Colloque Francophone de Sondages (La qualité dans les enquêtes par sondage, Rennes, 2012).
Ces six critères sont la pertinence, l’exactitude, l’actualité, l’accessibilité, l’intelligibilité et la cohérence.
Quelques mots sur chacun d’eux, sachant qu’ils peuvent s’appliquer à la fois aux données issues du protocole d’observation lui-même, ou aux résultats auxquels elles conduisent, et que les interprétations qui suivent des critères de Brackstone sont plus larges que leurs définitions initiales.
Les trois premiers critères sont génériques.
La pertinence d’une enquête, d’une étude, d’un dispositif, est son utilité ; elle dépend de la connaissance et de la maîtrise du domaine du prestataire ou propriétaire des données, et des bonnes connaissances et applications des traitements et usages)
L’exactitude est synonyme de précision : les paramètres pouvant influer son le plan d’échantillonnage, son respect, la clarté et la bonne compréhension des questions dans le cas où ceci a un sens (tous les recueils de données ne viennent pas de réponses à des « questions »), la couverture du dispositif (toute la population à analyser est-elle observée, observable ?), et la granularité ou la finesse de l’observation.
L’actualité, que nous pouvons aussi appeler la récence, est à l’évidence le temps qui s’écoule entre la collecte des données et la parution des résultats. Mais de façon plus générale, ce terme est adapté au temps qui s’écoule entre le moment observé et le moment du recueil lui-même.

Les trois autres critères de Brackstone sont plus « techniques ».
L’accessibilité concerne le mode de restitution, de mise à disposition, de présentation. La visualisation en fait partie.
L’intelligibilité porte sur la documentation de la méthodologie employée, sa clarté, sa compréhension par des utilisateurs non-spécialistes.
Enfin, la cohérence consiste à la validation interne de la base de données, mais aussi et surtout à la comparabilité des données et des résultats à des connaissances antérieures, en particulier si le dispositif est répété dans le temps, comme c’est le cas des panels.

Données d’échantillon ou de panels et données massives, et les critères de Brackstone

Nous allons tenter de comparer données de panel et données massives au vu des critères de Brackstone.

a) Pertinence : un dispositif ad-hoc, conçu pour un objectif bien défini et bien compris, sera en général pertinent, par des données parfaitement adaptées à l’objet de l’étude. Les données massives ne le sont pas forcément. Tout dépend de la finalité. Si, dans un musée, le but est de connaître le nombre hebdomadaire de visites, un comptage exhaustif des tickets d’entrée sera suffisant. S’il s’agit de connaître le nombre de visiteurs, leur profil socio-démographique et leurs habitudes culturelles, l’observation, même exhaustive, des tickets sera inopérante, puisque l’inférence faite sur le visiteur à partir du ticket est nulle et un visiteur peut engendrer plusieurs visites.
A ce premier niveau, on ne peut qu’espérer que l’expression des besoins et le cahier des charges en amont seront suffisamment clairs et précis pour choisir le mode d’acquisition des données le plus adapté.
Panels et Big Data : avantage aux données d’échantillons ?

b) Exactitude ou précision : c’est un mot ayant de multiples sens.
Le premier, que les praticiens connaissent bien, signifie « précision statistique », ou écart-type. Il arrive fréquemment qu’une base de données serve à construire des indicateurs, des « statistiques » au sens mathématique du mot, c’est-à-dire des fonctions de données. Ces fonctions peuvent avoir une forme plus ou moins complexe : être linéaires, comme une somme ou une moyenne, ou non-linéaires (un mode, une médiane, un fractile, un écart-type, un ratio comme une part de marché, une corrélation …). La connaissance de leur loi de probabilité permet sous des conditions assez générales de connaître l’intervalle de confiance du paramètre dans la population, c’est-à-dire d’approcher la validité de l’inférence faite en passant de l’échantillon à la population.
Cet « aléa d’échantillonnage » n’existe pas pour les Big Data. Est-ce pour autant que l’observation exhaustive, si rassurante soit-elle, signifie la perfection. Sûrement pas.
Deux exemples illustrent l’erreur majeure de ceux qui pensent cela : sur Internet, le comptage exhaustif des visites d’un site est simple, mais environ près de la moitié de ces visites proviennent de robots et non d’individus. Quelle est la vérité ? En télévision, une box ADSL enregistre en temps réel le flux allant vers l’écran du téléviseur, et continue à le faire même quand le téléviseur est éteint. Nous avons bien une observation exhaustive de l’état des box permettant de recevoir la télévision, mais elle est exhaustivement fausse.

Plus généralement, la précision ne se réduit pas uniquement à l’éventuel calcul d’une variance ou d’un écart-type des résultats produits par une étude ou à la validation des Big Data.
Ce mot peut englober, pour les échantillons, ce qu’il est convenu d’appeler la « représentativité » de ces derniers, même si on sait depuis Jerzy Neyman (1934 !!) qu’un échantillon représentatif n’est pas forcément un modèle réduit de la population dont il est extrait, ce qui n’est pas intuitif.
L’échantillon doit être structuré selon les variables les plus corrélées avec l’objet de l’étude, et une fois ce travail réalisé, la répartition de l’échantillon selon les modalités des variables pertinentes retenues n’est pas forcément bêtement proportionnelle.
Ensuite, il importe que très concrètement la réalisation de l’échantillon respecte ce plan de sondage prédéfini, tout écart pouvant se traduire par des risques de biais ou de perte de précision.
La couverture est aussi un paramètre qui peut influer – ou pas – sur l’exactitude d’un échantillon. Le fait de ne pas pouvoir obtenir d’informations sur une partie de la population est-il pénalisant ? C’est ce que la théorie des sondages connaît sous le nom de contraste. Si la partie non observée a le même comportement que celui de la partie étudiée, ceci n’a aucun impact sur le résultat, ce qui est évidemment faux si ce n’est pas le cas (d’où une réflexion sur la couverture des échantillons par internet et leurs conséquences).
Les Big Data ne sont a priori pas concernées par la notion de couverture, puisque par nature elles sont exhaustives. Cependant, des failles de couverture existent également : défaut de connexion des « devices » électroniques (pannes, altération), jours de grève dans les transports, etc.
Un autre facteur d’exactitude, peu mis en évidence, est la granularité ou la finesse des données recueillies. Les données massives sont en général obtenues par l’intermédiaire d’un objet (PC, smartphone, tablette, box ADSL ou fibre optique, carte d’abonnement, …). Si leur granularité temporelle est très fine – instant d’usage ou de consommation –, l’identification du ou des utilisateurs est en général impossible. L’état du flux d’images ou de sons donnant naissance à une émission de télévision sur un téléviseur est précis à la seconde, exhaustif, mais ne fournit aucune information sur les téléspectateurs, contrairement à un échantillon d’individus.
Avantages et inconvénients des deux types de données semblent s’équilibrer : match nul ?

c) Actualité : ce critère est à l’avantage des données massives en ce qui concerne la récence des données recueillies par rapport au comportement qui les a engendrées, celles-ci étant collectées en général de façon quasi-simultanée à l’utilisation de l’objet qui les engendre. Il n’y a donc pas d’erreur comme celles potentiellement dues au souvenir et à la mémoire dans les enquêtes déclaratives, surtout lorsque celles-ci portent sur des comportements assez éloignés du moment de recueil (« parallaxe mémoriel »), même si selon Brackstone, ceci relève plutôt du critère de pertinence.
Pour les dispositifs non déclaratifs, la récence du recueil est la même pour des données de panels ou des Big Data : par exemple, le panel Médiamat, à la base de la mesure d’audience TV, enregistre en temps réel les comportements des panélistes.
Une fois les données collectées, le temps de publication des indicateurs dépend à la fois de la longueur des processus de contrôle de la validation des données, de traitement et d’élaboration des résultats, mais aussi du cadre conventionnel (fréquence de sortie des résultats).
Avantage aux Big Data.

Les trois autres critères sont moins clivants : en ce qui concerne l’accessibilité aux résultats, seule la dimension de la visualisation est plutôt favorable aux Big Data, dont c’est d’ailleurs l’un des « six V », les autres étant les bien connus Volume, Variété, Vélocité, Véracité et Valeur, bien que les « mapping » classiques de l’analyse des données (analyse factorielle, analyse en composantes principales) ou l’écriture d’un modèle de liaison soient bien compréhensibles.
En termes d’intelligibilité, il n’y a aucune raison que la documentation soit différente selon le type de données, même si les contenus ne sont pas identiques.
Enfin, pour ce qui est de la cohérence, ou de la comparabilité, si le protocole de recueil n’est pas modifié, il est aisé de la suivre pour les données massives et leurs indicateurs, comme pour les données de panels puisque par construction, leur objectif est le suivi des évolutions chronologiques.

Alors, pour rester dans le domaine sportif, la meilleure conclusion est que la confrontation Big Data vs Données d’échantillon a été d’un très haut niveau. Même si les protagonistes ont quelques points à améliorer, ils ont beaucoup plus de qualités incontestables et surtout complémentaires. Plutôt que d’opposer les deux natures de données, pourquoi ne pas les mêler, les enrichir, les hybrider : cette hybridation de données de panels et de Big Data est, sans nul doute, une voie d’avenir.

Philippe Tassi