{"id":1864,"date":"2017-01-16T12:51:05","date_gmt":"2017-01-16T10:51:05","guid":{"rendered":"http:\/\/variances.eu\/?p=1864"},"modified":"2020-04-29T10:02:02","modified_gmt":"2020-04-29T08:02:02","slug":"criteres-de-qualite-donnees-resultats","status":"publish","type":"post","link":"https:\/\/variances.eu\/?p=1864","title":{"rendered":"Crit\u00e8res de qualit\u00e9 des donn\u00e9es et des r\u00e9sultats"},"content":{"rendered":"<p>L\u2019\u00e9mergence somme toute r\u00e9cente des Big Data semble avoir boulevers\u00e9 de nombreux jugements sur la donn\u00e9e et ses qualit\u00e9s, et introduit dans l\u2019esprit des profanes une volont\u00e9 d\u2019opposition et deux risques de confusion.<br \/>\nLe premier consiste \u00e0 faire comme si la quantit\u00e9 de donn\u00e9es \u00e9tait devenu le crit\u00e8re de performance sinon unique, pour beaucoup, ou du moins dominant. Quantit\u00e9 et qualit\u00e9 seraient-ils devenus synonymes ?<br \/>\nLe deuxi\u00e8me risque r\u00e9sulte d\u2019un m\u00e9lange entre les donn\u00e9es et les r\u00e9sultats qui s\u2019en d\u00e9duisent, et pourquoi pas des analyses et d\u00e9cisions qui en d\u00e9coulent.<br \/>\nAlors, essayons de faire un match entre donn\u00e9es d\u2019\u00e9chantillon ou de panels et big data.<\/p>\n<h3>Les crit\u00e8res de G. Brackstone<\/h3>\n<p>Nous allons faire arbitrer ce match d\u2019un nouveau genre par Gordon Brackstone.<br \/>\nDans son article intitul\u00e9 \u00ab Le r\u00f4le des m\u00e9thodologistes dans la gestion de la qualit\u00e9 des donn\u00e9es \u00bb, publi\u00e9 dans M\u00e9thodes d\u2019enqu\u00eates et sondages (Pierre Lavall\u00e9e et Louis-Paul Rivest, Dunod, Paris, 2006), Gordon Brackstone (Statistics Canada) a introduit six crit\u00e8res permettant de pr\u00e9ciser la notion de qualit\u00e9, par nature multiforme. Une autre r\u00e9f\u00e9rence est l\u2019expos\u00e9 d\u2019Anne-Marie Dussaix en conf\u00e9rence d\u2019ouverture du 7\u00e8me Colloque Francophone de Sondages (La qualit\u00e9 dans les enqu\u00eates par sondage, Rennes, 2012).<br \/>\nCes six crit\u00e8res sont la pertinence, l\u2019exactitude, l\u2019actualit\u00e9, l\u2019accessibilit\u00e9, l\u2019intelligibilit\u00e9 et la coh\u00e9rence.<br \/>\nQuelques mots sur chacun d\u2019eux, sachant qu\u2019ils peuvent s\u2019appliquer \u00e0 la fois aux donn\u00e9es issues du protocole d\u2019observation lui-m\u00eame, ou aux r\u00e9sultats auxquels elles conduisent, et que les interpr\u00e9tations qui suivent des crit\u00e8res de Brackstone sont plus larges que leurs d\u00e9finitions initiales.<br \/>\nLes trois premiers crit\u00e8res sont g\u00e9n\u00e9riques.<br \/>\nLa pertinence d\u2019une enqu\u00eate, d\u2019une \u00e9tude, d\u2019un dispositif, est son utilit\u00e9 ; elle d\u00e9pend de la connaissance et de la ma\u00eetrise du domaine du prestataire ou propri\u00e9taire des donn\u00e9es, et des bonnes connaissances et applications des traitements et usages)<br \/>\nL\u2019exactitude est synonyme de pr\u00e9cision : les param\u00e8tres pouvant influer son le plan d\u2019\u00e9chantillonnage, son respect, la clart\u00e9 et la bonne compr\u00e9hension des questions dans le cas o\u00f9 ceci a un sens (tous les recueils de donn\u00e9es ne viennent pas de r\u00e9ponses \u00e0 des \u00ab questions \u00bb), la couverture du dispositif (toute la population \u00e0 analyser est-elle observ\u00e9e, observable ?), et la granularit\u00e9 ou la finesse de l\u2019observation.<br \/>\nL\u2019actualit\u00e9, que nous pouvons aussi appeler la r\u00e9cence, est \u00e0 l\u2019\u00e9vidence le temps qui s\u2019\u00e9coule entre la collecte des donn\u00e9es et la parution des r\u00e9sultats. Mais de fa\u00e7on plus g\u00e9n\u00e9rale, ce terme est adapt\u00e9 au temps qui s\u2019\u00e9coule entre le moment observ\u00e9 et le moment du recueil lui-m\u00eame.<\/p>\n<p>Les trois autres crit\u00e8res de Brackstone sont plus \u00ab techniques \u00bb.<br \/>\nL\u2019accessibilit\u00e9 concerne le mode de restitution, de mise \u00e0 disposition, de pr\u00e9sentation. La visualisation en fait partie.<br \/>\nL\u2019intelligibilit\u00e9 porte sur la documentation de la m\u00e9thodologie employ\u00e9e, sa clart\u00e9, sa compr\u00e9hension par des utilisateurs non-sp\u00e9cialistes.<br \/>\nEnfin, la coh\u00e9rence consiste \u00e0 la validation interne de la base de donn\u00e9es, mais aussi et surtout \u00e0 la comparabilit\u00e9 des donn\u00e9es et des r\u00e9sultats \u00e0 des connaissances ant\u00e9rieures, en particulier si le dispositif est r\u00e9p\u00e9t\u00e9 dans le temps, comme c\u2019est le cas des panels.<\/p>\n<h3>Donn\u00e9es d\u2019\u00e9chantillon ou de panels et donn\u00e9es massives, et les crit\u00e8res de Brackstone<\/h3>\n<p>Nous allons tenter de comparer donn\u00e9es de panel et donn\u00e9es massives au vu des crit\u00e8res de Brackstone.<\/p>\n<p style=\"padding-left: 30px;\">a) Pertinence : un dispositif ad-hoc, con\u00e7u pour un objectif bien d\u00e9fini et bien compris, sera en g\u00e9n\u00e9ral pertinent, par des donn\u00e9es parfaitement adapt\u00e9es \u00e0 l\u2019objet de l\u2019\u00e9tude. Les donn\u00e9es massives ne le sont pas forc\u00e9ment. Tout d\u00e9pend de la finalit\u00e9. Si, dans un mus\u00e9e, le but est de conna\u00eetre le nombre hebdomadaire de visites, un comptage exhaustif des tickets d\u2019entr\u00e9e sera suffisant. S\u2019il s\u2019agit de conna\u00eetre le nombre de visiteurs, leur profil socio-d\u00e9mographique et leurs habitudes culturelles, l\u2019observation, m\u00eame exhaustive, des tickets sera inop\u00e9rante, puisque l\u2019inf\u00e9rence faite sur le visiteur \u00e0 partir du ticket est nulle et un visiteur peut engendrer plusieurs visites.<br \/>\nA ce premier niveau, on ne peut qu\u2019esp\u00e9rer que l\u2019expression des besoins et le cahier des charges en amont seront suffisamment clairs et pr\u00e9cis pour choisir le mode d\u2019acquisition des donn\u00e9es le plus adapt\u00e9.<br \/>\nPanels et Big Data : avantage aux donn\u00e9es d\u2019\u00e9chantillons ?<\/p>\n<p style=\"padding-left: 30px;\">b) Exactitude ou pr\u00e9cision : c\u2019est un mot ayant de multiples sens.<br \/>\nLe premier, que les praticiens connaissent bien, signifie \u00ab pr\u00e9cision statistique \u00bb, ou \u00e9cart-type. Il arrive fr\u00e9quemment qu\u2019une base de donn\u00e9es serve \u00e0 construire des indicateurs, des \u00ab statistiques \u00bb au sens math\u00e9matique du mot, c\u2019est-\u00e0-dire des fonctions de donn\u00e9es. Ces fonctions peuvent avoir une forme plus ou moins complexe : \u00eatre lin\u00e9aires, comme une somme ou une moyenne, ou non-lin\u00e9aires (un mode, une m\u00e9diane, un fractile, un \u00e9cart-type, un ratio comme une part de march\u00e9, une corr\u00e9lation \u2026). La connaissance de leur loi de probabilit\u00e9 permet sous des conditions assez g\u00e9n\u00e9rales de conna\u00eetre l\u2019intervalle de confiance du param\u00e8tre dans la population, c\u2019est-\u00e0-dire d\u2019approcher la validit\u00e9 de l\u2019inf\u00e9rence faite en passant de l\u2019\u00e9chantillon \u00e0 la population.<br \/>\nCet \u00ab al\u00e9a d\u2019\u00e9chantillonnage \u00bb n\u2019existe pas pour les Big Data. Est-ce pour autant que l\u2019observation exhaustive, si rassurante soit-elle, signifie la perfection. S\u00fbrement pas.<br \/>\nDeux exemples illustrent l\u2019erreur majeure de ceux qui pensent cela : sur Internet, le comptage exhaustif des visites d\u2019un site est simple, mais environ pr\u00e8s de la moiti\u00e9 de ces visites proviennent de robots et non d\u2019individus. Quelle est la v\u00e9rit\u00e9 ? En t\u00e9l\u00e9vision, une box ADSL enregistre en temps r\u00e9el le flux allant vers l\u2019\u00e9cran du t\u00e9l\u00e9viseur, et continue \u00e0 le faire m\u00eame quand le t\u00e9l\u00e9viseur est \u00e9teint. Nous avons bien une observation exhaustive de l\u2019\u00e9tat des box permettant de recevoir la t\u00e9l\u00e9vision, mais elle est exhaustivement fausse.<\/p>\n<p style=\"padding-left: 30px;\">Plus g\u00e9n\u00e9ralement, la pr\u00e9cision ne se r\u00e9duit pas uniquement \u00e0 l\u2019\u00e9ventuel calcul d\u2019une variance ou d\u2019un \u00e9cart-type des r\u00e9sultats produits par une \u00e9tude ou \u00e0 la validation des Big Data.<br \/>\nCe mot peut englober, pour les \u00e9chantillons, ce qu\u2019il est convenu d\u2019appeler la \u00ab repr\u00e9sentativit\u00e9 \u00bb de ces derniers, m\u00eame si on sait depuis Jerzy Neyman (1934 !!) qu\u2019un \u00e9chantillon repr\u00e9sentatif n\u2019est pas forc\u00e9ment un mod\u00e8le r\u00e9duit de la population dont il est extrait, ce qui n\u2019est pas intuitif.<br \/>\nL\u2019\u00e9chantillon doit \u00eatre structur\u00e9 selon les variables les plus corr\u00e9l\u00e9es avec l\u2019objet de l\u2019\u00e9tude, et une fois ce travail r\u00e9alis\u00e9, la r\u00e9partition de l\u2019\u00e9chantillon selon les modalit\u00e9s des variables pertinentes retenues n\u2019est pas forc\u00e9ment b\u00eatement proportionnelle.<br \/>\nEnsuite, il importe que tr\u00e8s concr\u00e8tement la r\u00e9alisation de l\u2019\u00e9chantillon respecte ce plan de sondage pr\u00e9d\u00e9fini, tout \u00e9cart pouvant se traduire par des risques de biais ou de perte de pr\u00e9cision.<br \/>\nLa couverture est aussi un param\u00e8tre qui peut influer \u2013 ou pas \u2013 sur l\u2019exactitude d\u2019un \u00e9chantillon. Le fait de ne pas pouvoir obtenir d\u2019informations sur une partie de la population est-il p\u00e9nalisant ? C\u2019est ce que la th\u00e9orie des sondages conna\u00eet sous le nom de contraste. Si la partie non observ\u00e9e a le m\u00eame comportement que celui de la partie \u00e9tudi\u00e9e, ceci n\u2019a aucun impact sur le r\u00e9sultat, ce qui est \u00e9videmment faux si ce n\u2019est pas le cas (d\u2019o\u00f9 une r\u00e9flexion sur la couverture des \u00e9chantillons par internet et leurs cons\u00e9quences).<br \/>\nLes Big Data ne sont a priori pas concern\u00e9es par la notion de couverture, puisque par nature elles sont exhaustives. Cependant, des failles de couverture existent \u00e9galement : d\u00e9faut de connexion des \u00ab devices \u00bb \u00e9lectroniques (pannes, alt\u00e9ration), jours de gr\u00e8ve dans les transports, etc.<br \/>\nUn autre facteur d\u2019exactitude, peu mis en \u00e9vidence, est la granularit\u00e9 ou la finesse des donn\u00e9es recueillies. Les donn\u00e9es massives sont en g\u00e9n\u00e9ral obtenues par l\u2019interm\u00e9diaire d\u2019un objet (PC, smartphone, tablette, box ADSL ou fibre optique, carte d\u2019abonnement, \u2026). Si leur granularit\u00e9 temporelle est tr\u00e8s fine \u2013 instant d\u2019usage ou de consommation \u2013, l\u2019identification du ou des utilisateurs est en g\u00e9n\u00e9ral impossible. L\u2019\u00e9tat du flux d\u2019images ou de sons donnant naissance \u00e0 une \u00e9mission de t\u00e9l\u00e9vision sur un t\u00e9l\u00e9viseur est pr\u00e9cis \u00e0 la seconde, exhaustif, mais ne fournit aucune information sur les t\u00e9l\u00e9spectateurs, contrairement \u00e0 un \u00e9chantillon d\u2019individus.<br \/>\nAvantages et inconv\u00e9nients des deux types de donn\u00e9es semblent s\u2019\u00e9quilibrer : match nul ?<\/p>\n<p style=\"padding-left: 30px;\">c) Actualit\u00e9 : ce crit\u00e8re est \u00e0 l\u2019avantage des donn\u00e9es massives en ce qui concerne la r\u00e9cence des donn\u00e9es recueillies par rapport au comportement qui les a engendr\u00e9es, celles-ci \u00e9tant collect\u00e9es en g\u00e9n\u00e9ral de fa\u00e7on quasi-simultan\u00e9e \u00e0 l\u2019utilisation de l\u2019objet qui les engendre. Il n\u2019y a donc pas d\u2019erreur comme celles potentiellement dues au souvenir et \u00e0 la m\u00e9moire dans les enqu\u00eates d\u00e9claratives, surtout lorsque celles-ci portent sur des comportements assez \u00e9loign\u00e9s du moment de recueil (\u00ab parallaxe m\u00e9moriel \u00bb), m\u00eame si selon Brackstone, ceci rel\u00e8ve plut\u00f4t du crit\u00e8re de pertinence.<br \/>\nPour les dispositifs non d\u00e9claratifs, la r\u00e9cence du recueil est la m\u00eame pour des donn\u00e9es de panels ou des Big Data : par exemple, le panel M\u00e9diamat, \u00e0 la base de la mesure d\u2019audience TV, enregistre en temps r\u00e9el les comportements des pan\u00e9listes.<br \/>\nUne fois les donn\u00e9es collect\u00e9es, le temps de publication des indicateurs d\u00e9pend \u00e0 la fois de la longueur des processus de contr\u00f4le de la validation des donn\u00e9es, de traitement et d\u2019\u00e9laboration des r\u00e9sultats, mais aussi du cadre conventionnel (fr\u00e9quence de sortie des r\u00e9sultats).<br \/>\nAvantage aux Big Data.<\/p>\n<p>Les trois autres crit\u00e8res sont moins clivants : en ce qui concerne l\u2019accessibilit\u00e9 aux r\u00e9sultats, seule la dimension de la visualisation est plut\u00f4t favorable aux Big Data, dont c\u2019est d\u2019ailleurs l\u2019un des \u00ab six V \u00bb, les autres \u00e9tant les bien connus Volume, Vari\u00e9t\u00e9, V\u00e9locit\u00e9, V\u00e9racit\u00e9 et Valeur, bien que les \u00ab mapping \u00bb classiques de l\u2019analyse des donn\u00e9es (analyse factorielle, analyse en composantes principales) ou l\u2019\u00e9criture d\u2019un mod\u00e8le de liaison soient bien compr\u00e9hensibles.<br \/>\nEn termes d\u2019intelligibilit\u00e9, il n\u2019y a aucune raison que la documentation soit diff\u00e9rente selon le type de donn\u00e9es, m\u00eame si les contenus ne sont pas identiques.<br \/>\nEnfin, pour ce qui est de la coh\u00e9rence, ou de la comparabilit\u00e9, si le protocole de recueil n\u2019est pas modifi\u00e9, il est ais\u00e9 de la suivre pour les donn\u00e9es massives et leurs indicateurs, comme pour les donn\u00e9es de panels puisque par construction, leur objectif est le suivi des \u00e9volutions chronologiques.<\/p>\n<p>Alors, pour rester dans le domaine sportif, la meilleure conclusion est que la confrontation Big Data vs Donn\u00e9es d\u2019\u00e9chantillon a \u00e9t\u00e9 d\u2019un tr\u00e8s haut niveau. M\u00eame si les protagonistes ont quelques points \u00e0 am\u00e9liorer, ils ont beaucoup plus de qualit\u00e9s incontestables et surtout compl\u00e9mentaires. Plut\u00f4t que d\u2019opposer les deux natures de donn\u00e9es, pourquoi ne pas les m\u00ealer, les enrichir, les hybrider : cette hybridation de donn\u00e9es de panels et de Big Data est, sans nul doute, une voie d\u2019avenir.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>L\u2019\u00e9mergence somme toute r\u00e9cente des Big Data semble avoir boulevers\u00e9 de nombreux jugements sur la donn\u00e9e et ses qualit\u00e9s, et introduit dans l\u2019esprit des profanes une volont\u00e9 d\u2019opposition et deux risques de confusion. Le premier consiste \u00e0 faire comme si la quantit\u00e9 de donn\u00e9es \u00e9tait devenu le crit\u00e8re de performance sinon unique, pour beaucoup, ou [&hellip;]<\/p>\n","protected":false},"author":18,"featured_media":1867,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_et_pb_use_builder":"","_et_pb_old_content":"","_et_gb_content_width":"","_exactmetrics_skip_tracking":false,"_exactmetrics_sitenote_active":false,"_exactmetrics_sitenote_note":"","_exactmetrics_sitenote_category":0,"footnotes":""},"categories":[99,135],"tags":[],"class_list":["post-1864","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-big-data","category-tribune","et-has-post-format-content","et_post_format-et-post-format-standard"],"_links":{"self":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/1864","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/users\/18"}],"replies":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=1864"}],"version-history":[{"count":0,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/1864\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/media\/1867"}],"wp:attachment":[{"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=1864"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=1864"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=1864"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}