{"id":9103,"date":"2026-05-08T07:45:54","date_gmt":"2026-05-08T05:45:54","guid":{"rendered":"https:\/\/variances.eu\/?p=9103"},"modified":"2026-05-08T08:10:14","modified_gmt":"2026-05-08T06:10:14","slug":"origine-et-fondements-statistiques-de-lhybridation-des-sources-de-donnees","status":"publish","type":"post","link":"https:\/\/variances.eu\/?p=9103","title":{"rendered":"Origine et fondements statistiques de l\u2019hybridation des sources de donn\u00e9es"},"content":{"rendered":"<p>Les m\u00e9thodes statistiques fond\u00e9es sur des \u00e9chantillons probabilistes ont longtemps constitu\u00e9, au cours du XX<sup>e <\/sup>si\u00e8cle, le socle de la production d\u2019informations quantitatives fiables dans de nombreux domaines, qu\u2019il s\u2019agisse de statistique publique, d\u2019\u00e9conomie, d\u2019\u00e9pid\u00e9miologie ou de sciences sociales. Leur force r\u00e9side dans leur cadre th\u00e9orique rigoureux, qui permet de produire des estimations non biais\u00e9es et assorties d\u2019une mesure de pr\u00e9cision. Toutefois, la demande croissante d\u2019informations plus fr\u00e9quentes et plus granulaires met en \u00e9vidence les limites structurelles des approches uniquement bas\u00e9es sur des \u00e9chantillons.<\/p>\n<p>Ces limites sont particuli\u00e8rement manifestes dans la production de statistiques locales, o\u00f9 les estimations directes issues des enqu\u00eates souffrent d\u2019une variance \u00e9lev\u00e9e, voire deviennent inexploitables. Pour r\u00e9pondre \u00e0 ces enjeux, de nombreux instituts statistiques, entreprises et organismes de recherche ont d\u00e9velopp\u00e9 des approches hybrides, combinant donn\u00e9es d\u2019enqu\u00eates, sources administratives, donn\u00e9es de recensement ou donn\u00e9es massives.<\/p>\n<p>Les travaux concernant l\u2019estimation sur petits domaines illustrent bien cette \u00e9volution (Pratesi et al, 2024)\u202f: l\u2019int\u00e9gration de sources auxiliaires et le recours \u00e0 des mod\u00e8les hi\u00e9rarchiques permettent d\u2019am\u00e9liorer significativement la pr\u00e9cision des estimations, tout en conservant un ancrage dans les propri\u00e9t\u00e9s de l\u2019\u00e9chantillonnage probabiliste.<\/p>\n<p>La mesure d\u2019audience n\u2019\u00e9chappe pas \u00e0 cette dynamique d\u2019\u00e9volution profonde des m\u00e9thodes\u00a0: la fragmentation des usages et la multiplication des acc\u00e8s aux contenus met les instituts au d\u00e9fi de pallier les limites des approches par sondage en utilisant la profondeur de donn\u00e9es massives aujourd\u2019hui disponibles.<\/p>\n<p>Apr\u00e8s une pr\u00e9sentation g\u00e9n\u00e9rale du principe d\u2019hybridation des sources de donn\u00e9es, nous d\u00e9taillerons une application r\u00e9cente \u00e0 la mesure d\u2019audience.<\/p>\n<h3><strong>Un principe ancien en th\u00e9orie des sondages<\/strong><\/h3>\n<p>Si le terme \u00ab hybridation \u00bb est apparu assez r\u00e9cemment dans le contexte de la statistique, le concept est ancien et trouve son origine dans les travaux fondateurs de la th\u00e9orie des sondages. Le principe est simple\u00a0: \u00ab lorsqu\u2019on dispose d\u2019une information auxiliaire, il faut chercher \u00e0 l\u2019utiliser \u00bb (Ardilly, 2006).\u00a0 Deville &amp; S\u00e4rndal (1992) ont formalis\u00e9 le cadre des estimateurs par calage en sondage, dont l\u2019objectif est d\u2019am\u00e9liorer l\u2019estimation des totaux de population en utilisant des informations auxiliaires connues.<\/p>\n<p>Les m\u00e9thodes d\u2019hybridation se sont sophistiqu\u00e9es avec la nature des donn\u00e9es trait\u00e9es et la puissance des outils capables de les traiter, mais la philosophie reste la m\u00eame\u00a0: utiliser plusieurs sources de donn\u00e9es pour en cr\u00e9er une nouvelle plus fine ou plus riche.<\/p>\n<p>La logique de la mesure hybride repose sur quatre grands principes fondamentaux.<\/p>\n<p>&#8211; Compl\u00e9mentarit\u00e9 : aucune source ne suffit \u00e0 elle seule. L\u2019objectif est de combler les lacunes d\u2019une source par les qualit\u00e9s d\u2019une autre.<\/p>\n<p>&#8211; Alignement temporel et structurel : pour combiner des donn\u00e9es, il faut qu\u2019elles soient align\u00e9es dans le temps (par exemple, sur la m\u00eame p\u00e9riode) et dans leurs d\u00e9finitions (unit\u00e9s de mesure comparables).<\/p>\n<p>&#8211; Mod\u00e9lisation : l\u2019hybridation passe par la construction d\u2019un mod\u00e8le statistique pour combiner les diff\u00e9rentes sources de donn\u00e9es.<\/p>\n<p>&#8211; Gouvernance des sources : une mesure hybride suppose un cadre clair, et en particulier la plus grande transparence sur les donn\u00e9es partag\u00e9es.<\/p>\n<h3><strong>Les grandes familles d\u2019approches<\/strong><\/h3>\n<p>Il existe de nombreuses m\u00e9thodes statistiques de rapprochement de donn\u00e9es de sources diff\u00e9rentes, voire des combinaisons de plusieurs m\u00e9thodes statistiques. On peut distinguer quelques grandes familles r\u00e9pondant chacune \u00e0 des besoins distincts.<\/p>\n<h5><strong><em>Fusion statistique<\/em><\/strong><\/h5>\n<p>Bas\u00e9e sur les techniques d\u2019imputation, elle consiste \u00e0 rapprocher plusieurs bases de donn\u00e9es afin de cr\u00e9er un ensemble enrichi, coh\u00e9rent et plus complet. Elle est utilis\u00e9e lorsqu\u2019aucune source ne contient l\u2019ensemble des variables d\u2019int\u00e9r\u00eat utiles et que les diff\u00e9rentes sources de donn\u00e9es ne peuvent pas \u00eatre directement appari\u00e9es \u00e0 l\u2019aide d\u2019un identifiant commun.<\/p>\n<p>L\u2019objectif est de reconstituer une base de donn\u00e9es similaire \u00e0 ce que l\u2019on aurait obtenu si toutes les variables avaient \u00e9t\u00e9 collect\u00e9es sur les m\u00eames individus. Le rapprochement des bases de donn\u00e9es s\u2019appuie sur la similarit\u00e9 des individus sur un ensemble de variables communes aux diff\u00e9rentes bases : on d\u00e9finit une distance entre les individus des diff\u00e9rentes bases et on les associe ensuite en fonction de leur similarit\u00e9.<\/p>\n<p>La fusion permet de limiter le fardeau de r\u00e9ponse des pan\u00e9listes ou interview\u00e9s et de reconstituer une base de donn\u00e9es compl\u00e8te similaire aux donn\u00e9es d\u2019origine et donc facilement exploitable dans des outils de restitution classiques. En revanche, les variables sp\u00e9cifiques \u00e0 chaque base de donn\u00e9es ne sont jamais observ\u00e9es conjointement. La qualit\u00e9 de la fusion repose donc fortement sur le pouvoir explicatif des variables communes sur les variables sp\u00e9cifiques. En l\u2019absence de variables communes pertinentes, la fusion sera proche de l\u2019al\u00e9atoire.<\/p>\n<h5><strong><em>Calage<\/em><\/strong><\/h5>\n<p>Cette approche est utilis\u00e9e lorsqu\u2019on dispose d\u2019une source de donn\u00e9es issue d\u2019un \u00e9chantillon ou d\u2019un panel et d\u2019une autre source de mesure exhaustive. Dans ce cas, on veut utiliser l\u2019information issue de la mesure exhaustive, qui correspond \u00e0 un total connu sur l\u2019ensemble de la population, pour am\u00e9liorer la pr\u00e9cision statistique, r\u00e9duire la variabilit\u00e9 des r\u00e9sultats ou corriger un biais de s\u00e9lection sur l\u2019\u00e9chantillon ou le panel. L\u2019approche consiste \u00e0 introduire des contraintes de calage suppl\u00e9mentaires dans le redressement de l\u2019\u00e9chantillon ou du panel.<\/p>\n<p>Le calage assure la coh\u00e9rence des deux sources de donn\u00e9es sans avoir \u00e0 en modifier la structure. Par ailleurs, il ne n\u00e9cessite pas d\u2019avoir acc\u00e8s \u00e0 la donn\u00e9e brute de la mesure exhaustive, d\u2019une volum\u00e9trie souvent tr\u00e8s importante, mais uniquement aux totaux sur les variables de calage. En revanche, les diff\u00e9rentes sources de donn\u00e9es doivent \u00eatre parfaitement comparables, ce qui n\u2019est pas toujours nativement le cas. Des pr\u00e9-traitements peuvent donc \u00eatre n\u00e9cessaires pour mettre en coh\u00e9rence les p\u00e9rim\u00e8tres mesur\u00e9s et les indicateurs calcul\u00e9s.<\/p>\n<h5><strong><em>Profiling<\/em><\/strong><\/h5>\n<p>Il est utilis\u00e9 lorsqu\u2019on dispose d\u2019une source de donn\u00e9es tr\u00e8s qualifi\u00e9e, g\u00e9n\u00e9ralement issue d\u2019un \u00e9chantillon ou d\u2019un panel, et d\u2019une autre source de mesure exhaustive et que l\u2019on veut enrichir la mesure exhaustive \u00e0 l\u2019aide des informations, souvent tr\u00e8s riches, issues de l\u2019autre source. En effet, la donn\u00e9e exhaustive permet d\u2019observer des usages encore rares ou occasionnels qu\u2019un \u00e9chantillon ne peut mesurer avec pr\u00e9cision.<\/p>\n<p>L\u2019approche consiste \u00e0 construire un mod\u00e8le statistique de qualification sur les donn\u00e9es de l\u2019\u00e9chantillon ou du panel et de l\u2019appliquer ensuite sur la donn\u00e9e exhaustive pour l\u2019enrichir.<\/p>\n<p>Elle am\u00e9liore la compr\u00e9hension des usages \u00e9mergents ou rares sans avoir \u00e0 augmenter significativement la taille des \u00e9chantillons. Cependant les donn\u00e9es exhaustives \u00e9tant g\u00e9n\u00e9ralement collect\u00e9es en silo, les variables explicatives \u00e0 disposition pour la mod\u00e9lisation sont relativement pauvres, ce qui limite la capacit\u00e9 d\u2019un mod\u00e8le \u00e0 estimer des profils de mani\u00e8re fiable.<\/p>\n<h5><strong><em>G\u00e9n\u00e9ration de population synth\u00e9tique<\/em><\/strong><\/h5>\n<p>La g\u00e9n\u00e9ration de population synth\u00e9tique n\u2019est pas propre aux approches hybrides mais elle peut \u00eatre utilis\u00e9e comme \u00e9tape pr\u00e9alable au rapprochement de diff\u00e9rentes sources de donn\u00e9es. Elle est particuli\u00e8rement utile lorsqu\u2019au moins une source de donn\u00e9es provient d\u2019une mesure exhaustive. Cette approche est utilis\u00e9e \u00e0 l\u2019origine pour l\u2019analyse spatiale \u00e0 un niveau fin. Elle consiste \u00e0 construire un ensemble exhaustif et repr\u00e9sentatif de la population sur lequel peuvent \u00eatre distribu\u00e9s des r\u00e9sultats d\u2019enqu\u00eates ou de panels et des data. Cette redistribution pourra faire appel \u00e0 des m\u00e9thodes d\u00e9terministes lorsqu\u2019un identifiant commun est disponible entre les diff\u00e9rentes sources ou \u00e0 des m\u00e9thodes stochastiques ou probabilistes dans le cas contraire. Les techniques de fusion ou de qualification d\u00e9taill\u00e9es pr\u00e9c\u00e9demment pourront s\u2019appliquer sur une population synth\u00e9tique, tout comme les techniques de probabilisation.<\/p>\n<p>Ainsi sont combin\u00e9es diff\u00e9rentes sources sans qu\u2019elles soient n\u00e9cessairement sur des univers strictement comparables et elle facilite la pr\u00e9servation des caract\u00e9ristiques des donn\u00e9es d\u2019origine. Elle permet d\u2019envisager l\u2019exploitation \u00e0 grande \u00e9chelle de donn\u00e9es individuelles tr\u00e8s fines, sans se heurter aux probl\u00e8mes de gestion de la confidentialit\u00e9 de ces donn\u00e9es.<\/p>\n<p>La qualit\u00e9 et la conformit\u00e9 de la population synth\u00e9tique sont tr\u00e8s d\u00e9pendantes de la quantit\u00e9 et de la granularit\u00e9 des informations mises \u00e0 disposition par les instituts nationaux de statistique. Ensuite, comme toute approche par mod\u00e8le, la fiabilit\u00e9 des r\u00e9sultats d\u00e9pend du pouvoir explicatif des variables communes sur les variables sp\u00e9cifiques.<\/p>\n<h3><strong>Application \u00e0 la mesure d\u2019audience des m\u00e9dias<\/strong><\/h3>\n<p>La mesure d\u2019audience a pour objectif de quantifier et qualifier les personnes expos\u00e9es \u00e0 un contenu, cha\u00eene de t\u00e9l\u00e9vision, station de radio, titre de presse, site web ou tout autre m\u00e9dia. Les premiers dispositifs apparus au d\u00e9but du XX<sup>e<\/sup> si\u00e8cle se sont appuy\u00e9s sur des enqu\u00eates puis sur des panels : un \u00ab petit \u00bb nombre d\u2019individus suivis dans le temps, soigneusement recrut\u00e9s afin de repr\u00e9senter la population de r\u00e9f\u00e9rence.<\/p>\n<p>De nombreux facteurs contribuent aujourd\u2019hui \u00e0 rendre de plus en plus complexe la mesure d\u2019audience. Tout d\u2019abord, les m\u00e9dias \u00e9voluent et leurs usages sont de plus en plus fragment\u00e9s. Mesurer avec pr\u00e9cision l\u2019audience de la multitude de contenus propos\u00e9s n\u00e9cessiterait d\u2019accro\u00eetre significativement la taille des \u00e9chantillons. Par ailleurs, la digitalisation des m\u00e9dias offre d\u00e9sormais d\u2019autres sources de donn\u00e9es : les donn\u00e9es voie de retour des <em>boxes<\/em> op\u00e9rateurs ou des sites et applications des \u00e9diteurs.<\/p>\n<p>C\u2019est pourquoi la mesure d\u2019audience d\u2019Internet op\u00e9r\u00e9e par M\u00e9diam\u00e9trie en France est devenue hybride en 2012 (Dudoignon et al, 2018) et s\u2019appuie sur deux sources : un panel d\u2019individus et une mesure exhaustive du trafic des sites et applications. Une exp\u00e9rimentation a par ailleurs \u00e9t\u00e9 men\u00e9e pour la mesure d\u2019audience de la t\u00e9l\u00e9vision combinant un panel d\u2019individus et les donn\u00e9es voie de retour des <em>boxes<\/em> des op\u00e9rateurs (Dudoignon et al, 2018).<\/p>\n<p>Plus r\u00e9cemment, a \u00e9merg\u00e9 le besoin pour les annonceurs de disposer d\u2019une vision unifi\u00e9e, fiable et comparable de l\u2019exposition publicitaire sur l\u2019ensemble des m\u00e9dias. La solution propos\u00e9e, d\u00e9taill\u00e9e ci-apr\u00e8s, repose \u00e9galement sur une approche hybride combinant donn\u00e9es exhaustives issues des diff\u00e9rents fournisseurs et donn\u00e9es issues d\u2019un panel.<\/p>\n<h5><strong><em>Contexte du projet de mesure cross-media publicitaire<\/em><\/strong><\/h5>\n<p>La <em>World Federation of Advertisers<\/em> (WFA), organisation professionnelle internationale repr\u00e9sentant les annonceurs, a publi\u00e9 en 2019 un appel \u00e0 projets pour une mesure <em>cross-media<\/em> publicitaire r\u00e9pondant aux besoins croissants des annonceurs en mati\u00e8re de coh\u00e9rence, de comparabilit\u00e9 et de robustesse des indicateurs de mesure de performance de leurs campagnes publicitaires. L\u2019ambition affich\u00e9e est de d\u00e9finir une approche g\u00e9n\u00e9rique reposant sur une utilisation conjointe de donn\u00e9es issues de multiples environnements (web, plateformes OTT, agr\u00e9gateurs) et donn\u00e9es issues de panels, tout en respectant des contraintes fortes de confidentialit\u00e9. Des groupes de travail r\u00e9unissant de nombreux acteurs de la mesure ont \u00e9t\u00e9 organis\u00e9s aux Etats-Unis par la WFA et en 2020 a \u00e9t\u00e9 pr\u00e9sent\u00e9 le cadre m\u00e9thodologique et technique retenu.<\/p>\n<p><strong><em>Description g\u00e9n\u00e9rale du mod\u00e8le WFA et de ses \u00e9tapes<\/em><\/strong><\/p>\n<p>La WFA propose un processus structur\u00e9 en plusieurs \u00e9tapes successives.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-9108\" src=\"https:\/\/variances.eu\/wp-content\/uploads\/2026\/04\/Image1-1.png\" alt=\"\" width=\"2500\" height=\"1004\" srcset=\"https:\/\/variances.eu\/wp-content\/uploads\/2026\/04\/Image1-1.png 2500w, https:\/\/variances.eu\/wp-content\/uploads\/2026\/04\/Image1-1-300x120.png 300w, https:\/\/variances.eu\/wp-content\/uploads\/2026\/04\/Image1-1-1024x411.png 1024w, https:\/\/variances.eu\/wp-content\/uploads\/2026\/04\/Image1-1-600x241.png 600w, https:\/\/variances.eu\/wp-content\/uploads\/2026\/04\/Image1-1-1536x617.png 1536w, https:\/\/variances.eu\/wp-content\/uploads\/2026\/04\/Image1-1-2048x822.png 2048w, https:\/\/variances.eu\/wp-content\/uploads\/2026\/04\/Image1-1-1080x434.png 1080w, https:\/\/variances.eu\/wp-content\/uploads\/2026\/04\/Image1-1-1320x530.png 1320w\" sizes=\"(max-width: 2500px) 100vw, 2500px\" \/><\/p>\n<p>Dans un premier temps, des donn\u00e9es d\u2019entr\u00e9e de nature h\u00e9t\u00e9rog\u00e8ne sont collect\u00e9es aupr\u00e8s de diff\u00e9rents fournisseurs (\u00e9diteurs, plateformes, agr\u00e9gateurs). Constitu\u00e9es principalement de <em>logs<\/em> ou de <em>cookies<\/em>, elles sont pr\u00e9alablement anonymis\u00e9es puis associ\u00e9es \u00e0 des donn\u00e9es issues d\u2019un panel. Ce panel \u00ab\u00a0<em>single source<\/em>\u00a0\u00bb permet d\u2019estimer de mani\u00e8re pr\u00e9cise les duplications entre les diff\u00e9rents fournisseurs de donn\u00e9es pour les campagnes suffisamment puissantes. Le panel constitue ici la source de r\u00e9f\u00e9rence permettant de relier les volumes observ\u00e9s de <em>logs<\/em> ou de <em>cookies<\/em> \u00e0 des indicateurs de couverture d\u00e9dupliqu\u00e9e sur la cible de population consid\u00e9r\u00e9e.<\/p>\n<p>La deuxi\u00e8me \u00e9tape correspond \u00e0 la phase d\u2019apprentissage du mod\u00e8le, au cours de laquelle les performances des campagnes tests mesur\u00e9es sur le panel dans l\u2019\u00e9tape pr\u00e9c\u00e9dente sont utilis\u00e9es afin d\u2019estimer les param\u00e8tres d\u00e9crivant la distribution des expositions publicitaires au niveau individuel.<\/p>\n<p>Une fois le mod\u00e8le estim\u00e9, celui\u2011ci est transmis \u00e0 chacun des fournisseurs de donn\u00e9es impliqu\u00e9s dans le dispositif, accompagn\u00e9 de ses param\u00e8tres sp\u00e9cifiques. Ces derniers appliquent ensuite leur propre mod\u00e8le pour chaque campagne mesur\u00e9e, en g\u00e9n\u00e9rant des identifiants virtuels (VID).<\/p>\n<p>Les sorties produites par l\u2019ensemble des fournisseurs de donn\u00e9es sont alors agr\u00e9g\u00e9es afin d\u2019estimer les performances globales de la campagne, avant d\u2019\u00eatre restitu\u00e9es aux utilisateurs finaux.<\/p>\n<h5><strong><em>Le mod\u00e8le DMM : fondements et hypoth\u00e8ses<\/em><\/strong><\/h5>\n<p>La base statistique de la m\u00e9thodologie est le <em>Dirac Mixture Model<\/em> (DMM). Ce mod\u00e8le repose sur l\u2019hypoth\u00e8se selon laquelle la population cible peut \u00eatre d\u00e9compos\u00e9e en un nombre fini <em>k<\/em> de groupes latents d\u2019individus pr\u00e9sentant des comportements homog\u00e8nes vis\u2011\u00e0\u2011vis des expositions publicitaires.<\/p>\n<p>Chaque groupe repr\u00e9sente une proportion <img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/variances.eu\/wp-content\/ql-cache\/quicklatex.com-3f2232b1267c09a5a95f9c69898fce4f_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#92;&#97;&#108;&#112;&#104;&#97;&#95;&#105;\" title=\"Rendered by QuickLaTeX.com\" height=\"11\" width=\"17\" style=\"vertical-align: -3px;\"\/>\u00a0\u200bde la population cible (avec <img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/variances.eu\/wp-content\/ql-cache\/quicklatex.com-6c37afbb85ce22c0c15cc47fe2a5c484_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#92;&#115;&#117;&#109;&#95;&#123;&#105;&#125;&#32;&#92;&#97;&#108;&#112;&#104;&#97;&#32;&#61;&#49;\" title=\"Rendered by QuickLaTeX.com\" height=\"20\" width=\"73\" style=\"vertical-align: -6px;\"\/> ), i = 1 \u00e0 k, et est caract\u00e9ris\u00e9, pour chaque dimension du mod\u00e8le, par un param\u00e8tre d\u00e9crivant l\u2019intensit\u00e9 moyenne des expositions.<\/p>\n<p>Au sein de chaque groupe, le nombre de <em>logs<\/em> ou de <em>cookies <\/em>associ\u00e9s \u00e0 un individu est suppos\u00e9 suivre une loi de Poisson, ce qui permet de mod\u00e9liser la variabilit\u00e9 des contacts publicitaires. L\u2019estimation du mod\u00e8le consiste alors \u00e0 d\u00e9terminer conjointement le nombre de groupes, leurs poids relatifs et les param\u00e8tres de la loi de Poisson correspondants, \u00e0 partir des campagnes tests pour lesquelles le volume total de <em>logs<\/em> et la couverture sont connus.<\/p>\n<p>Le mod\u00e8le VID ainsi d\u00e9fini revient \u00e0 un processus de tirage al\u00e9atoire avec remise d\u2019individus au sein des groupes, effectu\u00e9 ind\u00e9pendamment selon les dimensions consid\u00e9r\u00e9es.<\/p>\n<h3><strong>Conclusion et perspectives<\/strong><\/h3>\n<p>Dans un contexte de d\u00e9lin\u00e9arisation et de fragmentation croissantes des usages, les fronti\u00e8res entre diffuseurs lin\u00e9aires et plateformes de <em>streaming<\/em> s\u2019estompent et les logiques de convergence s\u2019acc\u00e9l\u00e8rent. Cette transformation se traduit pour les mesureurs d\u2019audience par une complexit\u00e9 croissante et une n\u00e9cessit\u00e9 d\u2019adapter les protocoles de mesure.<\/p>\n<p>L&rsquo;hybridation des donn\u00e9es de panel avec des donn\u00e9es exhaustives de fournisseurs tiers appara\u00eet comme une \u00e9volution in\u00e9luctable et g\u00e9n\u00e9ralis\u00e9e. Mais pour que ces donn\u00e9es puissent \u00eatre une composante de la mesure d\u2019audience, elles doivent r\u00e9pondre aux exigences d\u00e9crites dans la r\u00e9glementation europ\u00e9enne. L\u2019EMFA (<em>European Media Freedom Act<\/em>) \u00e9tablit un cadre juridique visant \u00e0 garantir que tout syst\u00e8me de mesure d\u2019audience, y compris propri\u00e9taire, respecte des principes de transparence, d\u2019impartialit\u00e9 et de v\u00e9rifiabilit\u00e9, permet l\u2019acc\u00e8s aux m\u00e9thodologies et r\u00e9sultats, soit soumis \u00e0 des audits ind\u00e9pendants et s\u2019inscrive dans des m\u00e9canismes d\u2019autor\u00e9gulation largement reconnus par l\u2019industrie. Le DMA (<em>Digital Markets Act<\/em>) oblige quant \u00e0 lui les <em>gatekeepers<\/em> (par ex. Google, Meta, Apple, Amazon) de partager avec les \u00e9diteurs et annonceurs les donn\u00e9es n\u00e9cessaires \u00e0 une mesure ind\u00e9pendante et de permettre l\u2019auditabilit\u00e9 des performances publicitaires. Ensemble, ils visent \u00e0 instaurer des conditions de march\u00e9 permettant une mesure ind\u00e9pendante, transparente et comparable et renforcent le r\u00f4le central de M\u00e9diam\u00e9trie dans l\u2019\u00e9cosyst\u00e8me.<\/p>\n<h3><strong>Bibliographie<\/strong><\/h3>\n<p>Ardilly, P. (2006). <em>Les techniques de sondage<\/em>, France, Technip.<\/p>\n<p>Deville, J.-C. &amp; S\u00e4rndal, C.-E. (1992). Calibration Estimators in Survey Sampling, <em>Journal of the American Statistical Association<\/em>, Vol. 87, 418, 376-382. <span style=\"text-decoration: underline;\"><span style=\"color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/doi.org\/10.1080\/01621459.1992.10475217\">https:\/\/doi.org\/10.1080\/01621459.1992.10475217<\/a><\/span><\/span><\/p>\n<p>Dudoignon, L., Le Sager, F. &amp; Vanheuverzwyn, A. (2018). Big Data and Audience Measurement: A Marriage of Convenience ? <em>Economie et Statistique \/ Economics and Statistics<\/em>, 505-506, 113-146. <span style=\"text-decoration: underline;\"><span style=\"color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/doi.org\/10.24187\/ecostat.2018.505d.1969\">https:\/\/doi.org\/10.24187\/ecostat.2018.505d.1969<\/a><\/span><\/span><\/p>\n<p>Pratesi, M., Siciliano, R. &amp; Lahiri, P. (2024). Special issue SMA: big data and alternative data sources for small area estimation.\u00a0<em>Statistical Methods &amp; Applications<\/em>, 33, 1025-1026. <span style=\"text-decoration: underline;\"><span style=\"color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/doi.org\/10.1007\/s10260-024-00765-x\">https:\/\/doi.org\/10.1007\/s10260-024-00765-x<\/a><\/span><\/span><\/p>\n<p>Rosanvallon, J. &amp; Vanheuverzwyn, A. (2025). Hybride &amp; IA\u00a0: Les nouvelles g\u00e9n\u00e9rations de mesure face aux enjeux de la mesure m\u00e9dias, <em>Livre blanc<\/em>.<\/p>\n<p><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/static-webmail.mediametrie.com\/Livre+blanc+Hybride+et+IA\/FR\/Mediametrie+Livre+Blanc+Hybride+et+IA.pdf\">https:\/\/static-webmail.mediametrie.com\/Livre+blanc+Hybride+et+IA\/FR\/Mediametrie+Livre+Blanc+Hybride+et+IA.pdf<\/a><\/span><\/span><\/p>\n<hr \/>\n<p>&nbsp;<\/p>\n<h6>Dossier Statistiques &#8211; Sommaire :<\/h6>\n<ul>\n<li style=\"list-style-type: none;\">\n<ul>\n<li><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/variances.eu\/?p=9143\" target=\"_blank\" rel=\"noopener\">Editorial<\/a><\/span><\/span><\/li>\n<li><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/variances.eu\/?p=9092\" target=\"_blank\" rel=\"noopener\">De la causalit\u00e9 \u00e0 la corr\u00e9lation : une histoire riche en r\u00e9flexions<\/a><\/span><\/span><\/li>\n<li><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/variances.eu\/?p=9097\" target=\"_blank\" rel=\"noopener\">L\u2019IA g\u00e9n\u00e9rative : une histoire de math\u00e9matiques \u2013 Voyage au c\u0153ur des \u00e9quations qui font parler les machines<\/a><\/span><\/span><\/li>\n<li><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/variances.eu\/?p=9103\" target=\"_blank\" rel=\"noopener\">Origine et fondements statistiques de l\u2019hybridation des sources de donn\u00e9es<\/a><\/span><\/span><\/li>\n<li><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/variances.eu\/?p=9122\" target=\"_blank\" rel=\"noopener\">Les donn\u00e9es synth\u00e9tiques : promesses et r\u00e9alit\u00e9s<\/a><\/span><\/span><\/li>\n<li><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/variances.eu\/?p=9101\" target=\"_blank\" rel=\"noopener\">Innovation et datascience \u00e0 la DGFiP : entretien avec Beno\u00eet Rouppert, d\u00e9l\u00e9gu\u00e9 \u00e0 la transformation num\u00e9rique<\/a><\/span><\/span><\/li>\n<li><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/variances.eu\/?p=9131\" target=\"_blank\" rel=\"noopener\">Les innovations en datascience \u00e0 l\u2019Insee : apprentissage statistique et nouvelles sources de donn\u00e9es<\/a><\/span><\/span><\/li>\n<li><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/variances.eu\/?p=9126\" target=\"_blank\" rel=\"noopener\">Les sondages \u00e9lectoraux en France \u00e0 l\u2019aune du contr\u00f4le de la Commission des Sondages<\/a><\/span><\/span><\/li>\n<\/ul>\n<\/li>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>Les m\u00e9thodes statistiques fond\u00e9es sur des \u00e9chantillons probabilistes ont longtemps constitu\u00e9, au cours du XXe si\u00e8cle, le socle de la production d\u2019informations quantitatives fiables dans de nombreux domaines, qu\u2019il s\u2019agisse de statistique publique, d\u2019\u00e9conomie, d\u2019\u00e9pid\u00e9miologie ou de sciences sociales. Leur force r\u00e9side dans leur cadre th\u00e9orique rigoureux, qui permet de produire des estimations non biais\u00e9es [&hellip;]<\/p>\n","protected":false},"author":547,"featured_media":9140,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_et_pb_use_builder":"","_et_pb_old_content":"","_et_gb_content_width":"","_exactmetrics_skip_tracking":false,"_exactmetrics_sitenote_active":false,"_exactmetrics_sitenote_note":"","_exactmetrics_sitenote_category":0,"footnotes":""},"categories":[18],"tags":[],"class_list":["post-9103","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-statistiques","et-has-post-format-content","et_post_format-et-post-format-standard"],"_links":{"self":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/9103","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/users\/547"}],"replies":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=9103"}],"version-history":[{"count":14,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/9103\/revisions"}],"predecessor-version":[{"id":9156,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/9103\/revisions\/9156"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/media\/9140"}],"wp:attachment":[{"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=9103"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=9103"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=9103"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}