{"id":6484,"date":"2022-08-18T07:15:50","date_gmt":"2022-08-18T05:15:50","guid":{"rendered":"https:\/\/variances.eu\/?p=6484"},"modified":"2022-08-18T07:20:50","modified_gmt":"2022-08-18T05:20:50","slug":"diffuser-ou-rendre-privees-les-donnees","status":"publish","type":"post","link":"https:\/\/variances.eu\/?p=6484","title":{"rendered":"Diffuser ou rendre priv\u00e9es les donn\u00e9es"},"content":{"rendered":"<p>C\u2019est un sujet ancien mais que les formidables progr\u00e8s de l\u2019IA mettent aujourd\u2019hui sur la table \u00e0 une tout autre \u00e9chelle. Des outils puissants arrivent qui collectent et utilisent les donn\u00e9es. Le potentiel ouvert est immense. Les donn\u00e9es de sant\u00e9 entrent dans la confection d\u2019algorithmes qui sauront bient\u00f4t analyser des risques de pathologies mieux que l\u2019expert humain\u00a0; des donn\u00e9es de conduite automobile permettront d\u2019affiner des algorithmes de conduite autonome ou de profilage de contrats d\u2019assurance mieux bord\u00e9s ; des capteurs sur les avions rendent la pr\u00e9vention des accidents toujours meilleure\u00a0; des donn\u00e9es de laminage d\u2019acier sauront, correctement analys\u00e9es, r\u00e9duire massivement les impuret\u00e9s du m\u00e9tal fondu ou le co\u00fbt carbone de leur production\u00a0; des donn\u00e9es textuelles massives permettent d\u2019envisager de la traduction \u00e9crite et audio instantan\u00e9e, avec une qualit\u00e9 proche des traducteurs professionnels.<\/p>\n<p>Cette bo\u00eete ouverte pose une question majeure\u00a0: quels arrangements institutionnels, quels r\u00e9gimes de propri\u00e9t\u00e9 doivent organiser l\u2019acc\u00e8s \u00e0 ces donn\u00e9es\u00a0? Avec deux contraintes potentiellement en conflit. D\u2019une part, la <span style=\"text-decoration: underline;\"><span style=\"color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/fr.wiktionary.org\/wiki\/privacit\u00e9\">privacit\u00e9<\/a><\/span><\/span> (francisation du commode <em>privacy<\/em> de l\u2019anglais)\u00a0; d\u2019autre part, la n\u00e9cessit\u00e9 de collecter le maximum de donn\u00e9es pour construire des algorithmes de qualit\u00e9. Un algorithme de d\u00e9tection des cancers du sein sera plus efficace s\u2019il dispose des donn\u00e9es de tous les h\u00f4pitaux de France plut\u00f4t que d\u2019un seul h\u00f4pital\u00a0; un mod\u00e8le m\u00e9t\u00e9o, s\u2019il dispose de donn\u00e9es mondiales plut\u00f4t que locales, etc. Un r\u00e9gime de propri\u00e9t\u00e9 trop exclusif de la donn\u00e9e g\u00eane la production d\u2019id\u00e9es de qualit\u00e9, voire m\u00eame produit de mauvaises id\u00e9es.<\/p>\n<p>Le conflit entre ces deux contraintes est patent s\u2019agissant de donn\u00e9es de sant\u00e9 humaine, de conduite automobile, d\u2019habitudes de consommation ou d\u2019\u00e9pargne. Moins sur les donn\u00e9es m\u00e9t\u00e9o, sur les impuret\u00e9s r\u00e9siduelles dans le coulage de l\u2019acier ou sur les millions de pages aval\u00e9es dans la production des algorithmes de traduction. \u00c0 ce propos, voir la formidable vid\u00e9o de <span style=\"text-decoration: underline;\"><span style=\"color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/scienceetonnante.com\/2021\/11\/26\/traitement-du-langage-naturel\/\">Science \u00e9tonnante<\/a><\/span><\/span>, un site incontournable pour les amateurs de science, sur l\u2019apprentissage des algorithmes de traduction.<\/p>\n<h3><strong>Le levier de la non-rivalit\u00e9\u00a0<\/strong><\/h3>\n<p>On peut de fa\u00e7on commode d\u00e9finir l\u2019information comme tout bien immat\u00e9riel qu\u2019on peut mettre sous forme de 0 et de 1 dans un disque dur. Elle prend deux formes : une forme simple, \u00e0 savoir les donn\u00e9es, comme dans les exemples ci-dessus ; et une forme complexe, \u00e0 savoir les \u00ab id\u00e9es \u00bb, par lesquelles on d\u00e9signe tout ensemble d\u2019instructions permettant de r\u00e9aliser un bien ou un service, \u00e0 usage \u00e9conomique ou pas, ou bien une autre id\u00e9e. Avec cette d\u00e9finition rudimentaire, un brevet, une recette de cuisine, des lignes de code, un po\u00e8me seront des id\u00e9es.<\/p>\n<p>Donn\u00e9es et id\u00e9es ont une propri\u00e9t\u00e9 majeure : ce sont des biens non rivaux. Si je consomme un repas (un bien dit \u00ab rival \u00bb), le voil\u00e0 indisponible pour mon voisin. Si j\u2019utilise une radio de poumon (une donn\u00e9e) pour un diagnostic, elle reste utilisable par un tiers. La donn\u00e9e est non rivale. Si j\u2019utilise le th\u00e9or\u00e8me de Pythagore (une id\u00e9e), ce n\u2019est pas au d\u00e9triment du m\u00eame usage par mon voisin. Pour sentir la force inou\u00efe de la non-rivalit\u00e9, supposons un instant que l\u2019immobilier d\u2019entreprise soit un bien non rival. Cela voudrait dire que toutes les entreprises du monde pourraient utiliser le m\u00eame local, une \u00e9conomie stup\u00e9fiante. Il y a malheureusement peu de biens non rivaux. On disait traditionnellement que l\u2019air ou l\u2019eau de la mer en \u00e9taient le mod\u00e8le. Les probl\u00e8mes de l\u2019environnement montrent que ce n\u2019est d\u00e9sormais plus le cas. D\u2019une certaine fa\u00e7on, l\u2019information est devenue le seul bien non rival (je n\u2019ai pas de contre-exemple)\u00a0; les autres sont marqu\u00e9s, \u00e0 un degr\u00e9 ou un autre, par le sort de la raret\u00e9 et de la rivalit\u00e9 dans l\u2019acc\u00e8s.<\/p>\n<h3><strong>Id\u00e9es et donn\u00e9es sont excluables de fa\u00e7on diff\u00e9rente<\/strong><\/h3>\n<p>S\u2019ils sont non rivaux, les biens d\u2019information, donn\u00e9es ou id\u00e9es, sont \u00ab\u00a0excluables\u00a0\u00bb, au sens o\u00f9 il est possible d\u2019en r\u00e9server l\u2019utilisation \u00e0 des fins exclusives. Facebook, \u00e0 pr\u00e9sent Meta, collecte des donn\u00e9es qu\u2019il utilise pour le ciblage publicitaire de ses clients annonceurs, mais les garde pr\u00e9cieusement pour lui. Les laboratoires fran\u00e7ais tiennent une place importante en Europe dans le s\u00e9quen\u00e7age d\u2019ADN, mais <span style=\"text-decoration: underline; color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/journal.lemonde.fr\/data\/1872\/reader\/reader.html?t=1643143957513#!preferred\/0\/package\/1872\/pub\/2546\/page\/21\/alb\/118757\">oublient tr\u00e8s souvent<\/a><\/span> de transmettre les r\u00e9sultats dans les bases de donn\u00e9es \u00e0 usage scientifique. Notons que les donn\u00e9es sont plus facilement excluables que les id\u00e9es. Je peux facilement m\u2019approprier l\u2019usage exclusif de la radio du poumon, tandis que les id\u00e9es, pour se mat\u00e9rialiser, ont le plus souvent besoin de s\u2019incarner dans un humain, Mieux vaut le chef lui-m\u00eame que la recette de cuisine de son livre. Mieux vaut le statisticien qui a con\u00e7u l\u2019algorithme que les simples lignes de code, etc. Qui dit humain, dit transf\u00e9rabilit\u00e9, d\u00e8s lors qu\u2019on ne dispose que de moyens juridiques tr\u00e8s limit\u00e9s pour disposer d\u2019un homme comme si on en \u00e9tait le propri\u00e9taire exclusif. Les gens circulent, vont d\u2019entreprise en entreprise, et diffusent ainsi les savoir-faire et les id\u00e9es. Le brevet est un mode d\u2019appropriation d\u2019une id\u00e9e, mais il faut noter que pour \u00eatre recevable par un bureau des brevets faisant correctement son travail, il doit diffuser l\u2019id\u00e9e en m\u00eame temps qu\u2019il en exclut l\u2019usage (sauf accord contractuel avec son d\u00e9tenteur). L\u2019investisseur habile a une id\u00e9e d\u2019achat sur un march\u00e9 boursier, mais r\u00e9alisant l\u2019achat, il le divulgue au march\u00e9.<\/p>\n<p>Si la donn\u00e9e est facilement excluable, par quel arrangement juridique et \u00e9conomique peut-on en pr\u00e9server la diffusion la plus large possible, l\u2019incitation \u00e0 la produire\u00a0et la privacit\u00e9 ? Voil\u00e0 ce qui commence \u00e0 p\u00e9n\u00e9trer le d\u00e9bat d\u00e9mocratique et est en tout cas un domaine tr\u00e8s actif de la recherche \u00e9conomique aujourd\u2019hui. La big tech recrute \u00e0 tour de bras des \u00e9conomistes de la donn\u00e9e (outre bien s\u00fbr des statisticiens de la donn\u00e9e) pour voir comment en faire, \u00e0 son profit, le meilleur usage.<\/p>\n<h3><strong>Les diff\u00e9rents cadres institutionnels <\/strong><\/h3>\n<p>Il est probable qu\u2019il n\u2019y a pas un unique bon arrangement sachant que les donn\u00e9es sont de natures tr\u00e8s diverses. Mais on peut grossi\u00e8rement \u00e9noncer\u00a0:<\/p>\n<p>&#8211; la propri\u00e9t\u00e9 publique, o\u00f9 l\u2019\u00c9tat se charge de la diffusion des donn\u00e9es. Celles-ci peuvent \u00eatre agr\u00e9g\u00e9es, et non individuelles\u00a0; les donn\u00e9es m\u00e9t\u00e9o ou de circulation routi\u00e8re en sont des exemples.<\/p>\n<p>&#8211; la propri\u00e9t\u00e9 publique, o\u00f9 l\u2019\u00c9tat garde l\u2019exclusivit\u00e9\u00a0des donn\u00e9es. Les donn\u00e9es collect\u00e9es (ou pas) par les Caisses d\u2019assurance maladie (la S\u00e9cu fran\u00e7aise est l\u2019un des plus grands collecteurs de donn\u00e9es de sant\u00e9 au monde) ne sont que partiellement publiques et sont laiss\u00e9es encore largement en jach\u00e8re\u00a0; les donn\u00e9es fiscales au niveau individuel, etc.<\/p>\n<p>&#8211; la propri\u00e9t\u00e9 priv\u00e9e exclusive. Ici ce sont les banques ou les assureurs qui conservent des donn\u00e9es de cr\u00e9dit, de tr\u00e9sorerie ou de sinistres de leurs clients. Mais, plus largement, les entreprises non financi\u00e8res gardent par devers elles les donn\u00e9es concernant leurs clients, fournisseurs et salari\u00e9s.<\/p>\n<p>&#8211; l\u2019individu qui produit sa propre donn\u00e9e et qui peut ou pas la c\u00e9der, de bon ou de gr\u00e9.<\/p>\n<p>Ce \u00e0 quoi il faut ajouter diff\u00e9rents types d\u2019agents, qui sont des agr\u00e9gateurs de donn\u00e9es ou des courtiers, et qui les diffusent \u00e0 titre gracieux ou p\u00e9cunieux. Une institution particuli\u00e8rement saillante est form\u00e9e par les \u00ab\u00a0<em>credit bureaus<\/em>\u00a0\u00bb (agences de notation du cr\u00e9dit individuel, inexistantes en France) ou par les agences de notation des cr\u00e9ances financi\u00e8res. Mais Google Maps peut \u00eatre vu comme l\u2019un de ces agents. Il vend directement des services de pages jaunes gr\u00e2ce \u00e0 l\u2019appli, mais surtout des services de g\u00e9olocalisation \u00e0 quantit\u00e9s d\u2019activit\u00e9s nouvelles (livreurs, taxis, etc.).<\/p>\n<h3><strong>Le surgissement des <\/strong><strong><em>big techs<\/em><\/strong><\/h3>\n<p>Le grand public, mais aussi les l\u00e9gislateurs et les \u00e9conomistes, sont devenus m\u00e9fiants vis-\u00e0-vis des <em>big tech<\/em> et de leur pouvoir de collecte des donn\u00e9es individuelles \u00e0 un niveau sans pr\u00e9c\u00e9dent. Outre la \u00ab\u00a0privacit\u00e9\u00a0\u00bb mise en danger, l\u2019acc\u00e8s aux donn\u00e9es leur donne un pouvoir de march\u00e9 qui leur permet d\u2019\u00e9vincer tout rival potentiel. Ainsi, Meta, Google, Amazon et Alibaba disposent de loin des meilleures donn\u00e9es sur les recherches des internautes. Ils rendent quasi impossible la venue d\u2019autres acteurs sur le march\u00e9 de la publicit\u00e9 par internet. Apple et Google, par leur ma\u00eetrise du boitier qu\u2019est le portable, contr\u00f4lent la localisation, le type de consommation, etc, de leurs usagers et ont les moyens de rentrer en force dans de nouvelles activit\u00e9s, assurance, commerce, paiements, cr\u00e9dit, etc. Clairement, cette appropriation priv\u00e9e n\u2019est pas optimale, \u00e0 la fois parce qu\u2019elle bloque la concurrence existante ou potentielle d\u2019acc\u00e8s aux donn\u00e9es, limitant la qualit\u00e9 des \u00ab\u00a0id\u00e9es\u00a0\u00bb, mais parce qu\u2019elle conduit \u00e0 des rentes monopolistes. Il vaut mieux un acc\u00e8s tr\u00e8s large aux donn\u00e9es et que la comp\u00e9tition et l\u2019excluabilit\u00e9\u00a0 n\u2019op\u00e8rent qu\u2019au niveau des id\u00e9es, \u00e0 la recherche du meilleur algorithme dans l\u2019utilisation de ces gisements de donn\u00e9es.<\/p>\n<p>Dans un article int\u00e9ressant, <span style=\"text-decoration: underline; color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/www.aeaweb.org\/articles?id=10.1257\/aer.20191330\">Nonrivalry and the Economics of Data<\/a><\/span>, dont s\u2019inspire largement le pr\u00e9sent billet, les \u00e9conomistes Charles Jones et Christopher Tonetti \u00e9tudient les diff\u00e9rents r\u00e9gimes de propri\u00e9t\u00e9 des donn\u00e9es du point de vue de l\u2019efficacit\u00e9 en mati\u00e8re de diffusion.<\/p>\n<p>Leur conclusion, sans trop de surprise, est que l\u2019exclusivit\u00e9 personnelle des donn\u00e9es conduit \u00e0 l\u2019optimum. Non pas en raison des questions de vie priv\u00e9e, mais parce que ce syst\u00e8me permet la diffusion maximum.<\/p>\n<p>Les auteurs pr\u00e9voient pour cela l\u2019ouverture d\u2019un march\u00e9 qui permettrait aux individus de mettre en balance leur souci de privacit\u00e9 et un int\u00e9r\u00eat \u00e9conomique \u00e0 vendre leurs donn\u00e9es aux entit\u00e9s en faisant la demande. La vente se ferait sans clause de jouissance exclusive de la donn\u00e9e au profit de l\u2019acheteur, car ceci bloquerait \u00e0 nouveau la diffusion. Cette r\u00e9serve est une forte limitation \u00e0 leur approche\u00a0car les individus pr\u00e9f\u00e8rent \u00e0 coup s\u00fbr vendre \u00e0 un seul, et probablement plus cher, plut\u00f4t que de le faire au d\u00e9tail, m\u00eame s\u2019il est probable que des agents sp\u00e9cialis\u00e9s se chargeraient de l\u2019interm\u00e9diation. De la m\u00eame fa\u00e7on, il faudrait proscrire le \u00ab\u00a0vol\u00a0\u00bb individuel de donn\u00e9es des autres, ce qui n\u2019est pas facile. Un test r\u00e9alis\u00e9 aupr\u00e8s d\u2019\u00e9tudiants du MIT a montr\u00e9 qu\u2019une majorit\u00e9 d\u2019entre eux \u00e9taient pr\u00eats \u00e0 donner l\u2019email de trois de leurs amis proches pour le prix modeste d\u2019une pizza gratuite.<\/p>\n<p>Il faut en revanche reconna\u00eetre qu\u2019un refus individuel de l\u2019ensemble des internautes de transmettre leurs donn\u00e9es (par suppression syst\u00e9matique des cookies sur les sites consult\u00e9s \u2013 ce que le pr\u00e9sent auteur fait) conduirait \u00e0 un \u00e9quilibre sous-optimal du point de vue du partage des donn\u00e9es, m\u00eame si cette attitude, rendue d\u00e9sormais plus ais\u00e9e par le l\u00e9gislateur, exprime avant tout un ras-le-bol face \u00e0 la pr\u00e9dation des grands de la tech.<\/p>\n<p>La piste d\u2019une exclusivit\u00e9 n\u00e9gociable au profit du producteur initial de la donn\u00e9e est sans doute une piste \u00e0 suivre, mais on voit mal le <em>design<\/em> qui peut l\u2019accompagner. D\u2019autres r\u00e9gulations peuvent \u00eatre performantes. Par exemple, les applis de cartographie routi\u00e8re, de type Waze, collectent avec un maillage tr\u00e8s fin des donn\u00e9es de trafic. Les municipalit\u00e9s pourraient \u00e9dicter une obligation de communication aux fins de leur permettre de mieux r\u00e9guler le trafic ou les feux de circulation, ceci sous le m\u00eame type de r\u00e9glementation ou de contrat par lequel l\u2019INSEE collecte des donn\u00e9es de sorties de caisse des supermarch\u00e9s pour affiner ses statistiques de prix et de consommation des m\u00e9nages. Elles n\u2019osent pas aujourd\u2019hui face au poids des <em>big techs<\/em> et de leurs armadas de juristes, mais la loi pourrait les y aider. La Caisse d\u2019Assurance Maladie pourrait exiger des m\u00e9decins l\u2019envoi de donn\u00e9es de sant\u00e9 plus compl\u00e8tes, mieux catalogu\u00e9es des m\u00e9decins de ville ou des cliniques, \u00e0 charge pour elle de les utiliser pour une politique de sant\u00e9, voire de les redistribuer aupr\u00e8s d\u2019acteurs agr\u00e9\u00e9s. Les s\u00e9quen\u00e7ages d\u2019ADN doivent \u00eatre syst\u00e9matiquement partag\u00e9s. Les possibilit\u00e9s sont infinies.<\/p>\n<p>Voil\u00e0 un domaine absolument vital o\u00f9 tant le d\u00e9bat d\u00e9mocratique que la recherche sont indispensables.<\/p>\n<p>&nbsp;<\/p>\n<p><em>Cet article a \u00e9t\u00e9 initialement publi\u00e9 le 14 mars 2022.<\/em><\/p>\n","protected":false},"excerpt":{"rendered":"<p>C\u2019est un sujet ancien mais que les formidables progr\u00e8s de l\u2019IA mettent aujourd\u2019hui sur la table \u00e0 une tout autre \u00e9chelle. Des outils puissants arrivent qui collectent et utilisent les donn\u00e9es. Le potentiel ouvert est immense. Les donn\u00e9es de sant\u00e9 entrent dans la confection d\u2019algorithmes qui sauront bient\u00f4t analyser des risques de pathologies mieux que [&hellip;]<\/p>\n","protected":false},"author":39,"featured_media":6485,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_et_pb_use_builder":"","_et_pb_old_content":"","_et_gb_content_width":"","_exactmetrics_skip_tracking":false,"_exactmetrics_sitenote_active":false,"_exactmetrics_sitenote_note":"","_exactmetrics_sitenote_category":0,"footnotes":""},"categories":[15],"tags":[],"class_list":["post-6484","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-science","et-has-post-format-content","et_post_format-et-post-format-standard"],"_links":{"self":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/6484","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/users\/39"}],"replies":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=6484"}],"version-history":[{"count":0,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/6484\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/media\/6485"}],"wp:attachment":[{"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=6484"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=6484"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=6484"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}