C’est un sujet ancien mais que les formidables progrès de l’IA mettent aujourd’hui sur la table à une tout autre échelle. Des outils puissants arrivent qui collectent et utilisent les données. Le potentiel ouvert est immense. Les données de santé entrent dans la confection d’algorithmes qui sauront bientôt analyser des risques de pathologies mieux que l’expert humain ; des données de conduite automobile permettront d’affiner des algorithmes de conduite autonome ou de profilage de contrats d’assurance mieux bordés ; des capteurs sur les avions rendent la prévention des accidents toujours meilleure ; des données de laminage d’acier sauront, correctement analysées, réduire massivement les impuretés du métal fondu ou le coût carbone de leur production ; des données textuelles massives permettent d’envisager de la traduction écrite et audio instantanée, avec une qualité proche des traducteurs professionnels.

Cette boîte ouverte pose une question majeure : quels arrangements institutionnels, quels régimes de propriété doivent organiser l’accès à ces données ? Avec deux contraintes potentiellement en conflit. D’une part, la privacité (francisation du commode privacy de l’anglais) ; d’autre part, la nécessité de collecter le maximum de données pour construire des algorithmes de qualité. Un algorithme de détection des cancers du sein sera plus efficace s’il dispose des données de tous les hôpitaux de France plutôt que d’un seul hôpital ; un modèle météo, s’il dispose de données mondiales plutôt que locales, etc. Un régime de propriété trop exclusif de la donnée gêne la production d’idées de qualité, voire même produit de mauvaises idées.

Le conflit entre ces deux contraintes est patent s’agissant de données de santé humaine, de conduite automobile, d’habitudes de consommation ou d’épargne. Moins sur les données météo, sur les impuretés résiduelles dans le coulage de l’acier ou sur les millions de pages avalées dans la production des algorithmes de traduction. À ce propos, voir la formidable vidéo de Science étonnante, un site incontournable pour les amateurs de science, sur l’apprentissage des algorithmes de traduction.

Le levier de la non-rivalité 

On peut de façon commode définir l’information comme tout bien immatériel qu’on peut mettre sous forme de 0 et de 1 dans un disque dur. Elle prend deux formes : une forme simple, à savoir les données, comme dans les exemples ci-dessus ; et une forme complexe, à savoir les « idées », par lesquelles on désigne tout ensemble d’instructions permettant de réaliser un bien ou un service, à usage économique ou pas, ou bien une autre idée. Avec cette définition rudimentaire, un brevet, une recette de cuisine, des lignes de code, un poème seront des idées.

Données et idées ont une propriété majeure : ce sont des biens non rivaux. Si je consomme un repas (un bien dit « rival »), le voilà indisponible pour mon voisin. Si j’utilise une radio de poumon (une donnée) pour un diagnostic, elle reste utilisable par un tiers. La donnée est non rivale. Si j’utilise le théorème de Pythagore (une idée), ce n’est pas au détriment du même usage par mon voisin. Pour sentir la force inouïe de la non-rivalité, supposons un instant que l’immobilier d’entreprise soit un bien non rival. Cela voudrait dire que toutes les entreprises du monde pourraient utiliser le même local, une économie stupéfiante. Il y a malheureusement peu de biens non rivaux. On disait traditionnellement que l’air ou l’eau de la mer en étaient le modèle. Les problèmes de l’environnement montrent que ce n’est désormais plus le cas. D’une certaine façon, l’information est devenue le seul bien non rival (je n’ai pas de contre-exemple) ; les autres sont marqués, à un degré ou un autre, par le sort de la rareté et de la rivalité dans l’accès.

Idées et données sont excluables de façon différente

S’ils sont non rivaux, les biens d’information, données ou idées, sont « excluables », au sens où il est possible d’en réserver l’utilisation à des fins exclusives. Facebook, à présent Meta, collecte des données qu’il utilise pour le ciblage publicitaire de ses clients annonceurs, mais les garde précieusement pour lui. Les laboratoires français tiennent une place importante en Europe dans le séquençage d’ADN, mais oublient très souvent de transmettre les résultats dans les bases de données à usage scientifique. Notons que les données sont plus facilement excluables que les idées. Je peux facilement m’approprier l’usage exclusif de la radio du poumon, tandis que les idées, pour se matérialiser, ont le plus souvent besoin de s’incarner dans un humain, Mieux vaut le chef lui-même que la recette de cuisine de son livre. Mieux vaut le statisticien qui a conçu l’algorithme que les simples lignes de code, etc. Qui dit humain, dit transférabilité, dès lors qu’on ne dispose que de moyens juridiques très limités pour disposer d’un homme comme si on en était le propriétaire exclusif. Les gens circulent, vont d’entreprise en entreprise, et diffusent ainsi les savoir-faire et les idées. Le brevet est un mode d’appropriation d’une idée, mais il faut noter que pour être recevable par un bureau des brevets faisant correctement son travail, il doit diffuser l’idée en même temps qu’il en exclut l’usage (sauf accord contractuel avec son détenteur). L’investisseur habile a une idée d’achat sur un marché boursier, mais réalisant l’achat, il le divulgue au marché.

Si la donnée est facilement excluable, par quel arrangement juridique et économique peut-on en préserver la diffusion la plus large possible, l’incitation à la produire et la privacité ? Voilà ce qui commence à pénétrer le débat démocratique et est en tout cas un domaine très actif de la recherche économique aujourd’hui. La big tech recrute à tour de bras des économistes de la donnée (outre bien sûr des statisticiens de la donnée) pour voir comment en faire, à son profit, le meilleur usage.

Les différents cadres institutionnels

Il est probable qu’il n’y a pas un unique bon arrangement sachant que les données sont de natures très diverses. Mais on peut grossièrement énoncer :

– la propriété publique, où l’État se charge de la diffusion des données. Celles-ci peuvent être agrégées, et non individuelles ; les données météo ou de circulation routière en sont des exemples.

– la propriété publique, où l’État garde l’exclusivité des données. Les données collectées (ou pas) par les Caisses d’assurance maladie (la Sécu française est l’un des plus grands collecteurs de données de santé au monde) ne sont que partiellement publiques et sont laissées encore largement en jachère ; les données fiscales au niveau individuel, etc.

– la propriété privée exclusive. Ici ce sont les banques ou les assureurs qui conservent des données de crédit, de trésorerie ou de sinistres de leurs clients. Mais, plus largement, les entreprises non financières gardent par devers elles les données concernant leurs clients, fournisseurs et salariés.

– l’individu qui produit sa propre donnée et qui peut ou pas la céder, de bon ou de gré.

Ce à quoi il faut ajouter différents types d’agents, qui sont des agrégateurs de données ou des courtiers, et qui les diffusent à titre gracieux ou pécunieux. Une institution particulièrement saillante est formée par les « credit bureaus » (agences de notation du crédit individuel, inexistantes en France) ou par les agences de notation des créances financières. Mais Google Maps peut être vu comme l’un de ces agents. Il vend directement des services de pages jaunes grâce à l’appli, mais surtout des services de géolocalisation à quantités d’activités nouvelles (livreurs, taxis, etc.).

Le surgissement des big techs

Le grand public, mais aussi les législateurs et les économistes, sont devenus méfiants vis-à-vis des big tech et de leur pouvoir de collecte des données individuelles à un niveau sans précédent. Outre la « privacité » mise en danger, l’accès aux données leur donne un pouvoir de marché qui leur permet d’évincer tout rival potentiel. Ainsi, Meta, Google, Amazon et Alibaba disposent de loin des meilleures données sur les recherches des internautes. Ils rendent quasi impossible la venue d’autres acteurs sur le marché de la publicité par internet. Apple et Google, par leur maîtrise du boitier qu’est le portable, contrôlent la localisation, le type de consommation, etc, de leurs usagers et ont les moyens de rentrer en force dans de nouvelles activités, assurance, commerce, paiements, crédit, etc. Clairement, cette appropriation privée n’est pas optimale, à la fois parce qu’elle bloque la concurrence existante ou potentielle d’accès aux données, limitant la qualité des « idées », mais parce qu’elle conduit à des rentes monopolistes. Il vaut mieux un accès très large aux données et que la compétition et l’excluabilité  n’opèrent qu’au niveau des idées, à la recherche du meilleur algorithme dans l’utilisation de ces gisements de données.

Dans un article intéressant, Nonrivalry and the Economics of Data, dont s’inspire largement le présent billet, les économistes Charles Jones et Christopher Tonetti étudient les différents régimes de propriété des données du point de vue de l’efficacité en matière de diffusion.

Leur conclusion, sans trop de surprise, est que l’exclusivité personnelle des données conduit à l’optimum. Non pas en raison des questions de vie privée, mais parce que ce système permet la diffusion maximum.

Les auteurs prévoient pour cela l’ouverture d’un marché qui permettrait aux individus de mettre en balance leur souci de privacité et un intérêt économique à vendre leurs données aux entités en faisant la demande. La vente se ferait sans clause de jouissance exclusive de la donnée au profit de l’acheteur, car ceci bloquerait à nouveau la diffusion. Cette réserve est une forte limitation à leur approche car les individus préfèrent à coup sûr vendre à un seul, et probablement plus cher, plutôt que de le faire au détail, même s’il est probable que des agents spécialisés se chargeraient de l’intermédiation. De la même façon, il faudrait proscrire le « vol » individuel de données des autres, ce qui n’est pas facile. Un test réalisé auprès d’étudiants du MIT a montré qu’une majorité d’entre eux étaient prêts à donner l’email de trois de leurs amis proches pour le prix modeste d’une pizza gratuite.

Il faut en revanche reconnaître qu’un refus individuel de l’ensemble des internautes de transmettre leurs données (par suppression systématique des cookies sur les sites consultés – ce que le présent auteur fait) conduirait à un équilibre sous-optimal du point de vue du partage des données, même si cette attitude, rendue désormais plus aisée par le législateur, exprime avant tout un ras-le-bol face à la prédation des grands de la tech.

La piste d’une exclusivité négociable au profit du producteur initial de la donnée est sans doute une piste à suivre, mais on voit mal le design qui peut l’accompagner. D’autres régulations peuvent être performantes. Par exemple, les applis de cartographie routière, de type Waze, collectent avec un maillage très fin des données de trafic. Les municipalités pourraient édicter une obligation de communication aux fins de leur permettre de mieux réguler le trafic ou les feux de circulation, ceci sous le même type de réglementation ou de contrat par lequel l’INSEE collecte des données de sorties de caisse des supermarchés pour affiner ses statistiques de prix et de consommation des ménages. Elles n’osent pas aujourd’hui face au poids des big techs et de leurs armadas de juristes, mais la loi pourrait les y aider. La Caisse d’Assurance Maladie pourrait exiger des médecins l’envoi de données de santé plus complètes, mieux cataloguées des médecins de ville ou des cliniques, à charge pour elle de les utiliser pour une politique de santé, voire de les redistribuer auprès d’acteurs agréés. Les séquençages d’ADN doivent être systématiquement partagés. Les possibilités sont infinies.

Voilà un domaine absolument vital où tant le débat démocratique que la recherche sont indispensables.