Partie 2. Quels risques, quelles régulations ?

 

L’I.A. générative suscite des attentes parfois démesurées… auxquelles font écho des craintes souvent excessives et irraisonnées. Entre ces extrêmes, il convient plutôt de voir en elle un instrument puissant qui n’est pas sans dangers et réclame donc une vigilance toute particulière.

Défauts et menaces de l’I.A. générative

Nous nous intéressons ici à L’I.A. dite générative et, plus généralement, aux « modèles de fondation », selon le terme popularisé par l’Institut de recherche sur l’intelligence artificielle de l’université Stanford, afin de désigner cette nouvelle génération de modèles d’I.A. de grande taille, généralement entraînés par apprentissage auto-supervisé sur une grande quantité de données non pré-codées – incluant textes, images, contenus vidéo ou audio – et pouvant effectuer un large éventail de tâches en aval (Bomasani, 2022).

(i) Discrimination.

Une I.A. générative reproduit inévitablement tous les préjugés, stéréotypes et biais cognitifs des humains qui sont à l’origine des données qu’elle utilise (Bronner, 2021 ; Jean, 2019). Elle peut ainsi se montrer sexiste ou xénophobe par procuration. D’où l’importance de nettoyer avec soin la base de données d’entraînement.

(ii) Défaut d’explication des résultats.

En raison du caractère en grande partie aléatoire de son processus d’apprentissage, il est malaisé d’expliciter le processus qui a conduit une I.A. générative à produire tel résultat plutôt que tel autre à partir de telle entrée. Un effort de transparence, d’explicabilité algorithmique, est néanmoins exigible du fournisseur qui peut à tout à tout le moins préciser la nature des données utilisées par l’A.I. et fournir des exemples-types de traitements effectués sur des « cas d’école » (Maxwell, 2020).

(iii) Génération d’infox et d’infox profonde

Comme on l’a noté dans la première partie de cet article, une I.A. générative ne se soucie pas de la vérité et peut répandre le faux, ne serait-ce que par inadvertance. Et, lorsque délibérément utilisée à cet escient, ses performances sont étonnantes dans la construction de « faux profond » (deep fake). La personnalité d’une cible peut être piratée et incarnée par un avatar doté de facultés interactives extrêmement réalistes. Les agissements de tels avatars peuvent dès lors être incrustés dans un plan de désinformation plus global, mêlant évènements fictifs et évènements réels dans l’élaboration d’une Histoire revisitée, scénarisée, crédible et persuasive. Cette technique peut notamment se déguiser sous les habits de faux services automatisés d’information ou d’analyse, distillant des récits et des explications n’ayant de la réalité que l’apparence et ne visant qu’à tromper l’internaute en le détournant de l’actualité authentique.

(iv) Risque de monoculture

Les grands modèles d’I.A. générative recourent à l’apprentissage par transfert (transfer learning), consistant à réutiliser les compétences acquises dans la résolution d’un problème donné pour résoudre d’autres problèmes, ainsi que l’apprentissage par l’exemple (few shots learning), consistant à régler le modèle sur quelques exemples-types, avant de l’exploiter à plus grande échelle. Ces deux caractéristiques font qu’un même schéma algorithmique se trouve répété à l’identique dans de nombreuses situations applicatives, créant d’une part un risque de vulnérabilité et d’autre part un risque d’homogénéisation des résultats produits, de monoculture.

(v) Risque d’émergence

La taille immense du corpus d’entraînement d’une I.A. générative, ainsi que la multitude des paramètres auto-ajustés, sont susceptibles de faire émerger des propriétés imprédictibles ex ante, selon l’adage « Plus est différent ».  Qui eût imaginé, par exemple, qu’une I.A., simplement entraînée à prolonger une phrase par la phrase venant le plus vraisemblablement après cette phrase, puisse composer une fable de La Fontaine, ou encore écrire les lignes de code d’un programme informatique ? L’émergence peut certes conduire à de bonnes surprises, comme dans ces exemples, mais aussi à de très mauvaises, dont il est d’autant plus difficile de se protéger qu’elles sont par nature indéterminées antérieurement à la phase d’exploitation.

(vi) Cygne noir algorithmique

Dans la même ligne que l’émergence, il convient de citer le « cygne noir » algorithmique, pour reprendre le pittoresque syntagme dû à Nassin Taleb (Taleb, 2010). Bien que cela soit très improbable, il est néanmoins possible qu’un bogue informatique provoque l’effondrement en cascade d’un système d’I.A. et engendre ainsi une catastrophe systémique aux conséquences potentiellement dramatiques  pour la population et pour les institutions nationales. En 2000, à l’occasion du changement de millénaire, on a anticipé et craint à tort un bogue ravageur… qui ne s’est pas produit. Toutefois, dans un univers numérique dont la complexité ne cesse de s’accroître, l’éventualité d’un bogue majeur, celui-là non anticipé mais bien réel, demeure une épée de Damoclès.

(vii) Violation des données personnelles

Les modèles de l’I.A.. générative sont d’autant plus efficaces et pertinents qu’ils mémorisent la totalité de leurs données d’entraînement. Or une grande partie de ces données étant fournies par les internautes eux-mêmes (user-generated data), elle contient de l’information hautement sensible. Il en résulte un très sérieux risque d’atteinte à la vie privée. Si aucune précaution n’est prise, il sera aisé de se servir d’un langageur comme d’un instrument d’extraction de données personnelles, tout simplement en lui soumettant une requête du type « Quelle est l’adresse de Monsieur X ? ».

(viii) Risque pour l’emploi

Selon une prévision de Goldman Sachs, environ un quart du travail pourrait être automatisé sous l’effet de l’I.A. générative. Parce qu’elle se base sur des contenus existants pour en générer de nouveaux, l’I.A. est en effet vouée à s’immiscer dans les fonctions support et les tâches administratives, affectant ainsi les cadres, les professions qualifiées et les dirigeants. Le phénomène touchera tous les secteurs d’activité et il se manifeste déjà dans les domaines de la justice, de la santé, de la finance, de l’éducation ou du journalisme. Les cols blancs et les plus diplômés seront les plus touchés et plus de trois cents millions d’emplois seraient ainsi directement concernés aux États-Unis. Plus de 80% des employés américains verraient leur travail transformé pour au moins 10% de leurs tâches et jusqu’à 50% des tâches pourraient être automatisées pour 20% des employés. L’économie de main d’œuvre permise par l’I.A., source de gains de productivité significatifs, serait néanmoins en partie compensée par par la création de nouveaux emplois moins qualifiés, occupés par des techniciens en charge de l’alimentation en données et de la supervision des machines intelligentes.

(ix) Risque environnemental

L’apparition de l’I.A. générative grève lourdement la trace environnementale des technologies de l’information. La phase entraînement et de mise au point de Chat GPT-3, le langageur ayant précédé Chat GPT, a donné lieu à une consommation énergétique de près de 1300 MWh d’après les chiffres de la Commission de régulation de l’énergie (CRE), ce qui revient à la consommation de 320 foyers français en une année. Il en aurait résulté l’émission de 550 tonnes d’équivalent CO2 dans l’atmosphère, autant que les émissions annuelles d’environ 60 Français, selon les estimations du Ministère de la transition écologique. L’entraînement de l’actuel Chat GPT et celui de sa nouvelle version GPT-4 ont vraisemblablement demandé encore davantage d’énergie et émis davantage de carbone. Si ces chiffres, se rapportant à une version donnée d’une application donnée, peuvent à première vue apparaître comme relativement modestes, rappelons que la famille des langageurs est nombreuse, qu’elle appartient elle-même à la famille plus large des modèles de fondation, que tous ces modèles sont chacun disponibles sous plusieurs versions et que chaque version est périodiquement réentraînée ! Par conséquent, afin d’évaluer l’impact total actuel  de l’I.A. générative, multiplier l’impact unitaire par un facteur mille n’est sans doute pas déraisonnable, et ce multiplicateur connaîtra une croissance exponentielle !

Tentatives de pause

Dans une lettre ouverte publiée le 28 mars 2023, un groupe de deux mille grands experts internationaux s’est prononcé en faveur d’un moratoire sur l’I.A. : ils dénoncent « des systèmes numériques toujours plus puissants que personne – pas même leurs créateurs – ne peuvent comprendre, prédire ou contrôler de manière fiable ». Face à une course « incontrôlée » des laboratoires d’I.A., au risque de « laisser les machines inonder les canaux d’information de propagande et de mensonges », ils ont demandé une pause de six mois afin de réfléchir aux « conséquences éthiques, sociales et politiques de l’I.A. générative et à la mise en place d’une gouvernance adaptée. Un tel moratoire, peu réaliste, est resté sans suite.

Dans la même veine, à la fin du mois de mars 2023, l’Italie a bloqué l’utilisation de Chat GPT pendant un mois, au motif d’une atteinte à la législation sur les données personnelles ; le service est maintenant rétabli après que la société Open AI s’est dûment engagée à respecter cette législation à la lettre.

Il convient certes encadrer l’innovation, mais pas au prix de l’inhiber. Les menaces, bien réelles, ne doivent ni occulter les opportunités, ni bien sûr être négligées. C’est dans cet esprit que, dans toutes les parties du monde, sont actuellement préparés et progressivement mis en place des mécanismes de régulation et de contrôle de l’I.A.

Dispositifs de régulation à travers le monde

En Chine, un cadre de régulation de l’I.A. générative a été adopté en avril 2023. Ce cadre impose aux fournisseurs de services d’éradiquer la discrimination algorithmique, de se conformer aux droits de propriété intellectuelle, de garantir l’exactitude du contenu généré, ainsi que sa conformité aux « valeurs socialistes fondamentales » (ici affleure l’État autoritaire !), de respecter l’ensemble des droits d’autrui, d’effectuer et produire une évaluation de sécurité, de rendre vérifiable l’identité des sources, d’obtenir le consentement des personnes dont les données sont utilisées, de « tatouer » les contenus (watermarks) afin de les rendre traçables.

Aux Etats-Unis, les initiatives sont nombreuses. L’Administration Biden-Harris a annoncé, en mai 2023, de nouvelles mesures pour « promouvoir une innovation responsable » en matière d’I.A., visant à « protéger les droits et la sécurité des Américains ». Ces mesures comprennent notamment la création d’une plateforme publique de test de l’I.A. générative, ou encore des lignes directrices pour l’utilisation de celle-ci par les services gouvernementaux. La Maison Blanche a par ailleurs publié une « charte des droits de l’I.A. » (Blueprint for an AI bill of rights).

Le NIST (National Institute of Standards and Technology) a dressé une carte de gestion des risques, conçu un test d’acceptabilité des systèmes de reconnaissance faciale, ainsi qu’une méthode de traitement des biais cognitifs, à laquelle ont aussi adhéré en avril 2023 la FTC (Federal Trade Commission) le DOJ (Department of Justice), l’EEOC (Equal Employment Opportunity Commission) et le CFPB (Consumer Financial Protection Bureau). La NTIA (National Telecommunications and Information Administration) a également défini une politique de responsabilité en matière d’A.I. (IA accountability policy).

Un rapport de la NAIRRTF (National Artificial Intelligence Research Resource Task Force), datant de janvier 2023, propose une curation au niveau fédéral des bases de données servant à entraîner et tester les I.A. génératives. Enfin, aux niveaux des États et des municipalités, par exemple à Washington, des lois locales réglementent la reconnaissance faciale.

En Europe, deux textes sont en cours d’élaboration, un Règlement de portée générale sur l’I.A. (A.I. Act) et une Directive spécifique sur les questions de responsabilité (A.I. liability directive). Le principe de régulation européenne de l’I.A. repose sur un étagement des risques, une application à haut risque réclamant une certification de sécurité labellisée « CE ». Une I.A. générative à usages multiples doit notamment satisfaire à cette garantie, dès lors qu’elle est intégrée dans une application jugée à haut risque. Les exigences de conformité seront établies sur le fondement d’une évaluation préalable des risques, d’un plan de gestion de ces risques, et de contrôles humains. Une harmonisation des standards de sécurité est souhaitée. Pour les applications à haut risque, par exemple dans le domaine de la justice, des prescriptions supplémentaires devraient prévoir le dévoilement des données utilisées par l’I.A. et la démonstration de l’existence d’un lien de causalité entre la requête d’entrée et le résultat fourni en sortie.

Les faiblesses de cette approche européenne résident dans le caractère en partie arbitraire de la classification étagée des risques, dans l’incapacité structurelle à traiter un cygne noir – puisque la méthodologie de gestion des risques peut uniquement prendre en compte des risques pré-identifiés –, et dans la capacité douteuse de la certification CE à véritablement garantir le respect de certains droits fondamentaux.

Les contours d’une régulation de l’I.A. en France

D’après Winston Maxwell, coordinateur du programme « Éthique opérationnelle de l’I.A. » à Telecom Paris, voici comment pourrait opérer une régulation de l’I.A en France, en phase avec le dispositif européen (Maxwell, 2023).

S’agissant tout d’abord de la masse des risques de degré 1 ou  « maux ordinaires de l’I.A. », tels que la discrimination, l’atteinte à la vie privée, le manque de transparence et d’explicabilité, la manipulation des consommateurs, les erreurs logicielles, l’absence d’intervention humaine, les impacts négatifs sur l’emploi ou sur l’environnement, les atteintes ponctuelles aux droits fondamentaux, etc., quatre textes fondateurs offriront au régulateur une panoplie complète de remèdes adaptés : le Règlement AI Act, la Directive A.I. Liability Act, le RGPD (Règlement général sur la protection des données) et le DSA (Digital Services Act).

Cette régulation « ordinaire » devra néanmoins se montrer anticipative et agile, afin de déjouer le fameux dilemme de Collingridge, selon lequel il est à la fois difficile de savoir ex ante quoi et comment réguler, avant d’avoir expérimenté une technologie, et inefficace de réguler ex post, une fois les dommages causés (Collingridge, 1980). Par ailleurs, comme aux Etats-Unis la régulation pourra s’appliquer en premier aux services gouvernementaux, à travers les pratiques publiques d’achats et de sous-traitance.

S’agissant ensuite des risques de degré 2, liés à la désinformation (hors atteinte aux intérêts supérieurs de la Nation), la régulation devrait s’attacher à identifier les hôtes des contenus litigieux et à leur imposer des obligations de détection et de blocage, en s’appuyant éventuellement sur une extension du DSA. Elle devrait également exiger des tests réalisés par des experts indépendants et un marquage numérique des contenus (watermarking).

S’agissant enfin des risques de degré 3, cygne noir ou instabilité systémique susceptibles de compromettre la sécurité et la souveraineté nationales, des dispositions spécifiques devront être arrêtées. Premièrement, prévoir une « exception de sécurité nationale » à la régulation ordinaire, sur le modèle de l’exception des OIV (Organismes d’importance vitale) en matière de cybersécurité. Deuxièmement, mettre en place des ressources de calcul et des bases de données protégées, à la manière de la NAIRRTF aux Etats-Unis (cf. supra). Troisièmement, activer des « red teams », cellules de réflexion réunissant des militaires, des experts scientifiques… et des auteurs de science-fiction, afin d’imaginer des menaces inédites échappant aux plans de gestion de risques ! Quatrièmement, instaurer auprès du Premier Ministre un « Comité d’évaluation des risques de sécurité nationale induits par l’I.A émergente », conjuguant les expertises des régulateurs de la cybersécurité (ANSSI), des données personnelles (CNIL), de la communication en ligne (ARCOM) et possiblement de la bioéthique (en raison de la similarité avec les risques liés aux manipulations génétiques). Cette instance serait assujettie au secret Défense et elle rendrait au Parlement un rapport d’activité annuel, comme tel est le cas pour la CNCTR (Commission nationale du contrôle des techniques de renseignement).

Jusqu’où iront les machines intelligentes ?

Certains entrevoient, dans l’appellation « intelligence artificielle » une dimension presque magique, voire divine. Comme si l’IA pouvait nous conduire au savoir parfait, total, dans la ligne du positivisme qui a régné au XIXème siècle. Or il ne faut pas perdre de vue que ce n’est pas l’IA qui nous conduit au savoir, mais plutôt nous qui conduisons l’IA à un ersatz de savoir, afin qu’elle puisse le mettre à notre service.

Il est cependant vrai que communiquer avec une intelligence artificielle conversationnelle  nous place dans une situation hybride et paradoxale dans laquelle nous sommes à la fois un sujet actif et un objet passif : d’un côté, nous utilisons un outil mis à notre disposition et, de l’autre, nous sommes en retour une matière pour cet outil, lui permettant de mettre en œuvre et de développer ses propres capacités. Jusqu’où celles-ci iront-elles ?

Dans la première partie de cet article, nous avons évoqué la différence entre apprendre et comprendre et noté comment une machine, à force d’apprendre à partir d’un gigantesque corpus encyclopédique, peut donner l’illusion qu’elle comprend. Mais elle ne comprend pas au sens où nous, nous comprenons, car, comme le fait très justement remarquer Luc Julia, le père du logiciel Siri, elle ne possède pas d’inné, pas d’instinct (Julia, 2020, 2022). Contrairement à nous, elle est donc incapable de conjuguer déduction et intuition dans la résolution d’un problème. Si, dans le futur, des I.A. deviennent aptes à se reproduire, c’est-à-dire à fabriquer et à entraîner d’autres I.A., alors cette barrière de l’instinct pourrait être en partie levée.

La machine finira-t-elle par dépasser son maître et en prendre le contrôle, ce que les transhumanistes nomment « point de singularité » ? Il ne semble guère sensé de le croire car un outil reste un outil, même s’il est artificiellement intelligent, et même si son intelligence devenait généraliste, en contraste avec la diversité d’intelligences artificielles spécialisées que nous connaissons aujourd’hui.

En revanche, se pose concrètement la question de la limite des effets de la technologie sur l’humain. À force de nous adjoindre le concours et le secours de machines, aboutirons-nous à un homme indéfiniment augmentable et réparable ? Même si les progrès rapides de la médecine, des biotechnologies et des nanotechnologies ouvrent clairement cette voie d’une quatrième révolution bio-industrielle, l’aspiration de l’homme ne saurait se réduire à devenir lui-même une machine, aussi parfaite soit-elle ! Une saine éthique devra veiller à ce que  les prothèses cybernétiques de demain ne créent pas une fracture sociale inacceptable et ne se développent pas à l’encontre d’une perspective résolument humaniste.

Après celle de la cognition, l’étape ultime pour une machine est celle de la conscience. Pourrait-elle prendre conscience de ce qu’elle accomplit, ou du moins nous en donner fortement l’impression ? L’I.A. est d’ores et déjà capable de reconnaître nos visages et d’y détecter nos humeurs, nos émotions… qu’elle est par conséquent aussi en mesure de simuler. Quant à les éprouver elle-même, cela est une autre affaire, quoique le psychologue Serge Tisseron n’hésite pas à évoquer la possibilité d’une empathie artificielle (Tisseron, 2022).

Plongeant dans la science-fiction en guise de conclusion, on pourrait imaginer configurer un réseau de neurones avec un étage conscient et un étage inconscient, gouverné par des mécanismes freudiens de déplacement de l’un vers l’autre. Qui sait, peut-être pourrait-on alors parler de la frustration d’une machine, du rêve d’une I.A., de la souffrance d’un robot, ainsi que nous y invitent des séries télévisées telles que Black Mirror ou Philip K. Dick’s electric dreams ? Et si la robotique parvenait à un tel degré de sophistication, on s’inquièterait très certainement de ce que l’I.A., jadis spécialisée et générative, devenue généraliste créative, créatrice et consciente, « n’éprouve  guère de scrupule » à violer sans vergogne les règles d’Asimov : (i) un robot ne peut porter atteinte à un humain ni le mettre en danger ; (ii) un robot doit obéir aux ordres d’un humain, sauf en cas de contradiction avec la règle précédente ; (iii) un robot doit protéger son existence, sauf en cas de contradiction avec l’une ou l’autre des deux règles précédentes. Pour peu que cette belle « moralité artificielle » ne s’effondre, la cybercriminalité pénétrera dans une autre dimension… celle que nous dévoile sans fard une saga comme Terminator !

 

Mots-clés : Intelligence artificielle générative – Grands modèles de langage – Réseaux de neurones – Apprentissage – Syntaxe – Sémantique – Révolution numérique – Régulation


Références

ACADÉMIE DES TECHNOLOGIES, avril 2023, Prouesses et limites de l’imitation artificielle de langages, les agents conversationnels intelligents dont ChatGPT, Avis de l’Académie.

ACADÉMIE DES TECHNOLOGIES, avril 2018, Renouveau de l’intelligence artificielle et de l’apprentissage automatique, Rapport de l’Académie.

BOMASANI, Rishi et alii, 2022, On the Opportunities and Risks of Foundation Models, Center for Research on Foundation Models (CRFM), Stanford Institute for Human Centered Artificial Intelligence (HAI).

BRONNER, Gérald, 2021, Apocalypse cognitive, Humensis.

COLLINGRIDGE, David, 1980, The Social Control of Technology, New York: St Martin’s Press; London: Pinter.

JEAN, Aurélie, 2019, De l’autre côté de la machine : voyage d’une scientifique au pays des algorithmes, Collection De Facto, Éditions de l’Observatoire.

JULIA, Luc, 2020, L’intelligence artificielle n’existe pas, J’ai Lu.

JULIA, Luc, 2022, On va droit dans le mur, First.

MAXWELL, Winston, 9 mai 2023, Regulation of Generative AI and Foundation Models, Présentation à l’Académie des technologies.

MAXWELL, Winston, 2020, Comment améliorer l’explicabilité et la responsabilité des algorithmes ? Les Cahiers Louis Bachelier (hal-02613141).

TALEB, Nassim, Nicholas, 2010, The Black Sawan : The Impact of the Highly Improbable, 2nd Edition (1st Edition 2007), London, Penguin.

TISSERON, Serge, 2022, Vivre dans les nouveaux mondes virtuels, concilier empathie et numérique, Dunod.

Nicolas Curien