Une des premières leçons apprises une fois sorti de l’ENSAE est que les données venant du monde réel sont compliquées, bruitées et incomplètes. Tout l’opposé de ce que nous aimons en tant qu’analystes : nos années de formation mathématique nous poussent à modéliser des phénomènes complexes de manière abstraite. Le développement du machine learning pousse cette logique plus loin encore : une image, un texte ou un son n’est qu’une série de chiffres qui peuvent être digérés par les algorithmes. Cette abstraction, fort utile pour créer des modèles, fait trop vite oublier la complexité du phénomène sous-jacent. Quelques dizaines de variables ? XGBoost[1]. Une image ? Convolution Neural Networks. Du texte ? Réseaux récurrents et transformers. Ce phénomène a été amplifié par des plateformes comme Kaggle qui, pour des compétitions de Data Science, mettent à disposition de tous des données formatées et standardisées prêtes pour les modèles. Bien sûr, ces « datathlons » présentent de nombreux avantages pédagogiques et démocratisent l’accès aux données, mais iles introduisent aussi une distance bien dangereuse entre le data scientist et le problème à traiter. Nous savons tous au fond que le travail sur les données (le fameux features engineering[2]) est bien plus efficace que d’ajouter une nième couche à un réseau de neurones. Et pourtant, trop souvent, « l’expert(e) métier » est négligé, que ce soit le commercial qui écume les routes depuis 15 ans, la médecin de garde aux urgences toutes les nuits ou la linguiste polyglotte.

En particulier, les mondes de la médecine et de la biologie sont à la fois fascinants et effrayants : il y a un potentiel énorme pour l’IA, mais les données sont extrêmement compliquées et partielles, la « vérité terrain » est mal définie et la plupart du temps, la réponse des experts est « je ne sais pas ». S’ajoutent à cela les difficultés légales et éthiques d’accès aux données, ce qui transforme le domaine de l’Health Data Science en un champ de mines où trop peu de data scientists s’aventuraient… jusqu’à aujourd’hui. Dès le début de la pandémie, des bases de données sur la situation sanitaire ont été mises à disposition de la communauté scientifique : nombre de cas, nombre de tests, décès, hospitalisation… la liste n’en finit pas. C’était trop tentant : voyant ces datasets, tel des aventuriers arrivant sur une île vierge, nombre d’apprentis kaggleurs se sont précipités pour construire des modèles d’intelligence (très) artificielle. De la prédiction des taux d’infection et de la charge des hôpitaux à l’aide au diagnostic, il y a rapidement eu une abondance d’algorithmes publiés sur arXiv[3] (2 810 prépublications fin avril 2021 !). Certains auteurs oubliant que, quelques mois plus tôt, « corona » n’était pour eux qu’une marque de bière. Pour quel résultat ? Prenons une des pistes les plus prometteuses, les modèles de reconnaissance d’images se basant sur des radios ou des scanners : des chercheurs de l’Université de Cambridge ont passé en revue les algorithmes publiés en 2020 et ont conclu qu’aucun de ces modèles n’était utilisable en l’état par les médecins à cause « d’erreurs et de biais méthodologiques, de résultats impossibles à reproduire et de données de piètre qualité et mal traitées ». L’exemple des radios du thorax (très populaires pour le diagnostic du COVID-19) est particulièrement intéressant : il se trouve qu’un patient conscient et mobile se mettra debout dos à l’émetteur, tandis que pour des raisons pratiques, l’image d’un patient inconscient sera souvent celle d’un sujet allongé sur le dos. Dans ce cas, si l’on cherche à prédire la sévérité du diagnostic (COVID léger ou mise sous respirateur par exemple), l’algorithme risque en fait de se baser uniquement sur la position du patient et d’« apprendre » qu’une radio en position allongée est synonyme de forme grave (le patient étant trop mal en point pour se tenir debout). C’est un biais important pour ce type de données qui a été identifié, et peut être évité, en formant une équipe pluridisciplinaire associant des médecins et des data scientists.

Mais avant, il est légitime de penser que dans la situation actuelle, il vaut mieux trop de recherche que pas assez et que, finalement, toutes ces prépublications (bien que non vérifiées) ne font de mal à personne. Ce n’est pas si simple, le Professeur Madhukar Pai décrit très bien les risques de la « covidisation de la recherche » dans un éditorial édifiant publié dans Nature Medicine. Deux risques majeurs, et liés, sont à noter. Le premier est simplement de se tromper par manque d’expertise, ce qui n’affecte pas seulement l’étude en question, mais contribue à éroder la confiance du public dans la modélisation scientifique. En effet, quand ces modèles sont publiés dans la précipitation (et sans validation extérieure) sous forme de prépublications sur arXiv et promus sur LinkedIn, il existe un réel danger d’induire en erreur des lecteurs un peu rapides (quelle part du public fait la différence entre un article publié sur arXiv et une publication scientifique peer reviewed[4] ?). Puis, quand ces prédictions se révèlent fausses, c’est l’ensemble de la communauté scientifique qui en pâtit. Le deuxième risque est de délaisser d’autres crises pressantes telles que le changement climatique, la recherche contre le cancer etc. Il est important de se demander si faire pivoter des scientifiques vers le COVID-19 ne serait pas, dans certains cas, une perte de temps et d’argent. Enfin, s’ajoute un risque encore plus grand peut-être, celui de relâcher les exigences éthiques (déjà assez faibles) imposées aux algorithmes pour faire face à l’urgence de la situation. Nul doute qu’une telle précipitation affecterait de manière disproportionnée les populations les plus fragiles ou marginalisées. Dans une série d’articles publiés dans BMJ (ici et ici), Dr Stephen Cave, qui dirige le Leverhulme Centre for the Future of Intelligence à l’Université de Cambridge, met en garde contre des algorithmes cliniques quasi systématiquement biaisés contre ceux qui ont recours aux services de santé le moins souvent (et donc génèrent moins de données). Il prend comme exemple la débâcle des vaccins à Stanford et l’incapacité des algorithmes à lire correctement le niveau d’oxygène sur des couleurs de peau foncées.

Cela veut-il dire que nous devrions ignorer la pandémie actuelle ? Bien sûr que non ! Les data scientists ont toute leur place dans la bataille, au sein d’équipes plus larges incluant des épidémiologistes, des médecins, des biologistes et bien d’autres. Le machine learning a en effet déjà montré de belles promesses dans la lutte contre le COVID-19, par exemple dans l’organisation d’essais cliniques en créant des groupes contrôle « virtuels » qui permettent d’agréger les données de nombreux essais cliniques différents, d’optimiser le recrutement de nouveaux participants et le déroulement des différentes étapes. Du côté du diagnostic cette fois, une équipe (là encore) composée de cliniciens et de data scientists de l’université d’Oxford a développé un test permettant de prédire si un patient arrivant aux urgences présente ou non un risque d’être positif au COVID19, ce qui permet de traiter les patients « non-COVID » plus rapidement et d’optimiser les ressources disponibles.

Engagez-vous, rengagez-vous !

En tant que data scientists, nous avons l’opportunité d’enrichir les modèles existants avec de nouveaux outils, d’optimiser la prise en charge des patients ou encore d’assister les cliniciens dans leurs diagnostics, mais pas tout seuls. Donc que pouvez-vous faire ? A court terme, offrez vos services à des équipes de recherche qui pourraient en avoir besoin. A long terme, développez une double compétence, essayez, vous aussi, de devenir un expert métier. Et pourquoi pas choisir la santé ? Les applications sont sans fin, mais cela fera peut-être l’objet d’un autre article.

Cet article a été initialement publié le 26 juillet 2021.


[1] Une implémentation efficace de l’algorithme de gradient boosting, très populaire lors des compétitions de Data Science.

[2] Le fait de créer de nouvelles variables grâce à une connaissance du domaine d’application.

[3] Une plateforme de prépublication (c’est-à-dire sans validation extérieure) où tout le monde peut déposer un article pour le rendre disponible en attendant qu’il soit vérifié et publié dans une revue scientifique.

[4] C’est-à-dire revue et validée par des experts

Loïc Lannelongue
Les derniers articles par Loïc Lannelongue (tout voir)