{"id":6075,"date":"2021-09-13T07:10:23","date_gmt":"2021-09-13T05:10:23","guid":{"rendered":"http:\/\/variances.eu\/?p=6075"},"modified":"2021-09-13T11:49:57","modified_gmt":"2021-09-13T09:49:57","slug":"data-scientists-deconnectes-machine-learning-et-covid-19","status":"publish","type":"post","link":"https:\/\/variances.eu\/?p=6075","title":{"rendered":"Data scientists d\u00e9connect\u00e9s &#8211; Machine Learning et COVID-19"},"content":{"rendered":"<p>Une des premi\u00e8res le\u00e7ons apprises une fois sorti de l&rsquo;ENSAE est que les donn\u00e9es venant du monde r\u00e9el sont compliqu\u00e9es, bruit\u00e9es et incompl\u00e8tes. Tout l&rsquo;oppos\u00e9 de ce que nous aimons en tant qu&rsquo;analystes\u00a0: nos ann\u00e9es de formation math\u00e9matique nous poussent \u00e0 mod\u00e9liser des ph\u00e9nom\u00e8nes complexes de mani\u00e8re abstraite. Le d\u00e9veloppement du machine learning pousse cette logique plus loin encore : une image, un texte ou un son n&rsquo;est qu&rsquo;une s\u00e9rie de chiffres qui peuvent \u00eatre dig\u00e9r\u00e9s par les algorithmes. Cette abstraction, fort utile pour cr\u00e9er des mod\u00e8les, fait trop vite oublier la complexit\u00e9 du ph\u00e9nom\u00e8ne sous-jacent. Quelques dizaines de variables ? XGBoost<a href=\"#_ftn1\" name=\"_ftnref1\">[1]<\/a>. Une image ? <em>Convolution Neural Networks<\/em>. Du texte ? R\u00e9seaux r\u00e9currents et <em>transformers<\/em>. Ce ph\u00e9nom\u00e8ne a \u00e9t\u00e9 amplifi\u00e9 par des plateformes comme <span style=\"text-decoration: underline;\"><span style=\"color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/www.kaggle.com\/\">Kaggle<\/a><\/span><\/span> qui, pour des comp\u00e9titions de Data Science, mettent \u00e0 disposition de tous des donn\u00e9es format\u00e9es et standardis\u00e9es pr\u00eates pour les mod\u00e8les. Bien s\u00fbr, ces \u00ab\u00a0datathlons\u00a0\u00bb pr\u00e9sentent de nombreux avantages p\u00e9dagogiques et d\u00e9mocratisent l&rsquo;acc\u00e8s aux donn\u00e9es, mais iles introduisent aussi une distance bien dangereuse entre le data scientist et le probl\u00e8me \u00e0 traiter. Nous savons tous au fond que le travail sur les donn\u00e9es (le fameux <em>features engineering<\/em><a href=\"#_ftn2\" name=\"_ftnref2\">[2]<\/a>) est bien plus efficace que d\u2019ajouter une ni\u00e8me couche \u00e0 un r\u00e9seau de neurones. Et pourtant, trop souvent, \u00ab\u00a0l&rsquo;expert(e) m\u00e9tier\u00a0\u00bb est n\u00e9glig\u00e9, que ce soit le commercial qui \u00e9cume les routes depuis 15 ans, la m\u00e9decin de garde aux urgences toutes les nuits ou la linguiste polyglotte.<\/p>\n<p>En particulier, les mondes de la m\u00e9decine et de la biologie sont \u00e0 la fois fascinants et effrayants\u00a0: il y a un potentiel \u00e9norme pour l&rsquo;IA, mais les donn\u00e9es sont extr\u00eamement compliqu\u00e9es et partielles, la \u00ab\u00a0v\u00e9rit\u00e9 terrain\u00a0\u00bb est mal d\u00e9finie et la plupart du temps, la r\u00e9ponse des experts est \u00ab\u00a0je ne sais pas\u00a0\u00bb. S\u2019ajoutent \u00e0 cela les difficult\u00e9s l\u00e9gales et \u00e9thiques d&rsquo;acc\u00e8s aux donn\u00e9es, ce qui transforme le domaine de l&rsquo;<em>Health Data Science<\/em> en un champ de mines o\u00f9 trop peu de data scientists s\u2019aventuraient&#8230; jusqu&rsquo;\u00e0 aujourd&rsquo;hui. D\u00e8s le d\u00e9but de la pand\u00e9mie, des bases de donn\u00e9es sur la situation sanitaire ont \u00e9t\u00e9 mises \u00e0 disposition de la communaut\u00e9 scientifique : nombre de cas, nombre de tests, d\u00e9c\u00e8s, hospitalisation&#8230; la liste n&rsquo;en finit pas. C&rsquo;\u00e9tait trop tentant : voyant ces datasets, tel des aventuriers arrivant sur une \u00eele vierge, nombre d&rsquo;apprentis <em>kaggleurs<\/em> se sont pr\u00e9cipit\u00e9s pour construire des mod\u00e8les d&rsquo;intelligence (tr\u00e8s) artificielle. De la pr\u00e9diction des taux d&rsquo;infection et de la charge des h\u00f4pitaux \u00e0 l&rsquo;aide au diagnostic, il y a rapidement eu une abondance d&rsquo;algorithmes publi\u00e9s sur arXiv<a href=\"#_ftn3\" name=\"_ftnref3\">[3]<\/a> (2 810 pr\u00e9publications fin avril 2021 !). Certains auteurs oubliant que, quelques mois plus t\u00f4t, \u00ab\u00a0corona\u00a0\u00bb n&rsquo;\u00e9tait pour eux qu&rsquo;une marque de bi\u00e8re. Pour quel r\u00e9sultat ? Prenons une des pistes les plus prometteuses, les mod\u00e8les de reconnaissance d&rsquo;images se basant sur des radios ou des scanners : des <span style=\"text-decoration: underline;\"><span style=\"color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/www.cam.ac.uk\/research\/news\/machine-learning-models-for-diagnosing-covid-19-are-not-yet-suitable-for-clinical-use\">chercheurs de l&rsquo;Universit\u00e9 de Cambridge<\/a><\/span><\/span> ont pass\u00e9 en revue les algorithmes publi\u00e9s en 2020 et ont conclu qu&rsquo;aucun de ces mod\u00e8les n&rsquo;\u00e9tait utilisable en l&rsquo;\u00e9tat par les m\u00e9decins \u00e0 cause \u00ab\u00a0d&rsquo;erreurs et de biais m\u00e9thodologiques, de r\u00e9sultats impossibles \u00e0 reproduire et de donn\u00e9es de pi\u00e8tre qualit\u00e9 et mal trait\u00e9es\u00a0\u00bb. L\u2019exemple des radios du thorax (tr\u00e8s populaires pour le diagnostic du COVID-19)\u00a0est particuli\u00e8rement int\u00e9ressant : il se trouve qu\u2019un patient conscient et mobile se mettra debout dos \u00e0 l\u2019\u00e9metteur, tandis que pour des raisons pratiques, l\u2019image d\u2019un patient inconscient sera souvent celle d\u2019un sujet allong\u00e9 sur le dos. Dans ce cas, si l\u2019on cherche \u00e0 pr\u00e9dire la s\u00e9v\u00e9rit\u00e9 du diagnostic (COVID l\u00e9ger ou mise sous respirateur par exemple), l\u2019algorithme risque en fait de se baser uniquement sur la position du patient et d\u2019\u00ab\u00a0apprendre\u00a0\u00bb qu\u2019une radio en position allong\u00e9e est synonyme de forme grave (le patient \u00e9tant trop mal en point pour se tenir debout). C\u2019est un biais important pour ce type de donn\u00e9es qui a \u00e9t\u00e9 identifi\u00e9, et peut \u00eatre \u00e9vit\u00e9, en formant une \u00e9quipe pluridisciplinaire associant des m\u00e9decins et des data scientists.<\/p>\n<p>Mais avant, il est l\u00e9gitime de penser que dans la situation actuelle, il vaut mieux trop de recherche que pas assez et que, finalement, toutes ces pr\u00e9publications (bien que non v\u00e9rifi\u00e9es) ne font de mal \u00e0 personne. Ce n&rsquo;est pas si simple, le Professeur Madhukar Pai d\u00e9crit tr\u00e8s bien les risques de la \u00ab\u00a0covidisation de la recherche\u00a0\u00bb dans <span style=\"text-decoration: underline;\"><span style=\"color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/www.nature.com\/articles\/s41591-020-1015-0\">un \u00e9ditorial \u00e9difiant publi\u00e9 dans <em>Nature Medicine<\/em><\/a><\/span><\/span>. Deux risques majeurs, et li\u00e9s, sont \u00e0 noter. Le premier est simplement de se tromper par manque d&rsquo;expertise, ce qui n\u2019affecte pas seulement l\u2019\u00e9tude en question, mais contribue \u00e0 \u00e9roder la confiance du public dans la mod\u00e9lisation scientifique. En effet, quand ces mod\u00e8les sont publi\u00e9s dans la pr\u00e9cipitation (et sans validation ext\u00e9rieure) sous forme de pr\u00e9publications sur arXiv et promus sur LinkedIn, il existe un r\u00e9el danger d&rsquo;induire en erreur des lecteurs un peu rapides (quelle part du public fait la diff\u00e9rence entre un article publi\u00e9 sur arXiv et une publication scientifique <em>peer reviewed<a href=\"#_ftn4\" name=\"_ftnref4\"><strong>[4]<\/strong><\/a><\/em> ?). Puis, quand ces pr\u00e9dictions se r\u00e9v\u00e8lent fausses, c&rsquo;est l&rsquo;ensemble de la communaut\u00e9 scientifique qui en p\u00e2tit. Le deuxi\u00e8me risque est de d\u00e9laisser d\u2019autres crises pressantes telles que le changement climatique, la recherche contre le cancer etc. Il est important de se demander si faire pivoter des scientifiques vers le COVID-19 ne serait pas, dans certains cas, une perte de temps et d\u2019argent. Enfin, s&rsquo;ajoute un risque encore plus grand peut-\u00eatre, celui de rel\u00e2cher les exigences \u00e9thiques (d\u00e9j\u00e0 assez faibles) impos\u00e9es aux algorithmes pour faire face \u00e0 l&rsquo;urgence de la situation. Nul doute qu\u2019une telle pr\u00e9cipitation affecterait de mani\u00e8re disproportionn\u00e9e les populations les plus fragiles ou marginalis\u00e9es. Dans une s\u00e9rie d&rsquo;articles publi\u00e9s dans BMJ (<span style=\"text-decoration: underline;\"><span style=\"color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/www.bmj.com\/content\/372\/bmj.n304\">ici<\/a><\/span><\/span> et <span style=\"text-decoration: underline;\"><span style=\"color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/www.bmj.com\/content\/372\/bmj.n364\">ici<\/a><\/span><\/span>), Dr Stephen Cave, qui dirige le <em>Leverhulme Centre for the Future of Intelligence<\/em> \u00e0 l&rsquo;Universit\u00e9 de Cambridge, met en garde contre des algorithmes cliniques quasi syst\u00e9matiquement biais\u00e9s contre ceux qui ont recours aux services de sant\u00e9 le moins souvent (et donc g\u00e9n\u00e8rent moins de donn\u00e9es). Il prend comme exemple <span style=\"text-decoration: underline;\"><span style=\"color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/www.technologyreview.com\/2020\/12\/21\/1015303\/stanford-vaccine-algorithm\/\">la d\u00e9b\u00e2cle des vaccins \u00e0 Stanford<\/a><\/span><\/span> et l&rsquo;incapacit\u00e9 des algorithmes \u00e0 lire correctement le niveau d&rsquo;oxyg\u00e8ne sur des couleurs de peau fonc\u00e9es.<\/p>\n<p>Cela veut-il dire que nous devrions ignorer la pand\u00e9mie actuelle ? Bien s\u00fbr que non ! Les data scientists ont toute leur place dans la bataille, au sein d&rsquo;\u00e9quipes plus larges incluant des \u00e9pid\u00e9miologistes, des m\u00e9decins, des biologistes et bien d\u2019autres. Le machine learning a en effet d\u00e9j\u00e0 montr\u00e9 de belles promesses dans la lutte contre le COVID-19, par exemple dans <span style=\"text-decoration: underline;\"><span style=\"color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/www.tandfonline.com\/doi\/full\/10.1080\/19466315.2020.1797867\">l&rsquo;organisation d&rsquo;essais cliniques<\/a><\/span><\/span> en cr\u00e9ant des groupes contr\u00f4le \u00ab\u00a0virtuels\u00a0\u00bb qui permettent d&rsquo;agr\u00e9ger les donn\u00e9es de nombreux essais cliniques diff\u00e9rents, d\u2019optimiser le recrutement de nouveaux participants et le d\u00e9roulement des diff\u00e9rentes \u00e9tapes. Du c\u00f4t\u00e9 du diagnostic cette fois, une \u00e9quipe (l\u00e0 encore) compos\u00e9e de cliniciens et de data scientists de l&rsquo;universit\u00e9 d&rsquo;Oxford a d\u00e9velopp\u00e9 un test permettant de pr\u00e9dire si un patient arrivant aux urgences <span style=\"text-decoration: underline;\"><span style=\"color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/www.ox.ac.uk\/news\/science-blog\/new-ai-test-identifies-covid-19-within-one-hour-emergency-departments\">pr\u00e9sente ou non un risque d&rsquo;\u00eatre positif au COVID19<\/a><\/span><\/span>, ce qui permet de traiter les patients \u00ab\u00a0non-COVID\u00a0\u00bb plus rapidement et d&rsquo;optimiser les ressources disponibles.<\/p>\n<h3>Engagez-vous, rengagez-vous !<\/h3>\n<p>En tant que data scientists, nous avons l&rsquo;opportunit\u00e9 d\u2019enrichir\u00a0les mod\u00e8les existants avec de nouveaux outils, d\u2019optimiser la prise en charge des patients ou encore d\u2019assister les cliniciens dans leurs diagnostics, mais pas tout seuls. Donc que pouvez-vous faire ? A court terme, offrez vos services \u00e0 des \u00e9quipes de recherche qui pourraient en avoir besoin. A long terme, d\u00e9veloppez une double comp\u00e9tence, essayez, vous aussi, de devenir un expert m\u00e9tier. Et pourquoi pas choisir la sant\u00e9 ? Les applications sont sans fin, mais cela fera peut-\u00eatre l&rsquo;objet d&rsquo;un autre article.<\/p>\n<p><em>Cet article a \u00e9t\u00e9 initialement publi\u00e9 le 26 juillet 2021.<\/em><\/p>\n<hr \/>\n<p><em><a href=\"#_ftnref1\" name=\"_ftn1\">[1]<\/a> Une impl\u00e9mentation efficace de l\u2019algorithme de gradient boosting, tr\u00e8s populaire lors des comp\u00e9titions de Data Science.<\/em><\/p>\n<p><em><a href=\"#_ftnref2\" name=\"_ftn2\">[2]<\/a> Le fait de cr\u00e9er de nouvelles variables gr\u00e2ce \u00e0 une connaissance du domaine d\u2019application.<\/em><\/p>\n<p><em><a href=\"#_ftnref3\" name=\"_ftn3\">[3]<\/a> Une plateforme de pr\u00e9publication (c\u2019est-\u00e0-dire sans validation ext\u00e9rieure) o\u00f9 tout le monde peut d\u00e9poser un article pour le rendre disponible en attendant qu\u2019il soit v\u00e9rifi\u00e9 et publi\u00e9 dans une revue scientifique.<\/em><\/p>\n<p><em><a href=\"#_ftnref4\" name=\"_ftn4\">[4]<\/a> C\u2019est-\u00e0-dire revue et valid\u00e9e par des experts<\/em><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Une des premi\u00e8res le\u00e7ons apprises une fois sorti de l&rsquo;ENSAE est que les donn\u00e9es venant du monde r\u00e9el sont compliqu\u00e9es, bruit\u00e9es et incompl\u00e8tes. Tout l&rsquo;oppos\u00e9 de ce que nous aimons en tant qu&rsquo;analystes\u00a0: nos ann\u00e9es de formation math\u00e9matique nous poussent \u00e0 mod\u00e9liser des ph\u00e9nom\u00e8nes complexes de mani\u00e8re abstraite. Le d\u00e9veloppement du machine learning pousse cette [&hellip;]<\/p>\n","protected":false},"author":370,"featured_media":6079,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_et_pb_use_builder":"","_et_pb_old_content":"","_et_gb_content_width":"","_exactmetrics_skip_tracking":false,"footnotes":""},"categories":[99,120],"tags":[],"class_list":["post-6075","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-big-data","category-sante","et-has-post-format-content","et_post_format-et-post-format-standard"],"_links":{"self":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/6075","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/users\/370"}],"replies":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=6075"}],"version-history":[{"count":0,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/6075\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/media\/6079"}],"wp:attachment":[{"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=6075"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=6075"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=6075"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}