On a beaucoup parlé ces derniers mois des expériences randomisées. L’automne dernier pour commencer, lorsque le prix Nobel d’économie a été attribué à Esther Duflo, Michael Kremer et Abhijit Banerjee. Plus récemment, en France quand, dans une conférence donnée le 13 février 2020, intitulée contre la méthode, le Pr Raoult affirmait « moi je nai jamais fait dessais randomisés […], faire ça sur des maladies infectieuses, ça na pas de sens ».

Les expériences randomisées

Quand on se demande l’effet d’un traitement (par rapport à un autre), la bonne méthode consiste à se poser la question « que se serait-il passé si la personne avait choisi lautre option ? » – ce que John Stuart Mill appelait la « méthode des différences ». On parle ici d’inférence causale car on ne peut pas savoir ce qu’aurait donné l’autre option qui n’a pas été retenue. L’effet causal d’une option, ou d’un traitement, n’est jamais observé car il s’agit de la différence potentielle entre deux alternatives. La méthode la plus simple consiste à prendre deux patients proches (à défaut d’être identiques), et de voir comment les deux répondent aux deux options, la proximité se mesurant en fonction de co-variables (comme l’âge, le genre, etc), et les patients n’ayant pas choisi les options proposées. Il y a trois points importants dans cette approche : (1) la notion de groupe de contrôle, autrement dit il faut qu’il y ait des personnes « non traitées » (2) la notion d’aveuglement, ou d’absence d’information, autrement dit, les patients ne doivent pas savoir quel traitement ils ont eu (3) la notion d’affectation aléatoire, autrement dit, le traitement doit être choisi de manière totalement indépendante des patients. Ce sont des points qui opposent fondamentalement les expériences randomisées aux données observationnelles, comme les oppose par exemple Paul Rosenbaum dans Observation and Experiment. Si la méthode d’expérience randomisée a été formalisée par Ronald Fisher en 1934, nous allons revenir ici sur deux moments importants dans l’histoire de cette méthodologie. Le premier concerne l’utilisation de la randomisation pour faire des tests autour de 1890, en particulier avec les travaux de Peirce puis Richet, sur le spiritualisme et la transmission de pensée (qui ont très probablement influencé Fisher). Et le second l’expérience qui a été menée en 1954 aux États-Unis pour tester l’efficacité d’un vaccin contre la polio (et qui montre au passage que faire des expériences randomisées dans un contexte de maladies infectieuses a tout son sens).

Peirce, Richet et le spiritualisme

L’utilisation de procédure randomisée est devenue populaire dans la seconde partie du XIXème siècle, en psychologie expérimentale, avec l’expérience dite de Peirce-Jastrow, présentée à l’Académie des Sciences, en 1884. Comme le note Stephen Stigler dans History of Statistics, « Peirce wanted to measure extremely subtle sensations, the perception of very small incremental weights. And he had a wonderful idea: a blind randomized experiment. In order to eliminate the biases attendant to factors such as which weight was lifted first, how the weights were arranged, or whether the subject knew which was which, Peirce worked with an assistant, Joseph Jastrow, who later had a distinguished career himself in psychology. (Fechner had experimented alone, with himself as both subject and assistant.) And Peirce employed an explicit device for randomizing the order of presentation, the order of placement. He prepared a special deck of cards for this purpose, and Peirce or Jastrow would shuffle and select a card, and prepare the weights, while the other, blind to these preparations, would be the experimental subject »[i].

Peirce avait travaillé sur la théorie des erreurs, en géodésie ou en astronomie, et il l’a utilisée en psychologie. Dans l’expérience menée avec Jastrow, une balance était présentée aux participants, mais ils n’en voyaient qu’une moitié, et ils devaient exercer des pressions, pour voir si le poids de l’autre côté avait changé. Il n’y avait aucun indice, à part la pression ressentie, pour savoir si un poids était ajouté ou enlevé. L’ordre était imposé par un jeu de cartes, visible seulement par l’expérimentateur : en tirant une carte rouge, l’utilisateur commençait à 1 kg, puis ajoutait un poids supplémentaire, avant de revenir à 1 kg. L’ordre était inversé en tirant une carte noire. Ils ont été les premiers à utiliser explicitement ce tirage aléatoire. D’autres expériences à la même époque disaient qu’il était important que les expériences soient faites dans un ordre irrégulier, comme l’expérience de Fullerton – Cattell de 1892, où il est dit « of course, the different  experiments in each series were made in an irregular order », mais rares étaient ceux qui expliquaient comment s’assurer de cette « irrégularité ».

A la même époque, le spiritisme, la télépathie et les médiums sont devenus très populaires. Et malgré des fraudes avérées, de nombreux scientifiques croyaient que les transferts de pensée étaient possibles. Lord Rayleigh par exemple a été un membre de la Society for Psychical Research (SPR), avec de nombreux autres physiciens de Cambridge, à la fin du XIXème siècle. Heny Sidgwick, grand penseur de l’utilitarisme (avec Jeremy Bentham et James Mill) qui publia son Methods of Ethics en 1874 fut le premier président de la SPR. Il serait dommage de ne pas mentionner l’American Society for Psychical Research, née à Cambridge (cette fois dans le Massachusetts) en 1884, présidée par l’économiste (et statisticien, connu pour avoir découvert la loi rendue célèbre par Frank Benford) Simon Newcomb. La société bostonienne était toutefois beaucoup plus sceptique que celle de Londres, sur les pouvoirs réels de la télépathie, qu’aucune statistique ne parvenait à valider. Peirce y a eu des échanges restés célèbres, en particulier avec Edmund Gurney, sur les faibles chances que les fantômes existent…

Mais c’est de France, étrangement, qu’est venue la première réflexion méthodologique afin de tester le bien-fondé de ces théories psychiques. Le docteur Charles Richet travailla beaucoup sur l’écriture automatique, et s’est formé auprès de Jean-Martin Charcot à l’hypnose et la psychanalyse, alors naissante. Il étudia la télépathie entre 1885 et 1890, publiant son premier article intitulé La suggestion mentale et le calcul des probabilités. « Nous avons essayé de procéder autrement, et d’étudier la suggestion comme un phénomène positif, soumis à des lois appréciables. Pour cela nous avons dû répéter et varier les expériences, et de plus employer une méthode qui est bien rarement en usage dans les sciences, la méthode des probabilités ». Richet proposa donc une longue séquence d’essais (2927 devinettes) à laquelle une dizaine de personnes participèrent, au cours de laquelle un expérimentateur tirait au hasard une carte à jouer et se concentrait sur elle pendant une courte période, après quoi une personne devait deviner la couleur de la carte. Alors qu’une réponse au hasard aurait dû donner lieu à un total de 732 bonnes réponses, il a observé 789 bonnes réponses[ii]. Ce faible écart était cohérent avec plusieurs études, publiées dans les Proceedings of the Society for Psychical Research, qui pensaient que les pouvoirs de télépathie étaient distribués dans l’ensemble de la population, mais avec une faible capacité. Le résultat de l’étude de Richet n’était pas spectaculaire, mais la procédure l’était. S’il a reproduit ses expériences plusieurs fois, toutes ont été négatives et il en déduisit que le calcul des probabilités ne devait pas être le bon outil[iii].

On peut aussi noter qu’en 1924, Ronald Fisher publiait un court article sur la télépathie, A Method of Scoring Coincidences in Tests with Playing Cards, preuve que le sujet était encore d’actualité presque 35 ans après. Et dix ans plus tard, il publiait The Design of Experiments, considéré comme l’ouvrage de référence en statistique sur les expériences aléatoires où, dans un contexte agricole, il suggère de diviser les champs en parcelles, selon des motifs géométriques, et de leur appliquer des traitements de façon aléatoire. L’importance de ce livre est rappelée dans The Lady Testing Tea, le délicieux livre de David Salsburg, dont le titre évoque Muriel Bristol, qui se vantait de pourvoir deviner si le thé ou le lait avait été versé en premier dans la tasse[iv]. Ronald Fisher tente des expériences randomisées, comme il le raconte dans son livre. Cette buveuse de thé devint « one of the two supporting pillars […] of the randomization analysis of experimental data« , pour reprendre l’expression de Debabrata Basu, dans Randomization Analysis of Experimental Data: The Fisher Randomization Test.

Le vaccin contre la polio de Jonas Salk

En 1954, plus de 400 000 enfants américains ont participé à une expérience randomisée pour quantifier les effets d’un vaccin, développé par Jonas Salk, pour prévenir la poliomyélite. En moins d’un an, cette expérience a permis de trancher définitivement la question, ce qui était une première pour une question de santé publique. Dans les États qui ont participé à l’étude, la participation n’était pas obligatoire. Un peu plus de 200 000 enfants, sélectionnés au hasard, ont eu accès au vaccin, alors qu’un nombre presque équivalent recevaient un placebo, qui était alors une solution d’eau salée. Et un peu plus de 300 000, bien qu’éligibles, n’ont pas participé. On pourrait se poser la question de l’éthique d’une telle procédure, consistant à donner de l’eau salée alors qu’ils auraient pu avoir le vaccin. Mais cette vision est faussée, car basée sur le résultat du test : à l’époque, personne ne savait si le vaccin était efficace et s’il n’aurait pas d’effets secondaires néfastes. Ce principe d’incertitude (Benjamin Freedman parlera d’équipoise) est souvent considéré comme un pré-requis éthique indispensable pour lancer une expérience. Dans l’échantillon ayant obtenu le vaccin (et les chiffres donnés par Paul Meier dans The biggest public health experiment ever: the 1954 field trial of the Salk poliomyelitis vaccine), 16 enfants sur 100 000 ont eu une polio paralysante, contre 57 dans le groupe avec le placebo. Statistiquement, une telle différence peut être jugée comme « significative ».

Pour l’anecdote, cette expérience randomisée n’était pas la solution envisagée initialement. La première idée était d’administrer le vaccin à tous les enfants de deuxième année d’école primaire, et d’utiliser les première et troisième années comme groupe témoin. Mais plusieurs chercheurs s’y sont opposés, notant que le passage de première en deuxième année se basait sur des notes, et que les meilleurs enfants (d’un point de vue scolaire) auraient accès au vaccin. Un autre souci est que si la variable de constitution des groupes était rendue publique, ceci entraînerait de la triche : les médecins qui vaccinaient connaissaient le niveau scolaire des enfants et leur opinion sur le fonctionnement des vaccins aurait pu avoir une influence sur les résultats, dans un sens ou dans l’autre, parfois simplement en encourageant certains enfants à ne pas participer à l’expérience. Dans la version randomisée, le choix de participer, ou pas, se faisait avant la constitution des groupes. La participation à l’expérience était liée à certaines variables (en particulier les mères dont le statut socio-économique était plus faible pensaient davantage que les vaccins étaient dangereux, et ont plus souvent retiré leurs enfants), mais l’affectation dans les groupes était complètement aléatoire : les deux groupes pouvaient être considérés comme comparables. Cette auto-sélection n’a causé aucun biais dans l’analyse, contrairement à ce qui se serait passé dans le cas non-randomisé. En fait, il est inutile de mettre un conditionnel, car certains Etats ont adopté cette seconde stratégie. Plus de 200 000 enfants de deuxième année ont été vaccinés (mais 125 000 enfants environ n’ont pas participé à l’expérience). L’ensemble des enfants de première et de troisième année ont participé à l’expérience, en tant que groupe témoin (non vaccinés). Dans le premier groupe, 17 cas de polio paralysante sur 100 000 ont été observés (chiffre comparable aux 16 cas dans le cas randomisé), mais seulement 46 cas dans le groupe supposé témoin. Sur 100 000 enfants, le test sauve 41 enfants selon l’étude randomisée, alors que l’autre prédisait 29, ce qui minimise les effets réels du test.

Cette première grande expérience randomisée a permis d’établir de manière non ambiguë l’efficacité du vaccin dans la prévention de la polio, et a été un premier pas important dans l’éradication de la maladie (dans les pays développés au moins). Oui, car la polio est une maladie infectieuse, et cette expérience a été une étape fondamentale dans la recherche scientifique, montrant l’importance de cette méthode quand elle est possible.

Depuis 60 ans, les études randomisées ont montré leur intérêt théorique. Mais la pratique a laissé apparaître de nombreux soucis éthiques, comme le rappelle Medical Nihilism de Jacob Stegenga. Pour qu’un médicament (ou disons un traitement) soit approuvé par la Food and Drug Administration (FDA) des États-Unis, il doit généralement y avoir deux essais cliniques randomisés qui suggèrent que le médicament est supérieur à un placebo. Sans aucune contrainte sur le nombre d’essais effectués. Comme les tests négatifs sont souvent non-publiés, cette pratique tend à surestimer les bienfaits d’un traitement, à cause d’un biais de publication. Plusieurs méta-analyses ont ainsi montré que de nombreuses études, appuyées par des essais randomisés, étaient malheureusement fausses.

 

Mots-clés : covid19 – randomisation – expérience – données – data – infection – histoire


[i] Traduction proposée par l’auteur : « Peirce voulait mesurer des sensations extrêmement subtiles, la perception de très petits poids supplémentaires. Et il a eu une idée merveilleuse : une expérience aléatoire en aveugle. Afin d’éliminer les biais liés à des facteurs tels que le choix du poids à soulever en premier, la disposition des poids ou la question de savoir si le sujet sait lequel est le bon, Peirce a travaillé avec un assistant, Joseph Jastrow, qui a ensuite fait une brillante carrière en psychologie (Fechner avait fait des expériences seul, avec lui-même comme sujet et assistant). Et Peirce utilisait un dispositif explicite pour randomiser l’ordre de placement. Il préparait un jeu de cartes dédié  à cet effet, et Peirce (ou Jastrow) mélangeait et sélectionnait une carte, et préparait les poids, tandis que l’autre, aveugle à ces préparations, était le sujet expérimental »

[ii] L’expérience est assez originale. La dizaine de participants (dont Charles Richet) alternait entre sujet et expérimentateur. Pour avoir un ordre de grandeur, si chaque participant a participé à 293 devinettes, chacun aurait dû avoir 73 bonnes réponses (en moyenne, en répondant au hasard) et ils ont eu en moyenne 79 bonnes réponses, ce qui correspond au quantile à 80 % de la loi binomiale de probabilité ¼ pour 293 essais.

[iii] Il est peut-être important de préciser que Charles Richet a eu le prix Nobel de Médecine en 1913 sur des travaux totalement différents (sur les chocs anaphylactiques), sans aucun rapport avec ses croyances sur la télépathie ou le spiritualisme, ou sur l’inutilité des probabilités.

[iv] Si la question peut sembler étrange, cette information est capitale pour déterminer la classe sociale d’une personne. L’expression “rather milk-in-first” désigne ainsi les personnes de la classe inférieure (comme le rappelle l’essai de Georges Orwell, publié dans A Nice Cup of Tea), la porcelaine de mauvaise qualité ayant tendance à se fissurer davantage si on commençait par verser le thé.