Voici un livre à mettre entre les mains de tout statisticien ou data scientist qui, outre l’excellente technicité qu’ils ont acquise, doivent de plus avoir un recul et une hauteur de vue sur leur domaine. Tout lecteur de statistiques (c’est-à-dire tout le monde) y trouve aussi un intérêt. L’auteur « appartient à la section philosophie du CNRS et est actuellement membre de l’Institut d’histoire et de philosophie des sciences et des techniques (IHPST). Après avoir enseigné les mathématiques à l’École polytechnique, il enseigne aujourd’hui la philosophie dans le master de philosophie de l’université Paris 1 et au sein de l’École de droit de la Sorbonne » (source Wikipedia). L’auteur plonge le développement de la statistique dans le développement de la société, en se focalisant sur la France, la Grande-Bretagne et l’Allemagne.

Combien sommes-nous ?

Au début était la géométrie, certes, mais nombre de savants pensaient que pour obtenir de la précision dans leurs travaux, il leur fallait des nombres. Et la statistique ne s’est pas développée de manière autonome mais en même temps que les interrogations « dans le champ politique, économique et social »[1]. Même si l’auteur place le 19e siècle au coeur de son étude, il débute par les trois siècles précédents qui ont permis l’explosion qui a suivi.

Dès le 16e siècle et pour des motivations qui ont persisté, Jean Bodin avançait que le roi,  donc l’Etat, se devait de connaître son territoire, non seulement géographiquement mais aussi les populations et le bâti. Il en allait de la pérennité du royaume de dénombrer afin de pouvoir lever l’impôt, connaître les ressources alimentaires, savoir de combien d’hommes en armes le monarque pouvait disposer : c’est le règne de l’arithmétique politique, « l’art de raisonner, par les nombres, sur les questions relatives au gouvernement » (C. Davenant). Même si le mot « statistique » n’apparaît qu’à la fin du 18e siècle, est-il besoin de rappeler sa proximité avec le mot « Etat » et « état (des lieux) »? Il s’agit bien d’une intrusion de la puissance publique dans l’intimité des familles. Les enquêtes se succèdent sans beaucoup de succès en raison des résistances locales, notamment du clergé, et de l’insuffisance du réseau administratif. Elles sont diligentées par les puissants du royaume, preuve qu’il faut du pouvoir pour les mener. Les données sont disparates, pas forcément fiables et de nombreux « économistes » regrettent l’absence de cadre théorique dans leur utilisation.

Le grand sujet du 18e siècle est le dénombrement des « hommes ». L’idée de départ est que la puissance d’un royaume se mesure par sa population, sans qu’il y ait accord sur le sens de causalité. Prospérité entraîne-t-elle population nombreuse, ou bien l’inverse ? Toujours est-il que personne ne connaissait la population, encore moins son évolution. Montesquieu estime que la population est beaucoup moins nombreuse que dans l’Antiquité (idéal de prospérité) et bien plus faible que sous Charlemagne. L’idée du recensement progresse, malgré sa mauvaise réputation : les textes religieux l’associent le plus souvent à des calamités; les recensements locaux avaient lieu après les épidémies, afin de compter les survivants; la menace d’imposition supplémentaire comme déjà signalé; l’évidence que les trois ordres (noblesse, clergé, tiers-Etat) sont disproportionnés en nombre et pourtant dotés d’une voix chacun lors des Etats généraux.

Les premiers recensements dignes de ce nom n’auront lieu en France qu’au 19e siècle : la Révolution est passée par là, uniformisant les pratiques et modifiant les contours des territoires. Mais dès le 18e siècle, grâce à des méthodes d’échantillonnage, grâce à l’enregistrement des naissances dans les paroisses, les estimations de la population française sont fournies. Les études postérieures montrèrent que la population française étaient en général sous-estimées .

La société des individus

La Révolution française chamboule tout. Les ordres disparaissent, « la nation est l’assemblage des individus » (Seyes), « il n’y a plus que l’intérêt particulier de chaque individu et l’intérêt général » (Le Chapelier). Le concept de majorité émerge, le nombre devient « principe d’organisation ».

Durant le 19e siècle, la population européenne double, malgré une forte émigration, passant de 200 à 400 millions (la progression fut plus faible en France), permise par la hausse des rendements agricoles. Les communautés ont disparu, chaque individu compte et leur assemblage forme une société, affirme l’auteur. Mais quelle est-elle au fond ? C’est en regard de cette question que le formidable essor de la statistique durant ce siècle doit s’analyser. Les nombres doivent servir à expliquer la complexité de la société ainsi que son évolution même si les statistiques font rapidement l’objet de critiques[2]. On relève aussi déjà que le champ des statistiques et les nomenclatures utilisées orientent les analyses et les résultats. Notons également que de nombreux tenants de l’économie politique s’opposent à l’extension de la statistique : à quoi servent les chiffres si on n’a pas de bonne théorie ? « La connaissance des faits sans la connaissance des rapports qui les lient, n’est que le savoir non digéré d’un commis de bureau » (J-B Say). Sans parler du fait que les économistes libéraux voient d’un mauvais oeil tout interventionnisme de l’Etat.

Mais le mouvement est définitivement lancé : il ne s’agit plus de construire des tableaux à l’usage du prince exclusivement mais de dire à tout un chacun de quoi la société, le pays sont faits. A la connaissance et la représentation du réel s’ajoute pour le gouvernement la justification de sa politique avec des arguments chiffrés, visant la scientificité et chassant l’arbitraire. Ne négligeons pas non plus l’aspect contrôle de la population (du berceau à la tombe). L‘heure des recensements était venu. Des bureaux de statistiques se créent dans les ministères (Commerce, Intérieur), la Statistique générale de la France, ancêtre de l’INSEE, est créée en 1840. Des enquêtes agricoles, industrielles, douanières, sociales, fiscales sont menées. Des Sociétés de statiques, locales et nationales, apparaissent dans la plupart des pays européens, visant à l’exhaustivité des « populations » étudiées.

Ce n’est que vers la fin du 18e siècle que les tableaux, comme nous les entendons aujourd’hui, font leur apparition. Les schémas, notamment sous la forme de cartes géographiques dont les parties sont coloriées différemment selon la valeur prise par un critère, ou les « camemberts » n’apparaissent qu’au 19e siècle. Alors que la notion de corrélation n’existe pas encore, la juxtaposition de deux cartes de la France, l’une présentant le niveau d’instruction, l’autre le taux de criminalité (A. Balbi) fait grande impression.

Statistiques et loi sur les pauvres

Les statistiques interviennent dans le débat sur l’aide à apporter ou non aux pauvres. Les théories de Malthus battent leur plein : la démographie est galopante alors même que la production agricole ne progresse plus lentement. Il n’est donc pas étonnant qu’il y ait tant de pauvres. Faut-il les aider au risque de voir leur population croître ? Alors même que l’industrialisation devait produire une société d’abondance, le paupérisme est général dans les villes, la misère est partout. Il est donc essentiel de mesurer le phénomène.

Depuis le 17e siècle existait en Grande-Bretagne une législation concernant les pauvres. Les paroisses doivent s’en occuper, une taxe est levée pour les aider. Malgré les critiques, la loi est renforcée à la fin du 18e siècle en raison des guerres napoléoniennes et par crainte de contagion révolutionnaire. Un complément de salaire est prévu avec l’effet pervers de pousser les employeurs à baisser les salaires, les travailleurs se retrouvant dépendant de l’assistance. SI certains tenants de l’économie sociale (R. Owen) voient dans le paupérisme la conséquence de l’économie libérale, les économistes libéraux pensent qu’il est causé par la paresse des ouvriers qui ne travaillent que ce qui est juste suffisant à leur subsistance. A. Smith, après avoir fustigé les salaires trop élevés, change d’avis et soutient au contraire que des salaires décents sont profitables à la collectivité.

Mais le « populationnisme » grandit : alors que la prospérité d’une nation était liée à l’importance de sa population au 18e, c’est l’inverse qui prévaut durant une partie du 19e. Si les salaires sont trop faibles, c’est que la « production humaine » est trop importante par rapport à l’offre de travail. La situation des pauvres n’est pas « imputable  à des déficiences politiques ou économiques, mais sont le corollaire inévitable des lois naturelles ». Tel est le principal enseignement des « « lois » édictées par Malthus : la population croît de façon géométrique, la quantité de subsistance de façon arithmétique, ce qui est insoutenable à moyen terme. La loi sur les pauvres est certes estimable selon lui mais manque son but, il faut l’abroger et aider les pauvres à avoir moins d’enfants. Nombre de statistiques sont élaborées pour soutenir ces thèses. On sait aujourd’hui que Malthus s’est lourdement trompé et que la productivité s’est accrue encore plus vite que la population. Quoique hostiles à l’idée que la croissance puisse ne pas être infinie, les économistes libéraux appuient la réforme de la loi sur les pauvres qui, en 1834, instaure des workhouses aux conditions de vie très rudes.

La loi normale, c’est normal

Malgré la complexité de la société, la masse des statistiques fait apparaître des régularités spectaculaires. Quetelet remarque que lorsqu’on mesure un critère sur un nombre important de sujets (humains ou non), on observe une « courbe des erreurs » (terminologie astronomique) en forme de cloche autour de la moyenne. Mesurer le tour de poitrine de nombreux conscrits revient à mesurer le tour de poitrine d’un seul en commettant des erreurs aléatoires à chaque mesure. Malgré le nombre et la variété des individus se dégage une régularité, grâce justement à la mesure d’un grand nombre d’individus. De la loi de Gauss, ou loi normale, Quetelet tire qu’une population est un peuple si les différentes caractéristiques de ses membres se répartissent autour d’une loi normale. Il érige l’homme moyen en modèle, à l’image de Newton qui calcule la trajectoire des astres en supposant que leur masse est concentrée en un point. On ne peut émettre un jugement sur un homme moyen, il est la norme, voire « le beau, le grand, le bien ». L’idéal est évidemment que la concentration autour de la moyenne soit la plus forte possible (une variance faible !).

Quetelet démontre par les statistiques que la régularité concerne les comportements irréguliers, même les actes antisociaux. Plus le nombre d’individus augmente, plus la volonté individuelle s’efface. On a affaire à un « déterminisme implacable ». Ce qui pose le problème épineux de l’utilité de la politique. La société, « gouvernée » par les statistiques est-elle autonome par apport aux politiques menées ? A. Comte refuse cette approche, crée le mot « sociologie » en opposition aux statistiques et récuse l’idée qu’un fait social puisse n’être que l’addition des faits individuels. A propos du suicide, Durkheim distingue le « type moyen » du « type collectif », « représentation commune que chaque citoyen porte en lui ». Le débat est depuis plus apaisé, les statistiques étant désormais un outil parmi d’autres pour analyser la société.

Biologie et physique

Le lecteur peut être étonné que face à cette profusion des statistiques, la statistique mathématique ne se soit vraiment développée qu’à partir de la fin du 19e siècle. Peut-être que les mathématiciens ont dédaigné cette branche, estimant que les probabilités étaient un sujet clos et que les nombres ne nécessitaient pas de développements mathématiques sophistiqués. Il faut attendre Pearson à l’aube du 20e siècle pour que les premiers tests apparaissent afin de déterminer avec quelle probabilité les données recueillies suivent une certaine loi statistique. Et Biometrika naît en 1901 sur les fonts baptismaux de la recherche biologique.

Darwin, qui a lu Malthus, établit sa théorie sur la sélection la plus à même d’assurer la survie d’une espèce sans qu’il n’y ait d’autre dessein. Darwin s’intéresse à l’hérédité des espèces et donc à la transmission des caractères, Galton, son jeune cousin, à la population humaine. Contrairement à Quetelet, c’est l’ensemble de la distribution qui captive Galton, et notamment les points éloignés de la moyenne (les surdoués par exemple). Il vise à améliorer l’espèce humaine en favorisant les individus dotés de « bonnes » caractéristiques. L’eugénisme naît[3].

La rencontre de la physique et de la statistique paraît plus… aléatoire puisque la statistique  s’intéressait principalement aux réalités sociales avec une dimension probabiliste alors que la physique était plutôt orientée vers la certitude. Cette certitude s’amoindrit lorsque furent approfondies les recherches en thermodynamique. Non seulement les molécules dans un gaz ne se déplacent pas de manière déterministe mais, surtout, leur nombre est si grand qu’il est illusoire de vouloir calculer très précisément quelle sera la structure du gaz à l’instant suivant. Maxwell établit que la vitesse des molécules se répartit selon une loi normale (théorie cinétique des gaz). La voie vers la physique statistique est ainsi ouverte, érodant la toute puissance du déterminisme et prépare l’avènement de la mécanique quantique. On ne peut plus appréhender le monde de manière exhaustive mais de manière probabiliste.

Arrive presqu’à la fin de l’ouvrage un chapitre curieux, fruit sans doute de l’amour de l’auteur pour la littérature. Tout particulièrement pour Balzac qui décrit la société de son époque, non pas comme un statisticien qui la dénombrerait mais comme un observateur des individualités qui ne peuvent se réduire à un « 1 » dans un tableau. Effectivement, un sondé, un recensé, n‘est pas qu’un chiffre, forcément réduit à 1, il a des dimensions multiples que la statistique ne peut cerner dans sa totalité.

Fin de l’histoire ?

On l’a compris, Olivier Rey défend l’idée que la statistique n’est pas hors sol. Ce n’est pas « un outil mathématique, autonome et formalisé » mais elle est issue de pratiques administratives qui sont devenues, au fil du temps, un champ d’application parmi d’autres. Elle n’est devenue une branche à part entière des mathématiques après être passée par la physique qu’en 1933, avec les Fondements de la théorie des probabilités de Kolmogorov.

La statistique est souvent critiquée pour son caractère réducteur mais, néanmoins, elle envahit tous les domaines et le monde en est avide. L’auteur affirme que la « haine-amour » envers la statistique est le résultat de l’interrogation de chacun : « comment, au sein de cette masse, être reconnu ? ». Comment concilier le double objectif de représenter fidèlement un réel complexe tout en donnant une image simple ? Ne conviendrait-il pas pourtant, en présentant les résultats, d’indiquer toutes les métadonnées qui ont présidé à leur construction : catégorisation, incertitude, conventions, sélections, regroupements, conditions de collecte, outils, toute chose que le lecteur et le décideur n’ont pas envie d’entendre ?

On peut regretter que l’auteur n’ait pas poursuivi son enquête au 21e siècle : la masse des données (les données n’étaient pas « données », difficiles à construire aux 19e et 20e siècles, il fallait aller les chercher durement, elles se « donnent » beaucoup plus facilement aujourd’hui, en nombre faramineux), ces vingt dernières années, n’a-t-elle pas, par sa propre profusion modifié la statistique? Tant du point de vue de la manière de collecter ces données que de leur traitement avec le développement d’outils et, surtout, en terme de responsabilité des statisticiens et des « propriétaires » des données vis-à-vis de leurs utilisations ? Les statistiques étaient du ressort des pouvoirs publics et des sociétés savantes au 19e et durant une partie du 20e siècle, elles sont désormais beaucoup plus détenues par des entreprises privées. Cela ne change-t-il pas la donne ?

La vaccination

En ces temps de pandémie et de déferlement de statistiques qui l’accompagne, il est utile de rappeler l’histoire de la variole que l’auteur évoque en quelques pages.

Tout au long du 18e siècle, la variole frappe durement les populations. Certains préconisent l’inoculation (prélever le liquide d’une pustule d’un varioleux pour l’introduire dans une égratignure d’une autre personne). David Bernoulli, critiqué par d’Alembert, calcule le gain d’espérance de vie. La population reste hostile à l’inoculation, même après que Louis XVI se fait inoculer après la mort de Louis XV.

Jenner, un médecin anglais, s’aperçoit que les trayeuses de vaches contractent très rarement la variole. Il suppose qu’elles sont atteintes de la vaccine transmise par les bovidés, maladie peu grave mais apparentée à la variole. Il propose alors de contaminer les personnes avec la vaccine. Des essais sont entrepris au début du 19e siècle avec une évaluation quantitative et des analyses statistiques et probabilistes. Des lois de probabilité sont établies avec ou sans vaccination. Laplace vante les mérites de la statistique pour les traitements médicaux.

 

*« Quand le monde s’est fait nombre » de Olivier Rey, Collection Les essais, Stock (2016)

Mots-clés : statistique – histoire – physique – biologie – médecine – littérature

 

Cet article a été initialement publié le 29 mars 2021.


[1] Sauf mention contraire, les citations sont issues du livre commenté.

[2] « Il y a trois sortes de mensonges : les mensonges, les sacrés mensonges et les statistiques » (Disraeli); « Les hommes usent des statistiques comme les ivrognes des réverbères, pour l’appui qu’elles fournissent plutôt que pour la lumière qu’elles répandent (A. Lang). Plus tard, Churchill ne dira pas autre chose lorsqu’il affirmera qu’il ne croit qu’aux statistiques qu’il a lui-même falsifiées.

[3] L’auteur rappelle que le mot « régression » provient de Galton qui étudiait la retour vers la moyenne des enfants des parents les mieux dotés.

[4] https://www.persee.fr/doc/estat_0336-1454_1980_num_125_1_4391

[5] Voir par exemple https://www.persee.fr/doc/estat_0336-1454_1982_num_146_1_4637