Quand les nombres ne veulent rien dire

Il faut se méfier des chiffres dont on dit trop souvent qu’ils « parlent d’eux-mêmes » et se demander chaque fois d’où ils viennent, qui les recueille et, surtout, ce qu’ils signifient vraiment. 

Crédit : L'actualité

Chaque jour depuis des mois, le téléjournal nous annonce le nombre de nouvelles personnes infectées par la COVID-19. Lorsque le chiffre est supérieur à celui de la veille, on déclare alors avec insistance que les cas « continuent d’augmenter ». On accorde même parfois beaucoup d’importance à ce qui n’est en fait qu’une fluctuation statistique autour d’une moyenne, parlant par exemple de « hausse » quand on passe de 2 108 à 2 183. Si les nombres demeurent relativement stables mais élevés, on dira plutôt qu’ils « restent supérieurs à 2 000 ». 

Ce qui frappe dans ces annonces répétées est l’absence totale de réflexion sur le sens réel de ces chiffres inlassablement égrenés de jour en jour, comme si un nombre avait toujours en lui-même une signification claire et précise.

Nous vivons dans un monde qui semble régi par une loi sociale stipulant qu’un nombre quelconque vaut mieux que pas de nombre du tout (en anglais : any number beats no number). En effet, les chiffres donnent toujours une impression d’objectivité et de neutralité excluant tout « jugement » humain. Mais il faut se méfier des chiffres dont on dit trop souvent qu’ils « parlent d’eux-mêmes » et se demander chaque fois d’où ils viennent, qui les recueille et, surtout, ce qu’ils signifient vraiment. 

Certains experts rappellent fréquemment, avec raison, que pour la COVID, la plupart des comparaisons entre pays n’ont pas de sens. Encore faut-il en tirer une leçon et cesser de diffuser des nombres sans expliquer le contexte qui les rend significatifs. Car, comme le soutenait d’ailleurs — dans un éclair de lucidité ? — Donald Trump, si l’on détecte davantage de cas, c’est parce qu’on fait davantage de tests ! Bien sûr, il en dégageait la mauvaise conclusion, affirmant qu’on devait arrêter de tester, alors qu’en réalité il fallait plutôt multiplier les tests pour mieux circonscrire la pandémie. 

Quand on lit qu’au Québec, 2 108 cas ont été détectés le 20 décembre et que trois jours plus tard, ce chiffre avait grimpé à 2 267, cela peut donner l’impression qu’on a eu une nette hausse des infections. Or, entre ces dates, le nombre de tests est passé d’environ 26 500 à près de 38 000. Ces chiffres absolus ne reflètent donc pas nécessairement une augmentation marquée ou même réelle dans la population. Ils doivent impérativement être lus avec le taux de positivité, soit le rapport entre le nombre de cas positifs et le nombre de tests réalisés. Ce taux est en fait passé de 7,3 % à 6 % entre ces deux dates, ce qui indique en réalité une baisse et fournit un éclairage important qui doit être pris en compte dans toute décision concernant l’évolution de la pandémie. 

Le domaine de la négociation des salaires est également propice aux usages problématiques des chiffres. Au Québec, la comparaison des rémunérations entre provinces est en effet souvent utilisée par des professions pour justifier des hausses salariales. On dira, par exemple, que ces personnes sont « 20 % moins bien payées » que leurs homologues de Toronto ou de Vancouver. Cela semble simple, mais constitue en fait une forme subtile de manipulation, car on oublie alors que le coût de la vie à Toronto ou à Vancouver n’est pas le même qu’à Montréal ou à Chicoutimi. Pour évaluer la véritable différence, il faut en réalité regarder le pouvoir d’achat plutôt qu’uniquement les revenus. On peut alors avoir des surprises et découvrir qu’en fait, cette différence est minime. À la grandeur d’un pays, une rémunération uniforme peut même engendrer des inégalités. En France, par exemple, la grille salariale des professeurs d’université est nationale, elle est donc la même à Paris et en province. Certains voient en cela un signe d’égalité, alors qu’en réalité, les premiers sont plus pauvres que les seconds, car le coût de la vie est plus élevé à Paris que dans la plupart des autres villes universitaires du pays.

L’usage d’une notion aussi simple qu’un pourcentage peut également servir à cacher et à reproduire des inégalités. Ainsi, demander, par exemple, 3 % d’augmentation des salaires pour tous cache en fait le désir de ne pas semer la grogne en modifiant la hiérarchie de la rémunération. Car, à pourcentage fixe, la personne ayant un salaire de 50 000 $ obtient quatre fois moins de nouveaux dollars que celle qui gagne 200 000 $. Pour la première, ce 3 % ne lui rapporte en effet que 1 500 $, alors que la seconde s’enrichit de 6 000 beaux dollars !

Les pourcentages sont aussi à manier avec beaucoup de précaution quand on parle de risques. Ainsi, les résultats de recherches cliniques sont régulièrement présentés dans les médias en termes de « pourcentage de risques accrus », alors qu’il faudrait plutôt indiquer les risques absolus. En effet, dire, par exemple, que la prise de tel médicament augmente de 10 % les risques de cancer ou d’arrêt cardio-vasculaire peut faire peur et entraîner un abandon de la prise de ce médicament de la part du patient. On devrait aussi spécifier le risque absolu de développer cette maladie quand on prend ce médicament, qui n’est peut-être pas significatif : quel était le risque de base réel qui augmente ainsi de 10 % ? Et comment ce risque accru se compare-t-il avec le risque de ne pas prendre ce médicament ?

Un exemple très simple suffit à comprendre l’importance de cette question. Acheter un billet de loto vous donne, en gros, 1 chance sur 10 millions de gagner le gros lot. En pourcentage, on peut donc dire que si vous vous procurez trois billets, vous augmentez de 300 % vos chances de remporter la cagnotte. Cependant, malgré cette hausse d’allure faramineuse, vous n’avez en réalité que 3 chances sur 10 millions de gagner, ce qui n’est guère réjouissant !  

En somme, si on ne développe pas le réflexe de remettre en question les nombreux chiffres qu’on ne cesse de nous brandir pour nous convaincre de ceci ou de cela, on risque fort de se faire manipuler, d’avoir peur pour rien ou de prendre de mauvaises décisions.

Les commentaires sont fermés.

Quand les nombres ne veulent rien dire
Ahhh! » Trois fois » merci pour ce texte éclairant :o)

C’est très bien dit ! J’ajouterais cependant qu’il faut aussi regarder, si possible, les définitions derrière les nombres. Qu’est-ce qu’une mort attribuée à la COVID? Et aussi les techniques par lesquelles les données sont ramassées et transmises. Quelles sont les cas qui échappent à l’enquête? S’agit-il d’une activité illégale ou immorale? Plus on se rapproche d’une donnée, plus on constate les risques d’erreur. Mais ce ne sont pas des raisons pour se priver des statistiques.

Ce qu’on peut faire dire avec les chiffres:

Detection of non‐climatic biases in land surface temperature records by comparing climatic data and their model simulations
Nicola Scafetta
Climate Dynamics (2021)

Abstract
The 0.6 °C warming observed in global temperature datasets from 1940 to 1960 to 2000–2020 can be partially due to urban heat island (UHI) and other non-climatic biases in the underlying data, although several previous studies have argued to the contrary. Here we identify land regions where such biases could be present by locally evaluating their diurnal temperature range (DTR = TMax − TMin trends between the decades 1945–1954 and 2005–2014 and between the decades 1951–1960 and 1991–2000 versus their synthetic hindcasts produced by the CMIP5 models. Vast regions of Asia (in particular Russia and China) and North America, a significant part of Europe, part of Oceania, and relatively small parts of South America (in particular Colombia and Venezuela) and Africa show DTR reductions up to 0.5–1.5 °C larger than the hindcasted ones, mostly where fast urbanization has occurred, such as in central-east China. Besides, it is found: (1) from May to October, TMax globally warmed 40% less than the hindcast; (2) in Greenland, which appears nearly free of any non-climatic contamination, TMean warmed about 50% less than the hindcast; (3) the world macro-regions with, on average, the lowest DTR reductions and with low urbanization (60S-30N:120 W–90 E and 60 S–10 N:90 E–180 E: Central and South America, Africa, and Oceania) warmed about 20–30% less than the models’ hindcast. Yet, the world macro-region with, on average, the largest DTR reductions and with high urbanization (30 N–80 N:180 W–180 E: most of North America, Europe, and Central Asia) warmed just a little bit more (5%) than the hindcast, which indicates that the models well agree only with potentially problematic temperature records. Indeed, also tree-based proxy temperature reconstructions covering the 30°N–70°N land area produce significantly less warming than the correspondent instrumentally-based temperature record since 1980. Finally, we compare land and sea surface temperature data versus their CMIP5 simulations and find that 25–45% of the 1 °C land warming from 1940–1960 to 2000–2020 could be due to non-climatic biases. By merging the sea surface temperature record (assumed to be correct) and an adjusted land temperature record based on the model prediction, the global warming during the same period is found to be 15–25% lower than reported. The corrected warming is compatible with that shown by the satellite UAH MSU v6.0 low troposphere global temperature record since 1979. Implications for climate model evaluation and future global warming estimates are briefly addressed.

En ce qui concerne la Covid-19, la meilleure façon de comptabiliser est celle de compter les mortalités… et encore… Dans les CHSLD, toutes les morts sont-elles effectivement dues à la Covid depuis février 2020 ??? C’est la meilleure façon, car peu importe le nombre de tests de dépistage, c’est le nombre de victimes en bout de ligne qui compte, pas le nombre de testés.
Pour ce qui est de l’exemple de la France qui offre le même salaire à ses professeurs universitaires : ¨la grille salariale des professeurs d’université est nationale, elle est donc la même à Paris et en province ¨, j’y vois là une façon intelligente de décentraliser les emplois payants au lieu de ramener les mieux nantis dans les grandes villes et ainsi augmenter davantage la centralisation de la pollution et des points chauds climatiques. S’il en était de même avec les industries, ce serait bien !

Merci Monsieur Gingras!

Je ne suis pas toujours d’accord avec vos analyses, mais là je dois dire que vos propos sont très éclairants.

En effet, un nombre hors contexte ne veut rien dire! Ou plutôt les sous-entendus et l’absence d’un contexte clair peuvent lui faire dire n’importe quoi. Pourcentage de quoi? Par rapport à quoi? Quelle valeur en absolu? Comment ce nombre se compare aux normes existantes? À la moyenne? À la médiane? À la variabilité observée? Quelle est la marge d’erreur? La signification statistique (valeur p)? Est-ce une anomalie (en anglais outlier) ? Ou simplement l’effet du hasard, ou de la répétition des essais (triturage des données, en anglais p-hacking)?

Scientifiquement vôtre

Claude COULOMBE

Enfin, parler des chiffres avec intelligence… Merci, ça fait du bien!
Surtout avec la pandémie, il n’y a pas (assez) d’espace médiatique dédié à la compréhension des variables, qui sont trop souvent communiquées qu’en « effet de grand titre ».