Êtes-vous un bon statisticien ?

Daniel Kahneman a consacré une partie de son travail à montrer que nous sommes de piètres statisticiens, alors que nous avons tendance à nous fier à notre intuition dans ce domaine. À sa grande surprise, ce constat concerne également un nombre important de professionnels des probabilités.

Rien de tel qu’un petit exemple, tiré de mon livre Mieux Réussir Ensemble, pour vous en convaincre.

Vous réalisez chez votre médecin un test de dépistage d’un type de cancer qui touche 0,1 % de la population. Quelques semaines plus tard, le verdict tombe : positif. Vous demandez alors à votre médecin si le test est fiable. Celui-ci vous explique que : « si vous avez le cancer, le test sera positif dans 90 % des cas. Et si vous ne l’avez pas, il sera négatif dans 97 % des cas ».
Quelle est, selon vous, la probabilité réelle d’avoir contracté cette maladie ? 90 % ? Plus ? Moins ?

Il s’agit de probabilités conditionnelles, aussi appelée probabilités bayésiennes. Développons le raisonnement et imaginons que 10 000 personnes effectuent le test de dépistage.

  • Puisque ce type de cancer touche 0,1 % de la population, 10 personnes de cet échantillon seront effectivement touchées.
  • Puisque le test est fiable à 90 %, seuls 9 sur ces 10 malades obtiendront un résultat positif.
  • Quid des 9 990 personnes restantes, celles dont on sait qu’elles sont saines ? Parmi elles, le test de dépistage sera négatif dans 97 % des cas.
  • Il y aura donc grosso modo 9 690 tests négatifs et 300 tests positifs. Ce sont les faux positifs.
  • En conclusion, sur l’échantillon de 10 000 personnes, 309 auront été testées positives pour seulement 9 « vrais positifs » (réellement malades).

À combien tombe votre probabilité d’être réellement atteint du cancer après avoir été testé positif ? 9/309. Soit… 2,9 % ! Étonnant, n’est-ce pas ?

La raison principale de nos erreurs probabilistes réside dans le fait que nous avons tendance à négliger le “taux de base”. Le taux de base représente la distribution des éléments étudiés dans le contexte considéré. Dans l’exemple ci-dessus, le taux de base est : 0,1% de la population est touchée par ce type de cancer. C’est un élément décisif dans le calcul qui nous occupait.

Illusions visuelles et inférences bayésiennes

Les théories les plus récentes en matière de perception ont établi que notre cerveau semble procéder par inférences bayésiennes afin de percevoir l’environnement[1]. Ce terme un peu barbare nous vient du mathématicien anglais Thomas Bayes, à l’origine de l’une des avancées mathématiques les plus importantes du 18e siècle.

Une inférence bayésienne, c’est en quelque sorte une probabilité inversée. En probabilité pure, si je vous dis que j’ai mis 7 boules rouges et 3 boules blanches dans un sac, vous déterminez aisément a priori que la probabilité de tirer à l’aveugle une boule blanche du sac est de 3 sur 10.

Dans le cas de l’inférence bayésienne, je ne vous donne pas la distribution des boules contenue dans le sac, parce que c’est précisément ce que vous cherchez à déterminer. Je procède alors à plusieurs tirages successifs sans remettre les boules dans le sac. Si les tirages successifs donnent rouge-rouge-blanc-rouge, vous en concluez a posteriori – vous inférez – qu’il y a plus de boules rouges dans le sac que de boules blanches, dans une proportion probablement voisine de 75 % – 25 %.

Selon cette théorie, notre cerveau serait obligé de procéder de la sorte parce que chaque stimulus représente une infinité de réalités potentielles. Un trait vertical dans notre champ visuel peut représenter un simple trait, tout comme il peut représenter une forme en deux dimensions vue de profil, par exemple un triangle ou un cercle. Notre Système 1 – le mode automatique de notre cerveau – procède donc à des calculs de probabilité basés sur l’expérience que nous avons de notre environnement, afin de déterminer ce à quoi ce trait correspond. Des études ont montré que le cerveau de bébés de 8 mois est déjà capable d’inférences bayésiennes.

Sur le schéma ci-dessous, quel est selon vous le trait le plus long ? Le trait horizontal ou le trait vertical ?

En fait, ils sont de longueur identique. Vous pourrez vous en convaincre en les mesurant. Des chercheurs[2] ont déterminé que ce phénomène était dû au fait que les deux traits sont présentés de façon brute, hors de tout contexte. Or dans notre environnement, perspective oblige, une barre verticale sur notre rétine reflète souvent une plus grande distance. Notre Système 1 a donc reconstruit l’interprétation la plus plausible du stimulus. Et lorsque nous voyons le dessin ci-dessus, nous en inférons que le trait vertical doit être plus long que le trait horizontal.

Voici une autre illusion provoquée par ce phénomène. Quel est, à l’écran, le bonhomme le plus grand ? Je vous laisse mesurer par vous-même…


[1] Stanislas Dehaene, Le cerveau statisticien : la révolution Bayésiennes en sciences cognitives, Collège de France, 2011-2012, https://www.college-de-france.fr/site/stanislas-dehaene/course-2011-2012.htm
[2] Anha Girshick et al., Cardinal rules: Visual orientation perception reflects knowledge of environment statistics, Nature neuroscience 14(7), pp. 926-932, 2011