center twothird fullsm

Un dieu omniscient n’aurait que faire du théorème de Bayes.”
Neven Sesardic (2005, p. 223)

Vous devez retrouver une personne que vous ne connaissez pas sur la Place d’Armes. Comment la reconnaître ? Vous savez qu’il s’agit d’une femme, ce qui divise déjà par deux le nombre (soit un bit d’information : voir Billet Eco 30). Mais comment reconnaître une femme ? Il y a un siècle, quand les tenues vestimentaires étaient beaucoup plus imposées, cela aurait été facile, mais maintenant ? Heureusement il vous reste la biologie, qui elle n’a pas été transformée par les diktats changeants de la mode : les femmes sont en moyenne plus petites que les hommes, vous pouvez donc utiliser comme heuristique cette différence de taille. Bien sûr, cette information ne vous dit pas quelle est la taille réelle de la personne que vous cherchez, elle peut très bien faire 1m80, mais elle vous apporte une probabilité : vous vous dites qu’il n’y a que peu de chances qu’elle soit plus grande que les hommes autour d’elle. 

Les scientifiques ont créé énormément d’outils qui permettent de quantifier les différences de groupes. Dans le cas le plus simple, la distribution des individus sur une caractéristique suit une Loi Normale (une “Courbe en cloche”, comme le QI), qui est parfaitement définie par sa moyenne et son écart-type, et dans ce cas on peut quantifier la différence entre deux groupes en quantité d’écart-types (c’est le “d de Cohen”). Par exemple, la différence de taille entre les sexes est estimée à 1,7 écart-types (Schilling et al. 2002). Cela signifie que si on fusionne une distribution selon les tailles de femmes avec celle d’hommes on obtiendra... une autre courbe en cloche : il n’y aura qu’une seule pointe, c’est une courbe unimodale (ce qui implique que l’image en haut de page n’est pas représentative). Il faut un d de Cohen égal ou supérieur à 2 pour obtenir ainsi une courbe bimodale (Schilling et al. 2002). Mais même à ce niveau on trouve un fort chevauchement : presque 1 personne sur trois (31,53%) y montre le même résultat qu’une personne de l’autre sexe (Brice & Garrett, 2014). Pour la différence sexuelle de taille (d=1,7), le chevauchement est de 39,53%.

Sachant cela, vous faites un calcul rapide : sauf cas extrême non pris en compte dans les moyennes (il existe des femmes de 2m), vous savez que la personne que vous recherchez n’est pas dans les 30% les plus grandes. Ce n’est pas très discriminant : vous n’avez gagné que la moitié d’un bit d’information. L’heuristique d’utiliser la taille n’est donc finalement pas très efficace, elle ne vous aidera que peu dans votre recherche alors même qu’elle vous semblait particulièrement pertinente. 

La question de l’application des moyennes de groupe, du grand nombre, aux individus est fondamentale et a un impact énorme sur nos vies. Au niveau politique, dont la politique économique, elle mène régulièrement à deux erreurs catastrophiques. 

La première est de croire que si la moyenne d’un groupe diffère sur un critère, alors tous les individus appartenant à ce groupe présenteront cette caractéristique. Notre exemple ci-dessus, pourtant sur un critère très visible et très connu (la différence sexuelle de taille), en montre les limites. Mais son principal problème est qu’il suffit d’y rajouter une obligation ou une autre, soi-disant liée au critère, et on obtient le racisme ou le sexisme ou un autre collectivisme (Gouillou, 2004). 

La seconde est la réaction à la première : elle est de croire que puisqu’un individu peut être en dehors de la moyenne de son groupe, celle-ci ne nous apprend rien, et qu’on ne doit surtout pas en tenir compte. Elle est tout aussi fréquente, on la retrouve par exemple dans la très fréquente “lutte contre les stéréotypes”, alors que ceux-ci sont généralement vrais (voir Lettre Neuromonaco 32). 

Comment faire alors ? 

Lê Nguyên Hoang (2019) explique la solution par le problème suivant : si vous avez deux dés, un qui comporte quatre faces A et deux faces B, et l’autre deux faces A et quatre faces B, comment déterminer quel dé a été jeté à partir des résultats obtenus après plusieurs jets ? Vous savez juste que si vous obtenez un A il y a deux fois plus de chances qu’il s’agisse du premier dé, sans aucune certitude, et qu’il en est de même pour le deuxième dé si vous obtenez un B. Lê montre qu’on peut représenter chaque jet comme apportant un bit d’information, et le visualiser sur un ruban sur lequel on se déplace à chaque fois d’une case, dans un sens ou dans l’autre selon le résultat du jet. Cela signifie que chaque jet n’apportera aucune certitude mais divisera par deux, ou doublera, l’incertitude. Jamais celle-ci ne sera nulle : même quand il n’y a qu’une chance sur des milliards, il y a toujours une chance. C’est l’approche Bayésienne (de Thomas Bayes), qui est la seule à nous garantir une compréhension réaliste de la réalité. 

Cela signifie que pour l’immense majorité des informations que nous devons intégrer chaque jour, c’est-à-dire toutes celles pour lesquelles nous n’avons pas une certitude absolue, nous devons toujours calculer le degré de risque qu’elles soient fausses. Le doute permanent ne signifie pas que nous devrions rejeter les informations, mais au contraire que nous devons les accepter dans leur intégralité, c’est-à-dire avec leur degré d’incertitude. 

Références : Gouillou 2004 ; Grice & Barrett (2014, doi:10.2466/03.PR0.115c29z4) ; Lê Nguyên Hoang (2019) ; Lettre Neuromonaco 32 ; Sesardic (2005, ISBN:978–0–521–82818–5) ; Schilling et al. (2002, doi:10.1198/00031300265)