Category
🗞
NewsTranscription
00:00 Bonjour et bienvenue dans cette nouvelle émission Zone Bourse. Alors je pense que vous l'avez
00:15 remarqué mais on est abreuvé de données chiffrées, de statistiques, notamment sous
00:19 forme graphique. Vous savez, il y a beaucoup d'infographie qui tourne dans les médias en
00:22 général ou sur les réseaux sociaux, c'est un truc qui plaît beaucoup. Et pourtant, les Français sont
00:27 très mal équipés pour comprendre et bien interpréter les statistiques. Ça, c'est pas moi
00:32 qui le dis, c'est un rapport qui a été publié par l'Inspection Générale de l'Éducation, un rapport
00:37 très intéressant. Alors quand ils disent qu'il manque aux Français les bases statistiques pour
00:41 naviguer dans le monde actuel, ils parlent déjà des concepts fondamentaux. Il faut comprendre ce
00:45 qu'est une moyenne, une médiane, un taux, un ratio, un indice passant, une marge d'erreur, etc. Mais
00:51 il faut aussi connaître les grands indicateurs socio-économiques, la population, le taux de
00:55 chômage, l'inflation, le PIB, et puis connaître des ordres de grandeur. Je suis sûr que si vous
00:58 demandez autour de vous quel est le taux de chômage actuellement, vous aurez parfois des surprises.
01:03 Et puis, bien sûr, connaître les outils, c'est super, mais il faut aussi porter un regard critique
01:08 sur les statistiques. On en reparlera un peu plus loin. Et dans ce rapport, le premier point qui
01:12 m'a choqué, et pourtant c'est quelque chose que je sais, que vous savez, c'est largement communiqué,
01:16 mais c'est l'effondrement du niveau scolaire français, notamment en maths. Dans le rapport,
01:22 on voit que le niveau s'est effondré de manière absolue. La génération des années 80 était
01:26 meilleure en maths que la génération 90, qui était meilleure que la génération 2000,
01:29 elle-même meilleure que la génération 2010, et ça c'est quels que soient les tests utilisés. Mais
01:34 le niveau a aussi chuté de manière relative, puisque la France est maintenant en queue de
01:38 peloton des pays européens. Alors le rapport commence à parler des maths, bien sûr,
01:42 puisque les bases statistiques sont apprises en maths, mais le rapport explique aussi que
01:47 comprendre les statistiques, c'est indispensable en histoire géo, en SVT, en physique chimie,
01:52 en économie ou en comptabilité. Et justement, je me suis dit que j'allais profiter de ce rapport
01:57 pour faire quelques rappels d'erreurs fréquentes en statistiques. La première erreur, vraiment au
02:02 tout début, c'est le biais de sélection, c'est-à-dire quand, au lieu de prendre un échantillon
02:06 représentatif de la population, avec des hommes, des femmes, de tout âge, des actifs, des inactifs,
02:12 de toute tendance politique, vous vous retrouvez avec des catégories qui sont sur- ou
02:16 sous-représentées. Et on peut se dire que c'est évident qu'il faut faire attention d'interroger
02:23 tout le monde. Mais c'est vrai que si vous faites un sondage, par exemple, dans un certain quartier,
02:26 vous allez avoir un certain type de population. Ça, ça paraît évident. Mais ne serait-ce que
02:31 faire le sondage à une certaine heure de la journée, là aussi, vous allez avoir d'énormes
02:35 biais. Si vous appelez les gens chez eux en plein après-midi, vous aurez plus d'inactifs ou de
02:40 retraités, par exemple. Mais c'est la même chose aussi sur Twitter. Sur Twitter, vous n'aurez qu'une
02:45 partie biaisée de la population. Évidemment, vous aurez une partie de la population qui est
02:49 connectée, une partie de la population qui est connectée et qui suit les réseaux. Pas n'importe
02:53 quel réseau Twitter, qui n'est pas le réseau le plus mainstream, même si c'est un énorme réseau.
02:59 Et puis même sur Twitter, si vous faites un sondage, ce sera la partie des gens qui vont
03:03 vous suivre ou qui va répondre. Donc on ne peut pas faire plus biaisé que ça.
03:07 Donc là, j'ai parlé du biais de sélection, mais un autre cas flagrant qu'on constate énormément
03:11 autour de nous, qui est finalement qu'un extrême du biais de sélection, c'est quand on prend des
03:15 cas particuliers pour des vérités statistiques. On a tous entendu des choses du type "je connais
03:21 trois personnes qui ont eu des problèmes cardiaques après le vaccin, donc bla bla bla". Non,
03:24 je connais trois personnes, ce n'est pas une étude statistique. Il faut un échantillon
03:29 représentatif pour limiter la marge d'erreur. Ensuite, même si l'étude statistique est bien
03:34 menée, il y a les erreurs d'interprétation. Alors il y a des erreurs d'interprétation qui peuvent
03:40 être faites uniquement par les personnes qui regardent les statistiques, mais ça peut être
03:45 dû parfois à la personne qui va produire la statistique et qui va la montrer de manière biaisée,
03:50 par exemple en jouant sur l'effet d'échelle. J'ai trouvé cet exemple assez drôle. Aux États-Unis,
03:55 en 2015, les Républicains ont montré devant le Congrès – donc on n'est pas n'importe où,
03:59 c'est un graphique qui a été montré devant le Congrès – un graphique qui montre le nombre
04:02 d'avortements entre 2006 et 2013, donc sous forme d'une grande flèche croissante, en même temps que
04:09 le nombre de mammographies sur la même période, donc une grosse flèche décroissante. L'idée
04:13 c'était de dire que l'argent de la détection des cancers était utilisé pour payer les avortements.
04:18 Et le problème c'est que les deux flèches montent et baissent avec la même pente, en fait,
04:22 si vous voulez, pour ceux qui sont en podcast, c'est symétrique, il y a un effet un peu miroir,
04:27 donc il y a une flèche qui monte, l'autre qui baisse, ce sont les mêmes flèches inversées.
04:30 Mais si on représente les données avec une vraie échelle, ou bien en utilisant une base 100,
04:35 on a une vue complètement différente, et d'ailleurs même avec des vraies échelles,
04:39 mais en absolu ou bien en relatif avec la base 100, on obtient déjà quelque chose de différent,
04:44 et je suis sûr que ces deux graphiques seront interprétés de manière différente.
04:47 Et bien sûr, un grand classique sur l'effet d'échelle, c'est tout simplement de ne pas
04:51 faire démarrer l'échelle à zéro pour faire croire à une hausse ou à une baisse plus importante
04:55 qu'elle n'est en réalité. Il y a autre chose aussi qui joue énormément dans les enquêtes
04:59 statistiques, c'est la manière dont vous posez la question. Et je sais pas si vous vous souvenez
05:03 de cette pub, je sais pas si elle passe encore d'ailleurs, qui disait que plus de 80% des
05:07 dentistes recommandent Colgate. Je crois que cette pub, je l'ai vue il n'y a pas si longtemps en
05:13 France, mais en Angleterre, a été interdite dès 2007, donc ça fait quand même un sacré moment,
05:18 parce qu'elle était considérée comme trompeuse. Parce qu'en fait, l'étude demandait aux dentistes
05:23 de recommander plusieurs dentifrices, pas un seul, et donc la plupart des grosses marques,
05:28 dont Colgate, avaient beaucoup de recommandations. Alors que la pub de Colgate laisse croire que,
05:33 sous des aspects statistiques, 80% etc. ça laisse croire que 80% des dentistes recommandent Colgate
05:40 plutôt qu'une autre marque, ce qui n'est pas du tout le cas. Autre facteur qui aggrave les erreurs
05:43 d'interprétation, c'est qu'on utilise énormément la moyenne par rapport à la médiane. En tout cas,
05:49 les journalistes utilisent beaucoup la moyenne par rapport à la médiane, alors que la médiane
05:53 est beaucoup plus souvent le meilleur outil à utiliser, tout simplement parce qu'elle n'est
05:58 pas impactée par les chiffres extrêmes. Ce n'est pas une volonté des médias de biaiser les données,
06:04 c'est tout simplement que la moyenne est plus connue par la population générale,
06:07 donc ils utilisent le chiffre le plus connu. Alors que la médiane, il n'y a rien de compliqué,
06:11 ce n'est pas plus compliqué que la moyenne, c'est juste qu'on divise la population en deux,
06:14 une moitié au-dessous et une moitié au-dessus du chiffre de la médiane. Si vous habitez dans
06:20 la même ville que Bernard Arnault, les habitants de votre ville auront peut-être un patrimoine
06:24 moyen de 2 millions d'euros et un patrimoine médian de 300 000 euros, tellement le milliardaire va
06:30 tirer la moyenne vers le haut. Or, la médiane de 300 000 euros, qui nous dit qu'il y a 50% des
06:35 habitants qui ont un patrimoine supérieur à ce chiffre et 50% en dessous, nous donne beaucoup
06:40 plus d'informations que la moyenne, parce que finalement il n'y a quasiment aucun habitant de
06:44 la ville qui aura un patrimoine autour de 2 millions d'euros, alors que c'est ce que ça nous
06:48 laisse croire. En fait, il y a beaucoup plus de personnes qui auront un patrimoine autour de 300
06:53 000 euros et puis Bernard Arnault qui aura son patrimoine de plusieurs milliards.
06:56 Autre difficulté quand on interprète des chiffres, et ça c'est quelque chose que je
06:59 vois énormément en bourse, c'est la difficulté à comprendre le hasard. Parce qu'on cherche toujours
07:05 des explications, des causalités, même s'il n'y en a pas. Et le hasard, dans notre tête,
07:11 on se l'imagine comme quelque chose de régulier. Par exemple, si on nous demande de prédire les
07:15 chiffres du loto, on va avoir tendance à bien répartir les chiffres. Or, la série 1, 2, 3,
07:20 4, 5 a autant la possibilité d'être tirée que n'importe quelle autre série de cinq chiffres.
07:25 Mais si les boules qui sont tirées sont 1, 2, 3, 4, 5, vous pouvez être sûr qu'il y a énormément
07:29 de gens qui vont crier au trucage, qui vont dire que c'est pas dû au hasard, etc.
07:34 Et ce qui nous amène à un point clé en statistique, c'est la fameuse différence
07:39 entre corrélation et causalité. Et on prend trop souvent une corrélation pour une causalité. La
07:44 corrélation, c'est quand deux variables bougent ensemble. La causalité, c'est quand la variation
07:49 d'une des deux variables est causée par la variation de l'autre. On a ce fameux exemple du
07:54 chocolat et des prix Nobel. Les pays dans lesquels on produit du chocolat ont plus de prix Nobel que
08:00 les autres. Enfin, pardon, consomment plus de chocolat, pas produit. En fait, il y a un facteur
08:05 commun, bien sûr, qui est la richesse. Ce qui est assez drôle, c'est qu'il y a un site, et je vais
08:09 vous le mettre en lien, qui note ces fameuses fausses causalités, qu'il en a décrit plusieurs,
08:15 qui sont assez marrantes. Sur ce site, on découvre par exemple une corrélation de 99,8%
08:20 entre les dépenses américaines dans la science, l'espace et la technologie, et les suicides par
08:26 pendaison entre 1999 et 2009. De la même manière, c'est une corrélation de 66% entre le nombre de
08:33 personnes noyées dans une piscine et le nombre de films dans lesquels Nicolas Cage est apparu,
08:37 toujours sur la même durée, entre 1999 et 2009. Je vous conseille d'aller faire un tour sur le site,
08:42 il y a vraiment des données qui sont assez marrantes. Par exemple, je vous en donne un
08:45 dernier, nouvelle corrélation de 90% entre la consommation de poulet par personne aux Etats-Unis
08:51 et les importations de pétrole brut entre 2000 et 2009, corrélation de 90%, c'est assez incroyable.
08:58 Alors ici, je vous donne des exemples de fausses causalités qui sont évidentes,
09:01 mais pour prendre un sujet un peu plus polémique, l'impact des écrans sur le niveau scolaire des
09:06 enfants. S'il y a une corrélation entre les deux, ce que je pense, même si je n'ai pas trouvé
09:10 d'études qui le montraient, est-ce que ce sont les écrans qui rendent bête directement ? Là,
09:15 on a une causalité. Ou bien, est-ce que c'est le fait que certains parents encadrent moins leurs
09:20 enfants, les poussent moins à faire leur devoir, à lire et les laissent plus sur les écrans,
09:24 qui va influer sur le niveau scolaire ? Donc là, on a une corrélation, mais il n'y a pas de causalité
09:28 directe entre le temps sur les écrans et le niveau scolaire. Parce que ce qu'on a constaté,
09:33 et là cette fois-ci, il y a des chiffres statistiques, c'est que plus les parents
09:36 sont diplômés, moins les enfants passent de temps devant l'écran. Donc la réponse est loin
09:41 d'être évidente entre causalité et corrélation. Et le problème de toutes les statistiques qu'on
09:46 consomme au jour le jour, qui nous sont amenées par les médias plus traditionnels ou bien par
09:50 les réseaux sociaux, c'est que comme par définition elles nous sont proposées pour faire le plus de
09:55 vues possible, pour amener le plus de personnes sur le média ou bien sur le réseau social,
09:59 ça va être les statistiques les plus choquantes, et donc forcément celles qui ont le plus de risques
10:04 d'erreur. Ah oui, vous vous demandez peut-être le titre de la vidéo. En fait, la vraie statistique,
10:09 c'est "77% des Français n'aiment pas discuter d'argent avec leurs proches". Donc voilà,
10:14 effectivement j'ai fait un peu mon Colgate là-dessus. Si je vous avais mis la totalité de la
10:20 statistique, vous auriez peut-être un petit peu moins cliqué. Voilà, merci encore à tous pour
10:24 vos encouragements, pour vos partages, pour vos commentaires, etc. C'est vraiment super sympa.
10:29 Je vous remercie énormément, et moi je vous dis à bientôt pour une autre émission.