Et si les probabilités n'existaient pas ?

  • il y a 8 mois
Présentation de l'approche bayésienne des probabilités et de l'estimation
Transcription
00:00 Bonjour, Bienvenue au cours des probabilités statistiques.
00:06 Aujourd'hui, nous allons étudier les méthodes inverses, dites aussi méthodes bayésiennes.
00:15 Il existe deux grandes interprétations des probabilités.
00:22 Je donne ici une phrase provocatrice de Bruno De Finiti qui témoigne de la violence de la querelle entre ces deux points de vue.
00:35 Ces deux points de vue sont les points de vue fréquentistes ou fichériens et les points de vue subjectivistes ou bayésiens.
00:47 D'un point de vue fichérien ou fréquentiste, les probabilités correspondent à des fréquences relatives d'observation de certains événements.
01:02 Pour les subjectivistes, les probabilités mesurent des degrés de croyance dans la réalisation d'un événement.
01:12 Nous avons ici une phrase de De Finiti qui explique ces points de vue concernant les degrés de croyance.
01:22 Dans les deux cas, évidemment, il y a aussi une exigence de formalisme mathématique et de cohérence interne de la théorie.
01:33 Il existe aujourd'hui un certain nombre de chercheurs et d'utilisateurs de probabilités pour lesquels ces deux méthodes finissent par se réjoindre
01:44 et qui utilisent, indépendamment, une méthode fichérienne ou une méthode bayésienne selon la situation étudiée.
01:53 Pour ces utilisateurs, la querelle est obsolète. Il s'agit simplement des méthodes qu'on peut utiliser selon les cas considérés.
02:04 Mais ce n'est pas le cas pour tout le monde. Il existe des chercheurs et des philosophes pour lesquels la querelle reste vive.
02:14 Dans ce cours, nous n'aborderons pas la querelle-existence. Nous étudierons l'application des méthodes.
02:23 Du point de vue historique, le texte qui a fondé les méthodes envers sa probabilité est un article attribué à Thomas Bayes,
02:34 mais publié par Richard Price après la mort de Thomas Baye.
02:39 Dans cet article, Price indique que Bayes proposait un problème. Quel est le problème suivant ?
02:48 Étant donné le nombre de fois pour lesquelles un événement est survenu ou non survenu, quelle est la probabilité pour qu'il arrive dans un seul essai ?
03:05 En termes modernes, le problème posé par Bayes peut être formulé de manière suivante.
03:14 Considérons un échantillon d'une observation d'une variable de Bernoulli. Étant donné le nombre a inférieur à b tous les deux entre 0 et 1, et en connaissant la somme des x, i, c'est-à-dire le nombre de succès de la variable de Bernoulli,
03:38 déterminer la probabilité que l'événement P appartient à a, b conditionnellement aux données observées.
03:49 Ce problème est dit inverse car nous ne cherchons pas la probabilité de l'événement observé, mais une probabilité pour la valeur de paramètre P de la loi de Bernoulli.
04:08 La solution apportée par Thomas Bayes repose sur deux théorèmes. Les premiers les voici. De manière moderne, nous disons que la probabilité de l'intersection de l'événement 1 avec l'événement 2 est la probabilité conditionnelle des 2 et 1 qui multiplie la probabilité des 1.
04:33 Les deuxièmes théorèmes proposés par Bayes sont les suivants.
04:39 La probabilité conditionnelle des 1 et 2 = la probabilité de l'intersection des 1 et 2 / la probabilité des E2
04:50 En combinant les deux résultats, nous obtenons la célèbre formule de Bayes.
04:58 La formule de Bayes répond au problème posé par Bayes. En effet, nous pouvons déterminer la probabilité pour que les paramètres P appartiennent à un intervalle a, b en réalisant l'intégrale de sa probabilité conditionnelle aux données sur l'intervalle.
05:18 Or, cette probabilité peut être déterminée à l'aide de la formule de Bayes.
05:25 Cependant, pour pouvoir utiliser cette formule en pratique, nous devons connaître la valeur de ces éléments.
05:34 Il existe un premier élément, c'est la probabilité des données observées conditionnelles à une valeur donnée du paramètre P.
05:46 Nous appelons cette probabilité la vraisemblance, en anglais «likely root».
05:53 Un deuxième élément est la probabilité des P. Il s'agit d'une loi a priori, en anglais «prior».
06:05 Et enfin, nous déterminons la loi a posteriori, qui est la probabilité du paramètre conditionnel aux données.
06:16 En pratique, la vraisemblance découle d'un modèle, pour les phénomènes qu'on étudie.
06:24 La distribution a priori est un choix de l'utilisateur d'après sa connaissance ou ses hypothèses ou les informations qu'il a sur la valeur de P.
06:36 Enfin, on ne calcule jamais la valeur du P(x). On écrit cette valeur comme étant une constante qui est déterminée en imposant que l'intégrale de la probabilité du P conditionnel aux données soit égale à 1.
06:55 Dans la situation étudiée par Bayes, une analogie connue sous le nom de Billard de Bayes lui a permis de conclure que la loi du P est uniforme,
07:07 de manière que P du P est égale à 1 sur l'intervalle 0,1 et que le modèle, pour la vraisemblance, est de nature binomiale.
07:17 On obtient ainsi la loi a posteriori avec une constante. On détermine cette constante en imposant que l'intégrale de cette densité soit égale à 1.
07:31 On obtient ces résultats de manière analytique. Les voici.
07:39 Prenons un exemple. Une pièce est jetée une fois et on observe k valeur pile et n moins k valeur face. On va estimer la probabilité P égale à la probabilité de pile.
07:55 Comme première remarque, il nous faut noter que la valeur de k peut varier d'un essai d'Ing à l'autre. Par conséquent, k est une variable aléatoire. Sa distribution est binomiale.
08:11 La probabilité de k fois pile est proportionnelle à P à la puissance k, 1 moins P à la puissance n moins k.
08:21 Dans l'approche de Fischer, nous commençons par construire la vraisemblance. Puis nous calculons la log-vraisemblance.
08:32 Le maximum de vraisemblance correspond au maximum de la log-vraisemblance. Nous n'avons donc qu'à dériver cette dernière, imposer qu'elle soit égale à 0 pour déterminer la valeur de l'estimateur P^. Ici, il est égal à k/n.
08:52 Notons que P^ est une variable aléatoire telle que nP^ a une distribution binomiale. Cette distribution va nous rester inconnue car nous ne connaissons pas la valeur réelle de P.
09:06 On peut néanmoins, à partir de ces informations, construire des intervalles de confiance et tester des hypothèses sur la valeur de P, comme nous l'avons fait dans les cours précédents.
09:22 L'approche d'Hebbé est totalement différente. Il nous faut commencer par trouver une distribution pour P, a priori. Par exemple, nous pouvons considérer une loi uniforme sur l'intervalle 0,1.
09:39 En utilisant cette information, nous pouvons calculer la loi A postériori pour P. La valeur du C, comme dans les cas précédents, est obtenue en imposant que l'intégrale de cette dernière loi soit égale à 1.
09:57 On note que dans ce cas, c=1/b(k+1, n-k+1) où b est la fonction β. Donc la distribution de P correspond à une loi β.
10:13 Notons que dans l'approche d'Hebbé, nous obtenons la distribution de P, mais nous n'obtenons pas la valeur de P^. Il nous faut en fait utiliser la distribution de P pour déterminer cette valeur.
10:29 Par exemple, nous pouvons utiliser la mode de la distribution, c'est-à-dire quelle est la valeur qui a la plus haute probabilité. Nous pouvons aussi utiliser sa moyenne.
10:42 Plus généralement, on peut utiliser une fonction de perte, ou loss function, et on détermine la valeur de P^ qui minimise sa moyenne.
10:54 Vous trouverez dans la littérature de nombreuses fonctions de perte. Voici quelques-unes des plus populaires.
11:04 La fonction linéaire qui conduit à la médienne. Lorsqu'on minimise cette fonction, on obtient comme résultat la médienne de la distribution.
11:16 La fonction quadratique qui conduit à la moyenne. En minimisant cette fonction de perte, nous obtiendrons la moyenne de la distribution.
11:27 Enfin, nous avons la linéaire exponentielle ou l'INEXP. La linéaire exponentielle modifiée et la linéaire exponentielle généralisée.
11:43 Dans le cas d'une loi de Bernoulli, nous pouvons programmer facilement sous MATLAB la minimisation de toutes ces fonctions de perte. Voici des exemples de programmation.
11:59 Pour la situation où k=3 et n=5, l'estimation du Fischer nous produit la valeur 3/5 soit 0.6.
12:12 Vous verrez ici les tableaux des résultats correspondant aux différentes approches Bayesiennes avec des différentes fonctions de perte. Les valeurs s'étalent de 0.56 à 0.64.
12:31 Lorsqu'on dispose des plus de données, par exemple, sur 50 essais, nous avons observé 30 bilins, nous avons toujours la même estimation de 0.6.
12:46 Mais maintenant, les résultats Bayesiens tendent à se rapprocher et à se rapprocher à la fois entre eux et de la valeur 0.6.
12:58 Si nous enmontons encore les données utilisées, ici, 500 essais, les résultats se resserrent encore plus et sont encore plus proches de la valeur fischerienne.
13:14 On peut les confirmer en enmontant encore les nombres d'essais. Pour 5000 essais, nous n'avons pratiquement que des valeurs identiques.
13:26 Et si nous continuons à augmenter les nombres d'essais, par exemple ici à 50000, alors les résultats deviennent vraiment identiques.
13:41 Dans les essais, nous avons utilisé la fonction intégrale de Matlab pour déterminer les intégrales. Mais on peut les calculer, évidemment, en utilisant une méthode de trapèze.
13:56 Notamment Matlab vous propose la fonction intrinsèque TrapZ qui met en œuvre cette méthode.
14:06 Voici les résultats obtenus en utilisant un très grand nombre de points, 10 puissance 5 points sur l'intervalle 0,1.
14:17 Comme nous voyons, le comportement est pratiquement identique à celui observé précédemment.
14:26 Pour peu de données, 5 essais, les résultats sont différents. Mais au fur et à mesure que les nombres d'essais augmentent, les résultats se resserrent et se rapprochent de l'estimation de Fischer.
14:42 Et bien entendu, ça continue si on continue à augmenter les nombres d'essais. Donc les résultats tendent à se rapprocher lorsqu'on a beaucoup de données.
14:55 Et toutes les approches, y compris celle de Fischer, tendent à donner les mêmes résultats. Les différences apparaissent lorsque nous avons peu de données.
15:08 Un point important dans les procédures bayésiennes est l'existence d'un lien fort entre les couples modèle a priori et la distribution a posteriori.
15:24 En effet, la distribution a posteriori est complètement déterminée par les choix du couple modèle/distribution a priori.
15:37 Pour se référer à ces liens très forts, on parle de loi ou distribution conjuguée. Dans la littérature, on peut trouver des tables des lois conjuguées qui expriment cette relation.
15:56 Il existe aussi des familles dites « estables » pour lesquelles la loi a posteriori reste dans la même famille que la famille initiale,
16:08 lorsque les couples initials appartient à cette famille ou lorsque les modèles appartient à cette famille et la a priori est des types uniformes.
16:19 Et si encore, il existe des tables disponibles dans la littérature.
16:26 Un des points critiques dans la méthode des bayes est la détermination de la distribution a priori.
16:36 Il s'agit d'un point délicat qui a attiré l'attention et a été le sujet de travail de nombreux chercheurs.
16:44 Leur préoccupation était d'éliminer les caractères arbitraires et subjectifs de soi de la distribution a priori.
16:53 Tous ces chercheurs ont cherché à donner plus d'objectivité au choix des fonctions a priori.
17:03 On obtient ainsi la théorie des baies objectives qui traite des a priori objectifs.
17:11 Les chercheurs les plus connus ayant travaillé dans ce domaine sont Jeffrey, Janes et Bernardo.
17:19 Jeffrey a introduit la notion des a priori indépendants de la paramétrisation qu'il a appelée non-informatifs.
17:31 Ce terme a été contesté par Janes. Janes a proposé une autre approche, la maximisation de l'entropie.
17:41 Enfin, Bernardo a proposé ce qu'il appelle les a priori des références,
17:48 qui cherchent à maximiser la dissimilarité entre la postériorité et l'a priori.
17:55 Enfin, il existe une autre approche alternative qui est les a priori proposés par une approximation Hilbertienne.
18:07 On peut générer des approximations Hilbertiennes et les utiliser pour générer une distribution a priori.
18:16 Vous trouverez tous ces éléments dans la littérature.
18:20 Pour illustrer les différences entre quelques-unes de ces approches, considérons ici l'a priori de Jeffrey, qui est aussi celui de Bernardo.
18:34 Pour les cas d'une loi de Bernoulli, la probabilité a priori est a sur racine de P en -P.
18:43 Dans ces cas, la distribution de P correspond encore à une loi bêta mais des paramètres r=k+1/2 et s=n-k+1/2.
18:55 Si nous faisons les calculs en utilisant cet a priori de Jeffrey et de Bernardo, nous observons un comportement analogue.
19:08 Pour peu de données, les résultats sont un peu plus resserrés qu'avant, mais lorsqu'on a beaucoup de données, la convergence est encore plus rapide.
19:18 Les résultats se resserrent très rapidement autour de la valeur 0,6.
19:24 Et bien entendu, ça continue lorsqu'on en montre les nombres de données.
19:31 Encore une fois, les résultats se rapprochent et tendent à devenir les mêmes qui se fournissent par l'approximation de Fischer.
19:42 Prenons l'approximation de Jaynes, dans laquelle P(P)=a/P en -P. Dans ce cas, la distribution de P est encore une loi bêta des paramètres k, i, n, -k.
19:59 Comme vous pouvez observer, le comportement est analogue à celui des résultats précédents.
20:07 Pour peu de données, il y a une différence entre les approches, mais au fur et à mesure que le nombre de données augmente, la tendance est vers le resserrement autour de la valeur 0,6.
20:23 Ici, il est d'autant plus vrai qu'on a plus de données.
20:29 Les méthodes Bayesiennes sont très populaires de nos jours.
20:35 Vous trouverez dans la littérature de nombreux exemples et des applications de ces méthodes.
20:41 Dans les cours, il est temps de passer à la mise en œuvre.
20:45 Merci pour votre attention. Au revoir.

Recommandations