variance corrigée - test de proportion

par niaboc Ven 19 Jan 2018 - 17:15

Bonjour,

petite question un peu bête de fin de semaine... Pourquoi n'utilise-t-on jamais la variance corrigée lors d'un test de proportion?

variance corrigée - test de proportion F24

variance corrigée - test de proportion F24

pourquoi le dénominateur ne serait pas : [n/(n-1) * p * (1-p)]/n = [p*(1-p)] / (n-1)?

Niaboc

par Eric Wajnberg Sam 20 Jan 2018 - 20:35

Parce qu'on est ici sur un estimateur du maximum de vraisemblance.

Je m'explique. Dans le cas d'une loi binomiale, l'estimateur du maximum de vraisemblance du paramètre p est m/n et sa SE est sqrt(p(1-p)/n). Et ceci est l'estimateur de la population (ça se démontre facilement).

Dans le cas d'une loi normale (entre autres), l'estimateur (toujours du maximum de vraisemblance) de la variance de l'échantillon est somme((x-mu)^2/n) mais on peut (encore une fois facilement) démontrer que cet estimateur est biaisé si on veut estimer la variance de la population à partir de l'échantillon (après tout, l'échantillon, on s'en tape). Pour corriger le biais, il faut appliquer la correction n/(n-1). Mais ce calcul (et la correction du biais) ne concerne donc pas le cas d'une loi binomiale.

J'espère être clair.

HTH, Eric.

par niaboc Dim 21 Jan 2018 - 9:41

A partir de tes explications, j'ai distingué 2 cas :

variance corrigée - test de proportion Proportion-test

Dans le test de l'image ci-dessus (qui était à l'origine l'image du premier post), c'est un test face à une proportion de référence. On considère cette proportion de référence comme étant la proportion réelle de notre population et donc la variance P0(1-P0)/n doit être utilisée car il n'y a pas de raisons de biais. Dans le cas d'une loi normale, par exemple, on est toujours obligé de passer par l'estimation de la variance via l'échantillon et on utilise donc la correction (n-1).

A contrario, lorsque nous souhaitons calculer simplement l'estimateur de la variance d'une proportion (pour calculer un intervalle de confiance par exemple), je ne comprends pas pourquoi il ne faudrait pas utiliser la correction (n-1)?
On trouve que très rarement cette correction, et je ne sais pas si elle est correcte ou pas?
On la trouve dans ces liens par exemple :

par exemple dans ce pdf page 4/5 (numéroté 208/209) on peut lire que p(1-p)/(n-1) est l'estimateur non biaisé :
http://math.arizona.edu/~jwatkins/N_unbiased.pdf

ou encore dans ces discussions :
https://stats.stackexchange.com/questions/83033/why-is-variance-calculated-as-p1-p-n-1
https://stats.stackexchange.com/questions/61815/unbiased-estimator-of-variance-of-binomial-variable

Niaboc

par Eric Wajnberg Dim 21 Jan 2018 - 10:02

niaboc a écrit:Dans le test de l'image copiée dans le post d'origine, c'est un test face à une proportion de référence. On considère cette proportion de référence comme étant la proportion réelle de notre population et donc la variance P0(1-P0)/n doit être utilisée car il n'y a pas de raisons de biais. Dans le cas d'une loi normale, par exemple, on est toujours obligé de passer par l'estimation de la variance via l'échantillon et on utilise donc la correction (n-1).

Dans les deux cas, ce qui nous intéresse est de faire de l'inférence sur la population à partir de l'échantillon. Dans le cas d'un estimateur sur le paramètre d'une loi binomiale, p, sa variance est p(1-p)/n, et cet estimateur est non biaisé. Dans le cas d'une loi normale, il nous faut estimer la variance de la population à partir de celle de l'échantillon. Il y a un biais ici qu'il faut corriger par n/(n-1). C'est juste ça, rien d'autre.

niaboc a écrit:A contrario, lorsque nous souhaitons calculer simplement l'estimateur de la variance d'une proportion (pour calculer un intervalle de confiance par exemple), je ne comprends pas pourquoi il ne faudrait pas utiliser la correction (n-1)?

Parce qu'il n'y a pas de biais dans l'estimateur (du maximum de vraisemblance) lorsqu'on est dans le cas d'une loi binomiale.

niaboc a écrit:On trouve que très rarement cette correction, et je ne sais pas si elle est correcte ou pas?
On la trouve dans ces liens par exemple :

par exemple dans ce pdf page 4/5 (numéroté 208/209) on peut lire que p(1-p)/(n-1) est l'estimateur non biaisé :
http://math.arizona.edu/~jwatkins/N_unbiased.pdf

ou encore dans ces discussions :
https://stats.stackexchange.com/questions/83033/why-is-variance-calculated-as-p1-p-n-1
https://stats.stackexchange.com/questions/61815/unbiased-estimator-of-variance-of-binomial-variable

Encore une fois, dans le cas d'un estimateur pour une loi binomiale, il n'y a pas de biais. Il est erroné de faire une correction dans ce cas.

HTH, Eric.

par niaboc Dim 21 Jan 2018 - 12:50

Eric Wajnberg a écrit:dans le cas d'un estimateur pour une loi binomiale, il n'y a pas de biais. Il est erroné de faire une correction dans ce cas.

Auriez-vous la démonstration quelque part de ça? Pour être certain de ne pas me reposer la même question un jour.

par Eric Wajnberg Lun 22 Jan 2018 - 6:18

Je n'arrive pas à retrouver sur le web cette démonstration (mais elle doit y être). Mais elle est simple à calculer à la main. L'estimateur du paramètre p s’obtient en annulant la dérivée première du log de la vraisemblance (puis qu'on cherche un maximum), et la variance est estimée par l'opposé de l'inverse de la dérivée seconde. Ca tient en quelques lignes sur un papier (je vous invite à faire le calcul de votre côté, c'est un exercice utile, et je peux vous aider si vous voulez).

Sinon, j'ai trouvé ce site qui est assez complet : http://www.sciences.ch/htmlfr/arithmetique/arithmetiquestatistiques02.php

HTH, Eric.

par niaboc Mer 24 Jan 2018 - 1:08

Je veux bien de votre aide puisque j'ai fait des calculs, mais je retrouve le biais qu'il faudrait corriger par n/(n-1)!?! Je dois donc avoir une erreur quelque part.

Voici mes calculs :

Soit Xi, n variables aléatoires iid qui suivent une loi de Bernouilli de paramètre p.
La somme des Xi suit une loi Binomiale.

En calculant l'estimateur du maximum de vraisemblance, on va trouver logiquement :

estimateur(p)=somme(Xi)
et estimateur(variance de p)=somme(Xi)*(1-somme(Xi)/n)

(je suis parti de la matrice d'information de Fisher pour une loi de Bernouilli qui vaut : 1/(p*(1-p))
l'inverse de cette dernière est p*(1-p) et donc la variance pour une Binomiale serait logiquement np(1-p) )

On retrouve donc l'écriture de np et np*(1-p)

Mais l'estimateur du maximum de vraisemblance ne me dit pas qu'il est sans biais?

Pour calculer le biais j'ai utilisé la formule classique :

E(variance de p)-np*(1-p)
et en faisant les calculs je me suis aperçu que le résultat n'était pas nul... sauf si on corrigeait la variance par n/(n-1).

E[n/(n-1) * somme(Xi)*(1-somme(Xi)/n) ]
=E[somme(Xi)*(n-somme(Xi))/(n-1)]
=E[n*somme(Xi)]/(n-1) - E[(somme(Xi))²]/(n-1)
= (n²*p - n*(n-1)*p² - n*p) / (n-1)
= (np*(n-1) - n(n-1)p²)/(n-1)
= np-np²
= np(1-p)

Et donc E[n/(n-1) * somme(Xi)*(1-somme(Xi)/n) ]-np(1-p) =0

Et l'estimateur du maximum de vraisemblance serait biaisé??

Qu'en pensez-vous?

par Eric Wajnberg Mer 24 Jan 2018 - 11:08

J'essaye de répondre.

On part d'une loi binomiale (pas exactement Bernouilli) qui est basée sur deux possibilités, A et B. On observe m A et n-m B. La probabilité V d'observer une telle situation (i.e., la vraisemblance) est donnée par la loi binomiale :

V= Combin(n, n-m). p^m.(1-p)^(n-m)

Le log de cette vraisemblance vaut :

L= Log(Combin(n, n-m)) + m.Log(p) + (n-m).Log(1-p).

L'estimation de p par maximum de vraisemblance revient à chercher la valeur de p qui annule dL/dp (il s'agit de d_rond). On tombe évidement sur p_chapeau=m/n.

On veut estimer la variance de ce paramètre p. Elle s'estime par -(d2L/dp2)^-1 (l'opposé de l'inverse de la dérivée seconde du log de la vraisemblance ; effectivement ceci vient la matrice d'information de Fisher). Le calcul n'est pas très long, on tombe sur :

var(p) =p.(1-p)/n

Il s'agit d'un estimateur du maximum de vraisemblance, qui a été démontré (par Fisher vers les années 1910) comme ayant plein de propriétés sympathiques, comme par exemple la consistance (on dit aussi convergence) c'est à dire qui converge vers la vraie valeur, sans biais, etc.

HTH, Eric.

par niaboc Mer 24 Jan 2018 - 11:50

Par contre l'estimateur est consistant, ça oui, mais consistant veut-il forcément dire sans biais??

Meric pour la réponse même si ça ne m'aide pas dans la justification ou non de mon calcul.

par Eric Wajnberg Mer 24 Jan 2018 - 12:27

Oui, consistant veut dire sans biais, autant que je le sache.

Eric.

par niaboc Mer 24 Jan 2018 - 12:41

Etes-vous certain de ça?

On peut lire dans de nombreux documents que tel ou tel estimateur est "consistant et sans biais" ou encore "consistant et biaisé".

Consistant exprime l'idée de convergence ce qui est différent d'un biais?

par droopy Mer 24 Jan 2018 - 13:09

Bonjour,

Est-ce qu'il n'y a pas de corrections parce que la variance est supposée connue ? Le p0 est la proportion de la population donc sa variance est connue et de formule p0.(1-p0)/n.

Cdlt

par niaboc Mer 24 Jan 2018 - 13:32

droopy a écrit:Bonjour,

Est-ce qu'il n'y a pas de corrections parce que la variance est supposée connue ? Le p0 est la proportion de la population donc sa variance est connue et de formule p0.(1-p0)/n.

Cdlt

Oui c'est pour ça que j'avais écrit ça un peu plus loin (même si j'ai laissé la même image):

"A partir de tes explications, j'ai distingué 2 cas :

Dans le test de l'image copiée dans le post d'origine, c'est un test face à une proportion de référence. On considère cette proportion de référence comme étant la proportion réelle de notre population et donc la variance P0(1-P0)/n doit être utilisée car il n'y a pas de raisons de biais. Dans le cas d'une loi normale, par exemple, on est toujours obligé de passer par l'estimation de la variance via l'échantillon et on utilise donc la correction (n-1).

A contrario, lorsque nous souhaitons calculer simplement l'estimateur de la variance d'une proportion (pour calculer un intervalle de confiance par exemple), je ne comprends pas pourquoi il ne faudrait pas utiliser la correction (n-1)?"

par Contenu sponsorisé

variance corrigée - test de proportion

variance corrigée - test de proportion

Re: variance corrigée - test de proportion

Re: variance corrigée - test de proportion

Re: variance corrigée - test de proportion

Re: variance corrigée - test de proportion

Re: variance corrigée - test de proportion

Re: variance corrigée - test de proportion

Re: variance corrigée - test de proportion

Re: variance corrigée - test de proportion

Re: variance corrigée - test de proportion

Re: variance corrigée - test de proportion

Re: variance corrigée - test de proportion

Re: variance corrigée - test de proportion

Re: variance corrigée - test de proportion