Bootstrap

Voir le sujet précédent Voir le sujet suivant Aller en bas

Bootstrap

Message par niaboc le Jeu 20 Nov 2014 - 19:41

Bonjour,

J'ai un petit souci théorique avec le bootstrap pour estimer un intervalle de confiance d'une moyenne.

Je procède avec un exemple :

j'ai 1000 individus qui suivent une loi normale standard.
J'estime la moyenne et l'écart type :
  -0.0127517 et  0.9958957

j'en déduis donc un intervalle de confiance pour l'estimation de la moyenne qui vaut :

-0.0127517+-1.96*0.9958957/racine(1000)

on observe notamment l'estimation de l'écart type de l'estimateur de la moyenne qui vaut 0.9958957/racine(1000)=0.03149


l'idée : faire un bootstrap de type jackknife. Je tire donc 1000 échantillons de 999 personnes et j'obtiens une distribution de moyenne.

Je calcule la moyenne de ces échantillons : -0.0127517
Jusque là tout est ok.

Mais lorsque je calcule l'écart type de cette distribution de moyenne, j'obtiens  : 0.000996893

Et je n'arrive pas à l'expliquer...


Voici le code SAS utilisé pour ceux qui veulent :

code sas:
Code:
/*1000 individus de loi normale standard*/
Data a;
   Do i=1 to 1000;
      x=rannor(0);
      output;
   end;
run;

/*moyenne et écart type des individus, et intervalle de confiance*/
proc means data=a mean clm std;
   var x;
run;


/*jackknife*/
%macro bootstrap;
option nonotes;

   proc delete data=bootstrap;
   run;

   %do i=1 %to 1000;

      %put on est rendu à &i;
      data b;
         set a;
         where i ne &i;
      run;

      proc means data=b noprint;
         var x;
         output out=c mean=mean std=std;
      run;

      data c;
         set c;
         i=&i;
      run;

      proc append data=c base=bootstrap force;
      run;
   %end;

   proc means data=bootstrap mean std;
      var mean;
   run;

option notes;
%mend bootstrap;

%bootstrap;

niaboc

Nombre de messages : 865
Age : 29
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Bootstrap

Message par gg le Jeu 20 Nov 2014 - 20:00

Bonsoir.

Tu as 1000 échantillons quasi identiques, donc tu as 1000 moyennes quasi égales. Rien d'étonnant que la dispersion soit très faible.

Cordialement.

gg

Nombre de messages : 1775
Date d'inscription : 10/01/2011

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Bootstrap

Message par niaboc le Jeu 20 Nov 2014 - 20:42

merci pour ta réponse.

J'avais pensé à ça, mais théoriquement on est censé retrouver deux valeurs proches. Enfin c'est ce que je pense avoir compris après avoir longtemps étudié la question. Comme par exemple là :
http://onlinelibrary.wiley.com/doi/10.1002/9780470906514.app2/pdf(page 1)

J'ai fait le même exercice avec 30 observations :

estimation de la variance de l'estimateur de la moyenne avec la formule classique : 0,172316768

et par Bootstrap j'obtiens 0,032.

J'ai remarqué que lorsque je divisais la première valeur par la racine du nombre d'individus, j'obtenais une valeur proche de la méthode bootstrap... mais est-ce une simple coïncidence?

Il y a un truc que je ne pige pas, mais j'arrive pas à trouver...


niaboc

Nombre de messages : 865
Age : 29
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Bootstrap

Message par gg le Jeu 20 Nov 2014 - 20:52

Que veux-tu dire par "théoriquement on est censé retrouver deux valeurs proches" ? Que la dispersion des moyennes des échantillons est proche de "l'estimation de l'écart type de l'estimateur de la moyenne" ? Il n'y a pas de raison. Ce serait vrai si on tirait 1000 échantillons de la population totale (supposée grande), mais là tes échantillons sont très liés les uns aux autres.
par contre, si tu fais du bootstrap avec de petits échantillons de ton gros échantillon, on retrouve la possibilité que les deux valeurs soient proches : Il y a moins de dépendance entre les résultats (entre les échantillons).

Cordialement.

gg

Nombre de messages : 1775
Date d'inscription : 10/01/2011

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Bootstrap

Message par niaboc le Jeu 20 Nov 2014 - 20:57

Si tu lis la première partie du document que j'ai mis, tu comprends quoi? C'est par là que je veux dire "théoriquement".

niaboc

Nombre de messages : 865
Age : 29
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Bootstrap

Message par niaboc le Jeu 20 Nov 2014 - 21:10

...


Dernière édition par niaboc le Ven 21 Nov 2014 - 11:37, édité 1 fois

niaboc

Nombre de messages : 865
Age : 29
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Bootstrap

Message par gg le Jeu 20 Nov 2014 - 21:15

J'ai surtout vu que ce qu'ils appellent variance n'en est pas une, puisque c'est thêta0 qui est utilisé, pas la moyenne des thêta-i.

Mais je suis très dubitatif sur l'utilisation du bootstrap. Je ne connais pas assez le contexte théorique pour aller plus loin. Désolé.

gg

Nombre de messages : 1775
Date d'inscription : 10/01/2011

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Bootstrap

Message par niaboc le Ven 21 Nov 2014 - 12:49

Dans ce document, j'ai pu retrouver la formule. Il y a bien un facteur (n-1) devant la variance de l'estimateur de la moyenne, comme je le pense, mais j'ai pas la démonstration...

http://www.unige.ch/math/folks/sardy/Papers/SFS.pdf (page 9)

niaboc

Nombre de messages : 865
Age : 29
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Bootstrap

Message par droopy le Ven 21 Nov 2014 - 13:19

Bonjour,

ça provient surement du fait que dans un cas tu calcules une variance sur des valeurs alors que dans l'autre cas tu établis une variance sur des estimations de moyennes.

cordialement

droopy

Nombre de messages : 986
Date d'inscription : 04/09/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Bootstrap

Message par droopy le Ven 21 Nov 2014 - 14:15

Pourtant ça se tient.

Dans le premier cas tu pars des valeurs et tu considères que chaque valeur est une variable aléatoire constituée de 1 valeur. Chacune des variables aléatoires est censée avoir la même moyenne mu et le même écart type sigma de sorte que selon le théorème central limite la somme de ces n variables aléatoires à pour moyenne n*mu et n*sigma. La moyenne d'échantillonnage est la variable aléatoire 1/n somme des X d'où on en déduit que son espérance vaut 1/n*(n*mu) = mu et que sa variance vaut 1/n²*(n*sigma²) donc sigma²/n d'où son écart type qui vaut sigma/racine(n)

Dans le deuxième cas tu calcules pour une moyenne à partir de n-1 valeur de ton vecteur de données. Donc au final tu as un vecteur de n moyennes calculées sur n-1 individus.
Si on applique le même raisonnement :
Ici les valeurs sont des moyennes, elles ont pour espérance mu mais chaque valeur à pour variance sigma'²/(n-1) (sigma' étant l'écart type estimé avec ici 29 valeurs) puisqu'il s'agit de moyennes et non pas de valeurs.
Donc la somme de ces moyennes à pour espérance n*mu et pour variance n*(sigma'²)/(n-1)
Donc la moyenne de ces valeurs (qui est une moyenne de moyennes) à pour espérance : 1/n*(n*mu) donc mu et pour variance 1/n²*(n*sigma'²)/(n-1) soit (sigma'²)/(n*(n-1)) donc son ecart type vaut sigma'/racine(n*(n-1)).

Dommage qu'on ne puisse pas insérer d'équation ... ou alors je ne sais pas comment faire.

droopy

Nombre de messages : 986
Date d'inscription : 04/09/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Bootstrap

Message par niaboc le Ven 21 Nov 2014 - 15:08

Pour le deuxième cas, je ne suis pas sûr. Car quand tu fais les calculs sur les variance, la variance de la somme n'est pas égale à la somme de la variance car les échantillons sont très corrélés entre eux?

et j'ai lu dans plusieurs livres que la variance Jackknife est égal à l'estimateur sans biais classique de la variance de la moyenne... ce qui n'est pas le cas ici.

niaboc

Nombre de messages : 865
Age : 29
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Bootstrap

Message par droopy le Ven 21 Nov 2014 - 15:19

effectivement.
La page wiki :
http://fr.wikipedia.org/wiki/Jackknife

droopy

Nombre de messages : 986
Date d'inscription : 04/09/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Bootstrap

Message par niaboc le Ven 21 Nov 2014 - 15:22

Mais je comprends pas également certains formules dans plusieurs livres qui devraient être identiques? exemple :

page 607

et le document pdf :
page 9 du pdf, numérotée à 11

ils parlent tous les deux de la variance de l'estimateur, mais dans un cas on a le (n-1) au numérateur et dans l'autre au dénominateur...

niaboc

Nombre de messages : 865
Age : 29
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Bootstrap

Message par droopy le Ven 21 Nov 2014 - 15:29

sur la page wiki en anglais tu trouves :

Ce qui correspond à cet article :
http://www.jstor.org/stable/2240822

droopy

Nombre de messages : 986
Date d'inscription : 04/09/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Bootstrap

Message par niaboc le Ven 21 Nov 2014 - 18:00

et sur le wiki en français, le n-1 est en dessous...

Mais avec mes exemples du premier post, je valide la formule anglaise plutôt. Mais je n'arrive pas à comprendre la différence entre les deux formules...

niaboc

Nombre de messages : 865
Age : 29
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Bootstrap

Message par Contenu sponsorisé Aujourd'hui à 10:43


Contenu sponsorisé


Revenir en haut Aller en bas

Voir le sujet précédent Voir le sujet suivant Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum