Les posteurs les plus actifs de la semaine
Eric Wajnberg
 
droopy
 
Pierre-Louis
 
CC_05_2018
 
c@ssoulet
 
DIA
 
laura138
 
Pascalou
 
DocRe
 
oulachzhar
 


Je ne comprends pas la logique du Bootstrapping

Aller en bas

Je ne comprends pas la logique du Bootstrapping

Message par zezima le Mer 18 Oct 2017 - 9:23

Bonjour,

Je suis en train d'étudier le bootstrapping.

Si j'ai bien compris, on a un petit échantillon (n<40) issu d'une population et on veut estimer des paramètres (moyenne, médiane, intervalles de confiance...) et au lieu de calculer classiquement ces paramètres, on utilise les valeurs déjà obtenues afin de simuler de manière itérative des échantillons fictifs ayant des valeurs comprises dans les valeurs de l'échantillon de base.

A l'aide de ces échantillons fictifs, on obtient une moyenne estimée, une médiane estimée et des intervalles de confiance estimés.

Là où je ne comprends pas, c'est pourquoi on serait censé avoir des données estimées plus réalistes que celles issues de l'échantillon de base ?
Savez-vous également s'il y a d'autres avantages au bootstrapping ?

Merci d'avance
avatar
zezima

Nombre de messages : 772
Date d'inscription : 26/02/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Je ne comprends pas la logique du Bootstrapping

Message par Florent Aubry le Mer 18 Oct 2017 - 13:37

Mon explication informelle du bootstrap est la suivante. Tout d'abord, les statistiques inférentielles sont fondées sur le fait qu'on devrait échantillonner la population d'étude par un processus d'échantilllonnage aléatoire avec remise où tous les individus ont la même probabilité d'être tirés. On montre que dans ce cas, qu'on peut construire la distribution réelle du paramètre d'intérêt à partir de tous les échantillons possibles de taille N, cet ensemble étant en théorie très grand ou infini. Donc tous les échantillons de taille N déduits par tirage avec remise de l'échantillon initial sont aussi des échantillons représentatifs au sens du critère d'échantillonnage (si N = 40, il en existe 40!). L'avantage du bootstrap est qu'il ne nécessite pas que les distributions soient gaussiennes ou appartiennent à la famille exponentielle. L'un des inconvénients repose sur la représentativité de l'échantillon.

Florent Aubry

Nombre de messages : 174
Date d'inscription : 02/11/2015

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Je ne comprends pas la logique du Bootstrapping

Message par zezima le Jeu 19 Oct 2017 - 8:22

Merci,

Donc si je comprends bien, le fait qu'on ait une remise et une sélection aléatoire des individus tirés dans notre échantillon de base peut complètement changer la loi de nos données ?

Imaginons qu'on ait une variable qui suit une loi log-normale avec quelques valeurs extrêmement élevées, le bootstrapping va-t'il avoir tendance à tirer des échantillons totalement aléatoires à partir des valeurs de l'échantillon de base ou va-t'il prendre en compte le fait qu'on ait une queue de distribution à droite sur l'échantillon de base ?
Car au final, l'aléa des itérations va tendre à transformer l'échantillon de base en échantillon gaussien si je ne dis pas de bêtises ?

Pour moi le bootstrapping a du sens lorsque la loi de l'échantillon de base est sensée être normale, même si dans les guides, il est spécifié que cela marche avec toutes les lois. (ou alors je suis passé à côté de quelque chose que je n'ai pas compris)

Le bootstrapping est donc à utiliser quand on est pas sûr du tout de notre échantillonnage ?
avatar
zezima

Nombre de messages : 772
Date d'inscription : 26/02/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Je ne comprends pas la logique du Bootstrapping

Message par Florent Aubry le Jeu 19 Oct 2017 - 10:05

Non zezima, le bootstrap permet de traiter des distributions non normales ou n'appartenant pas à la famille exponentielle. L'un des principaux problèmes du bootstrap est lié au problème de représentativité de l'échantillon. Si l'échantillon est 'mauvais', oui le bootstrap peut modifier la distribution mais c'est le lot de toutes les techniques inférentielles, par exemple en supposant la normalité des données sur de petits échantillons.

Pour la seconde question, oui sous l'hypothèse que l'échantillon est représentatif. Par contre, s'il y a trop de très grandes valeurs, il va avoir tendance à donner plus de poids qu'en réalité à ces grandes valeurs.

Pour la troisième question, c'est non. La tendance gaussienne c'est la loi de la limite centrale et on peut l'obtenir pour la moyenne si on refait des tirages aléatoires avec remise dans la population de base, ce qui fait que des individus non pris en compte dans les tirages précédents seront pris en compte. Le bootstrap travaille sur l'échantillon, il n'y a donc pas de nouveaux individus dans les tirages. De plus, tandis que le théorème de la limite centrale s'applique à un paramètre (e.g., la moyenne) et la méthode classique calcule alors l'estimateur du paramètre d'intérêt, le bootstrap calcul à chaque tirage la distribution empirique et analyse alors ce nouvel échantillon comme si c'était une échantillon de novo. Il va donc construire la distribution du paramètre d'intérêt et travailler sur cette distribution.

Le bootstrapping est donc à utiliser quand on est pas sûr du tout de notre échantillonnage ?
Oui. C'est d'ailleurs son principal intérêt. Ensuite, il existe des méthodes pour améliorer les chose : correction du biais, bootstrap 0.632, bootstrap stratifié ou pondéré, double boostrap, wild bootstrap...

Florent Aubry

Nombre de messages : 174
Date d'inscription : 02/11/2015

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Je ne comprends pas la logique du Bootstrapping

Message par Eric Wajnberg le Sam 21 Oct 2017 - 1:34

Je pense qu'il faut séparer la discussion en deux. Statistique descriptive, et statistique inférentielle. La question initiale de zezima concernant l'estimation de paramètres descriptifs uniquement. La réponse de Florent allait sur de l'inférentielle.

En statistique descriptive, on se fout généralement de la loi sous-jacente. Un écart-type est un écart-type quelle que soit la loi (ca se démontre facilement en passant par la maximisation d'une vraisemblance), etc. Dans ce cas, l'idée du bootstrap (ou du jacknife) est juste d'avoir une estimation plus solide si on a sous la main peu d'observations.

En statistique inférentielle, la réponse de Florent est complète. En bootstrapant, on s’affranchit des hypothèses sur la distribution des statistiques calculées, sans perdre trop de puissance.

HTH, Eric.
avatar
Eric Wajnberg

Nombre de messages : 864
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Je ne comprends pas la logique du Bootstrapping

Message par zezima le Mar 24 Oct 2017 - 7:59

Désolé pour la réponse tardive, j'avais pas mal de projets en cours.

Merci beaucoup pour ces réponses, c'est beaucoup plus clair.
J'ai compris la logique maintenant et je trouve ça cohérent étant donné qu'on a toujours un aléa dans l'échantillonnage.

Je pense que je vais me lancer dans des petites simulations pour évaluer le bénéfice-risque du bootstrapping en fonction des paramètres de mes données.

Merci
avatar
zezima

Nombre de messages : 772
Date d'inscription : 26/02/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Je ne comprends pas la logique du Bootstrapping

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut


 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum