Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Je ne comprends pas la logique du Bootstrapping
3 participants
Page 1 sur 1
Je ne comprends pas la logique du Bootstrapping
Bonjour,
Je suis en train d'étudier le bootstrapping.
Si j'ai bien compris, on a un petit échantillon (n<40) issu d'une population et on veut estimer des paramètres (moyenne, médiane, intervalles de confiance...) et au lieu de calculer classiquement ces paramètres, on utilise les valeurs déjà obtenues afin de simuler de manière itérative des échantillons fictifs ayant des valeurs comprises dans les valeurs de l'échantillon de base.
A l'aide de ces échantillons fictifs, on obtient une moyenne estimée, une médiane estimée et des intervalles de confiance estimés.
Là où je ne comprends pas, c'est pourquoi on serait censé avoir des données estimées plus réalistes que celles issues de l'échantillon de base ?
Savez-vous également s'il y a d'autres avantages au bootstrapping ?
Merci d'avance
Je suis en train d'étudier le bootstrapping.
Si j'ai bien compris, on a un petit échantillon (n<40) issu d'une population et on veut estimer des paramètres (moyenne, médiane, intervalles de confiance...) et au lieu de calculer classiquement ces paramètres, on utilise les valeurs déjà obtenues afin de simuler de manière itérative des échantillons fictifs ayant des valeurs comprises dans les valeurs de l'échantillon de base.
A l'aide de ces échantillons fictifs, on obtient une moyenne estimée, une médiane estimée et des intervalles de confiance estimés.
Là où je ne comprends pas, c'est pourquoi on serait censé avoir des données estimées plus réalistes que celles issues de l'échantillon de base ?
Savez-vous également s'il y a d'autres avantages au bootstrapping ?
Merci d'avance
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: Je ne comprends pas la logique du Bootstrapping
Mon explication informelle du bootstrap est la suivante. Tout d'abord, les statistiques inférentielles sont fondées sur le fait qu'on devrait échantillonner la population d'étude par un processus d'échantilllonnage aléatoire avec remise où tous les individus ont la même probabilité d'être tirés. On montre que dans ce cas, qu'on peut construire la distribution réelle du paramètre d'intérêt à partir de tous les échantillons possibles de taille N, cet ensemble étant en théorie très grand ou infini. Donc tous les échantillons de taille N déduits par tirage avec remise de l'échantillon initial sont aussi des échantillons représentatifs au sens du critère d'échantillonnage (si N = 40, il en existe 40!). L'avantage du bootstrap est qu'il ne nécessite pas que les distributions soient gaussiennes ou appartiennent à la famille exponentielle. L'un des inconvénients repose sur la représentativité de l'échantillon.
Florent Aubry- Nombre de messages : 251
Date d'inscription : 02/11/2015
Re: Je ne comprends pas la logique du Bootstrapping
Merci,
Donc si je comprends bien, le fait qu'on ait une remise et une sélection aléatoire des individus tirés dans notre échantillon de base peut complètement changer la loi de nos données ?
Imaginons qu'on ait une variable qui suit une loi log-normale avec quelques valeurs extrêmement élevées, le bootstrapping va-t'il avoir tendance à tirer des échantillons totalement aléatoires à partir des valeurs de l'échantillon de base ou va-t'il prendre en compte le fait qu'on ait une queue de distribution à droite sur l'échantillon de base ?
Car au final, l'aléa des itérations va tendre à transformer l'échantillon de base en échantillon gaussien si je ne dis pas de bêtises ?
Pour moi le bootstrapping a du sens lorsque la loi de l'échantillon de base est sensée être normale, même si dans les guides, il est spécifié que cela marche avec toutes les lois. (ou alors je suis passé à côté de quelque chose que je n'ai pas compris)
Le bootstrapping est donc à utiliser quand on est pas sûr du tout de notre échantillonnage ?
Donc si je comprends bien, le fait qu'on ait une remise et une sélection aléatoire des individus tirés dans notre échantillon de base peut complètement changer la loi de nos données ?
Imaginons qu'on ait une variable qui suit une loi log-normale avec quelques valeurs extrêmement élevées, le bootstrapping va-t'il avoir tendance à tirer des échantillons totalement aléatoires à partir des valeurs de l'échantillon de base ou va-t'il prendre en compte le fait qu'on ait une queue de distribution à droite sur l'échantillon de base ?
Car au final, l'aléa des itérations va tendre à transformer l'échantillon de base en échantillon gaussien si je ne dis pas de bêtises ?
Pour moi le bootstrapping a du sens lorsque la loi de l'échantillon de base est sensée être normale, même si dans les guides, il est spécifié que cela marche avec toutes les lois. (ou alors je suis passé à côté de quelque chose que je n'ai pas compris)
Le bootstrapping est donc à utiliser quand on est pas sûr du tout de notre échantillonnage ?
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: Je ne comprends pas la logique du Bootstrapping
Non zezima, le bootstrap permet de traiter des distributions non normales ou n'appartenant pas à la famille exponentielle. L'un des principaux problèmes du bootstrap est lié au problème de représentativité de l'échantillon. Si l'échantillon est 'mauvais', oui le bootstrap peut modifier la distribution mais c'est le lot de toutes les techniques inférentielles, par exemple en supposant la normalité des données sur de petits échantillons.
Pour la seconde question, oui sous l'hypothèse que l'échantillon est représentatif. Par contre, s'il y a trop de très grandes valeurs, il va avoir tendance à donner plus de poids qu'en réalité à ces grandes valeurs.
Pour la troisième question, c'est non. La tendance gaussienne c'est la loi de la limite centrale et on peut l'obtenir pour la moyenne si on refait des tirages aléatoires avec remise dans la population de base, ce qui fait que des individus non pris en compte dans les tirages précédents seront pris en compte. Le bootstrap travaille sur l'échantillon, il n'y a donc pas de nouveaux individus dans les tirages. De plus, tandis que le théorème de la limite centrale s'applique à un paramètre (e.g., la moyenne) et la méthode classique calcule alors l'estimateur du paramètre d'intérêt, le bootstrap calcul à chaque tirage la distribution empirique et analyse alors ce nouvel échantillon comme si c'était une échantillon de novo. Il va donc construire la distribution du paramètre d'intérêt et travailler sur cette distribution.
Pour la seconde question, oui sous l'hypothèse que l'échantillon est représentatif. Par contre, s'il y a trop de très grandes valeurs, il va avoir tendance à donner plus de poids qu'en réalité à ces grandes valeurs.
Pour la troisième question, c'est non. La tendance gaussienne c'est la loi de la limite centrale et on peut l'obtenir pour la moyenne si on refait des tirages aléatoires avec remise dans la population de base, ce qui fait que des individus non pris en compte dans les tirages précédents seront pris en compte. Le bootstrap travaille sur l'échantillon, il n'y a donc pas de nouveaux individus dans les tirages. De plus, tandis que le théorème de la limite centrale s'applique à un paramètre (e.g., la moyenne) et la méthode classique calcule alors l'estimateur du paramètre d'intérêt, le bootstrap calcul à chaque tirage la distribution empirique et analyse alors ce nouvel échantillon comme si c'était une échantillon de novo. Il va donc construire la distribution du paramètre d'intérêt et travailler sur cette distribution.
Oui. C'est d'ailleurs son principal intérêt. Ensuite, il existe des méthodes pour améliorer les chose : correction du biais, bootstrap 0.632, bootstrap stratifié ou pondéré, double boostrap, wild bootstrap...Le bootstrapping est donc à utiliser quand on est pas sûr du tout de notre échantillonnage ?
Florent Aubry- Nombre de messages : 251
Date d'inscription : 02/11/2015
Re: Je ne comprends pas la logique du Bootstrapping
Je pense qu'il faut séparer la discussion en deux. Statistique descriptive, et statistique inférentielle. La question initiale de zezima concernant l'estimation de paramètres descriptifs uniquement. La réponse de Florent allait sur de l'inférentielle.
En statistique descriptive, on se fout généralement de la loi sous-jacente. Un écart-type est un écart-type quelle que soit la loi (ca se démontre facilement en passant par la maximisation d'une vraisemblance), etc. Dans ce cas, l'idée du bootstrap (ou du jacknife) est juste d'avoir une estimation plus solide si on a sous la main peu d'observations.
En statistique inférentielle, la réponse de Florent est complète. En bootstrapant, on s’affranchit des hypothèses sur la distribution des statistiques calculées, sans perdre trop de puissance.
HTH, Eric.
En statistique descriptive, on se fout généralement de la loi sous-jacente. Un écart-type est un écart-type quelle que soit la loi (ca se démontre facilement en passant par la maximisation d'une vraisemblance), etc. Dans ce cas, l'idée du bootstrap (ou du jacknife) est juste d'avoir une estimation plus solide si on a sous la main peu d'observations.
En statistique inférentielle, la réponse de Florent est complète. En bootstrapant, on s’affranchit des hypothèses sur la distribution des statistiques calculées, sans perdre trop de puissance.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Je ne comprends pas la logique du Bootstrapping
Désolé pour la réponse tardive, j'avais pas mal de projets en cours.
Merci beaucoup pour ces réponses, c'est beaucoup plus clair.
J'ai compris la logique maintenant et je trouve ça cohérent étant donné qu'on a toujours un aléa dans l'échantillonnage.
Je pense que je vais me lancer dans des petites simulations pour évaluer le bénéfice-risque du bootstrapping en fonction des paramètres de mes données.
Merci
Merci beaucoup pour ces réponses, c'est beaucoup plus clair.
J'ai compris la logique maintenant et je trouve ça cohérent étant donné qu'on a toujours un aléa dans l'échantillonnage.
Je pense que je vais me lancer dans des petites simulations pour évaluer le bénéfice-risque du bootstrapping en fonction des paramètres de mes données.
Merci
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Sujets similaires
» Logique Floue
» Loi hypergéométrique ... Je n'y comprends RIEN !
» Etendre logique echantillon sur ensemble
» l'argument n'est ni numérique, ni logique : renvoi de NA
» AU SECOURS je ne comprends rien !!!
» Loi hypergéométrique ... Je n'y comprends RIEN !
» Etendre logique echantillon sur ensemble
» l'argument n'est ni numérique, ni logique : renvoi de NA
» AU SECOURS je ne comprends rien !!!
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum