Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Bootstrap - grande base de données
3 participants
Page 1 sur 1
Bootstrap - grande base de données
Salut,
J'ai une population d'à peu prés 200k individus et je cherche à monter un filtre différentielle sur mes variables. Le souci étant qu'avec une telle population tous mes tests (Chi2) s'allument à tort... Par conséquent je me tâte à faire ça par bootstrap afin de diminuer la population et ainsi avoir une pseudo-pvalue représentative des liaisons entre mes variables.
J'ai deux questions majeurs en fait:
- quel taille de sous-population tirer afin d'être à l'équilibre entre test significatif robuste et effectif cohérent?
- étant donné le test, forcément il y a également un effet effectifs croisés sur-représentés qui vient bruiter les tests, dois-je faire en sorte de tirer autant d'individus sur les différents effectifs croisés?
- application d'une procédure corrective? (pour moi la réponse est "oui" mais je demande au cas où)
En vous remerciant pour vos lumières.
J'ai une population d'à peu prés 200k individus et je cherche à monter un filtre différentielle sur mes variables. Le souci étant qu'avec une telle population tous mes tests (Chi2) s'allument à tort... Par conséquent je me tâte à faire ça par bootstrap afin de diminuer la population et ainsi avoir une pseudo-pvalue représentative des liaisons entre mes variables.
J'ai deux questions majeurs en fait:
- quel taille de sous-population tirer afin d'être à l'équilibre entre test significatif robuste et effectif cohérent?
- étant donné le test, forcément il y a également un effet effectifs croisés sur-représentés qui vient bruiter les tests, dois-je faire en sorte de tirer autant d'individus sur les différents effectifs croisés?
- application d'une procédure corrective? (pour moi la réponse est "oui" mais je demande au cas où)
En vous remerciant pour vos lumières.
Re: Bootstrap - grande base de données
J'ai du mal à saisir le problème (c'est quoi un filtre différentielle ?)
tu peux pas tout simplement définir un seuil plus bas pour ton test ?
Et si tout est significatif c'est pas si grave, l'info importante c'est l'intensité des liaisons pas si elle existent.
Enfin le boostrap apporte de la robustesse en apprentissage mais je vois pas l’intérêt pour un test, surtout que ton effectif est déjà suffisamment grand pour avoir plusieurs sous échantillons représentatif.
tu peux pas tout simplement définir un seuil plus bas pour ton test ?
Et si tout est significatif c'est pas si grave, l'info importante c'est l'intensité des liaisons pas si elle existent.
Enfin le boostrap apporte de la robustesse en apprentissage mais je vois pas l’intérêt pour un test, surtout que ton effectif est déjà suffisamment grand pour avoir plusieurs sous échantillons représentatif.
FS- Nombre de messages : 163
Date d'inscription : 25/04/2008
Re: Bootstrap - grande base de données
Toutes mes variables ont une p-value < .0001 même sur des cas où il ne se passe stricto-sensus rien. J'ai lu cet effet régulièrement en cherchant sur le net: plus tu pars sur un échantillon énormément grand et plus la théorie des tests s'efface. L'idée est alors de réduire la population pour atteindre un effectif sur lequel le test s'aura mettre en valeur la présence ou l'absence de liaison. Quand tu parles d'intensité, tu parles du V de Cramer?
Après la raison du bootstrap vient essentiellement du fait que ma population peut se voir comme un groupe de sous-population appartement à des strates, je souhaite éviter de tirer aléatoirement une sous-population appartenant essentiellement à l'une de ces strates et donc perdre en représentativité, mais à côté de ça je ne puis déterminer les individus appartenant à chaque strate, sinon quoi je me serais contenter d'un tirage aléatoire équilibré entre mes différentes sous-populations bien définies.
Après la raison du bootstrap vient essentiellement du fait que ma population peut se voir comme un groupe de sous-population appartement à des strates, je souhaite éviter de tirer aléatoirement une sous-population appartenant essentiellement à l'une de ces strates et donc perdre en représentativité, mais à côté de ça je ne puis déterminer les individus appartenant à chaque strate, sinon quoi je me serais contenter d'un tirage aléatoire équilibré entre mes différentes sous-populations bien définies.
Re: Bootstrap - grande base de données
Bonjour,
Peut être que je me trompe totalement mais pourquoi ne pas faire une CAH et utiliser uniquement les parangons?
Peut être que je me trompe totalement mais pourquoi ne pas faire une CAH et utiliser uniquement les parangons?
Stats- Nombre de messages : 4
Date d'inscription : 15/03/2013
Re: Bootstrap - grande base de données
Appliquer une CAH c'est utiliser des critères comme le ccc, le pseudo-Rsquare ou le Rsquare pour déterminer les groupes, ce qui implique un biais utilisateur que je ne peux pas me permettre. De plus il y a un aspect contexte qui n'est pas forcément maîtrisé même chez les spécialistes du genre.
Le mieux reste l'approche que j'ai décrite, de plus le fait de pouvoir monter mes IC vont m'apporter énormément en information sur les p-values que j'aurais construites et la qualité de la méthode.
Le mieux reste l'approche que j'ai décrite, de plus le fait de pouvoir monter mes IC vont m'apporter énormément en information sur les p-values que j'aurais construites et la qualité de la méthode.
Sujets similaires
» ACM CAH (données qualitatives & grosse base de données)
» Logiciel de base de données
» Base de données exercice
» Où trouver une base de données pourméthodes nonparamétriques
» cherche base de données URGENT
» Logiciel de base de données
» Base de données exercice
» Où trouver une base de données pourméthodes nonparamétriques
» cherche base de données URGENT
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum