Bootstrap - grande base de données

par joyeux_lapin13 Mer 27 Mar 2013 - 7:11

Salut,

J'ai une population d'à peu prés 200k individus et je cherche à monter un filtre différentielle sur mes variables. Le souci étant qu'avec une telle population tous mes tests (Chi2) s'allument à tort... Par conséquent je me tâte à faire ça par bootstrap afin de diminuer la population et ainsi avoir une pseudo-pvalue représentative des liaisons entre mes variables.

J'ai deux questions majeurs en fait:
- quel taille de sous-population tirer afin d'être à l'équilibre entre test significatif robuste et effectif cohérent?
- étant donné le test, forcément il y a également un effet effectifs croisés sur-représentés qui vient bruiter les tests, dois-je faire en sorte de tirer autant d'individus sur les différents effectifs croisés?
- application d'une procédure corrective? (pour moi la réponse est "oui" mais je demande au cas où)

En vous remerciant pour vos lumières.

par FS Mer 27 Mar 2013 - 9:08

J'ai du mal à saisir le problème (c'est quoi un filtre différentielle ?)
tu peux pas tout simplement définir un seuil plus bas pour ton test ?
Et si tout est significatif c'est pas si grave, l'info importante c'est l'intensité des liaisons pas si elle existent.

Enfin le boostrap apporte de la robustesse en apprentissage mais je vois pas l’intérêt pour un test, surtout que ton effectif est déjà suffisamment grand pour avoir plusieurs sous échantillons représentatif.

par joyeux_lapin13 Mer 27 Mar 2013 - 9:48

Toutes mes variables ont une p-value < .0001 même sur des cas où il ne se passe stricto-sensus rien. J'ai lu cet effet régulièrement en cherchant sur le net: plus tu pars sur un échantillon énormément grand et plus la théorie des tests s'efface. L'idée est alors de réduire la population pour atteindre un effectif sur lequel le test s'aura mettre en valeur la présence ou l'absence de liaison. Quand tu parles d'intensité, tu parles du V de Cramer?

Après la raison du bootstrap vient essentiellement du fait que ma population peut se voir comme un groupe de sous-population appartement à des strates, je souhaite éviter de tirer aléatoirement une sous-population appartenant essentiellement à l'une de ces strates et donc perdre en représentativité, mais à côté de ça je ne puis déterminer les individus appartenant à chaque strate, sinon quoi je me serais contenter d'un tirage aléatoire équilibré entre mes différentes sous-populations bien définies.

par Stats Mer 27 Mar 2013 - 11:13

Bonjour,

Peut être que je me trompe totalement mais pourquoi ne pas faire une CAH et utiliser uniquement les parangons?

par joyeux_lapin13 Mer 27 Mar 2013 - 11:33

Appliquer une CAH c'est utiliser des critères comme le ccc, le pseudo-Rsquare ou le Rsquare pour déterminer les groupes, ce qui implique un biais utilisateur que je ne peux pas me permettre. De plus il y a un aspect contexte qui n'est pas forcément maîtrisé même chez les spécialistes du genre.

Le mieux reste l'approche que j'ai décrite, de plus le fait de pouvoir monter mes IC vont m'apporter énormément en information sur les p-values que j'aurais construites et la qualité de la méthode.

par Contenu sponsorisé

Bootstrap - grande base de données

Bootstrap - grande base de données

Re: Bootstrap - grande base de données

Re: Bootstrap - grande base de données

Re: Bootstrap - grande base de données

Re: Bootstrap - grande base de données

Re: Bootstrap - grande base de données