Les posteurs les plus actifs de la semaine
joyeux_lapin13
 
zeu
 
gg
 
schlebe
 
zezima
 
Yacouba_KONE
 
rayanes159
 
noviceST
 
Eric Wajnberg
 
Nik
 


Bootstrap - grande base de données

Voir le sujet précédent Voir le sujet suivant Aller en bas

Bootstrap - grande base de données

Message par joyeux_lapin13 le Mer 27 Mar 2013 - 7:11

Salut,

J'ai une population d'à peu prés 200k individus et je cherche à monter un filtre différentielle sur mes variables. Le souci étant qu'avec une telle population tous mes tests (Chi2) s'allument à tort... Par conséquent je me tâte à faire ça par bootstrap afin de diminuer la population et ainsi avoir une pseudo-pvalue représentative des liaisons entre mes variables.

J'ai deux questions majeurs en fait:
- quel taille de sous-population tirer afin d'être à l'équilibre entre test significatif robuste et effectif cohérent?
- étant donné le test, forcément il y a également un effet effectifs croisés sur-représentés qui vient bruiter les tests, dois-je faire en sorte de tirer autant d'individus sur les différents effectifs croisés?
- application d'une procédure corrective? (pour moi la réponse est "oui" mais je demande au cas où)

En vous remerciant pour vos lumières.

joyeux_lapin13

Nombre de messages : 1670
Age : 33
Localisation : Mayotte
Date d'inscription : 21/04/2010

Voir le profil de l'utilisateur https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

Re: Bootstrap - grande base de données

Message par FS le Mer 27 Mar 2013 - 9:08

J'ai du mal à saisir le problème (c'est quoi un filtre différentielle ?)
tu peux pas tout simplement définir un seuil plus bas pour ton test ?
Et si tout est significatif c'est pas si grave, l'info importante c'est l'intensité des liaisons pas si elle existent.

Enfin le boostrap apporte de la robustesse en apprentissage mais je vois pas l’intérêt pour un test, surtout que ton effectif est déjà suffisamment grand pour avoir plusieurs sous échantillons représentatif.

FS

Nombre de messages : 163
Date d'inscription : 25/04/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Bootstrap - grande base de données

Message par joyeux_lapin13 le Mer 27 Mar 2013 - 9:48

Toutes mes variables ont une p-value < .0001 même sur des cas où il ne se passe stricto-sensus rien. J'ai lu cet effet régulièrement en cherchant sur le net: plus tu pars sur un échantillon énormément grand et plus la théorie des tests s'efface. L'idée est alors de réduire la population pour atteindre un effectif sur lequel le test s'aura mettre en valeur la présence ou l'absence de liaison. Quand tu parles d'intensité, tu parles du V de Cramer?

Après la raison du bootstrap vient essentiellement du fait que ma population peut se voir comme un groupe de sous-population appartement à des strates, je souhaite éviter de tirer aléatoirement une sous-population appartenant essentiellement à l'une de ces strates et donc perdre en représentativité, mais à côté de ça je ne puis déterminer les individus appartenant à chaque strate, sinon quoi je me serais contenter d'un tirage aléatoire équilibré entre mes différentes sous-populations bien définies.

joyeux_lapin13

Nombre de messages : 1670
Age : 33
Localisation : Mayotte
Date d'inscription : 21/04/2010

Voir le profil de l'utilisateur https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

Re: Bootstrap - grande base de données

Message par Stats le Mer 27 Mar 2013 - 11:13

Bonjour,

Peut être que je me trompe totalement mais pourquoi ne pas faire une CAH et utiliser uniquement les parangons?

Stats

Nombre de messages : 4
Date d'inscription : 15/03/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Bootstrap - grande base de données

Message par joyeux_lapin13 le Mer 27 Mar 2013 - 11:33

Appliquer une CAH c'est utiliser des critères comme le ccc, le pseudo-Rsquare ou le Rsquare pour déterminer les groupes, ce qui implique un biais utilisateur que je ne peux pas me permettre. De plus il y a un aspect contexte qui n'est pas forcément maîtrisé même chez les spécialistes du genre.

Le mieux reste l'approche que j'ai décrite, de plus le fait de pouvoir monter mes IC vont m'apporter énormément en information sur les p-values que j'aurais construites et la qualité de la méthode.

joyeux_lapin13

Nombre de messages : 1670
Age : 33
Localisation : Mayotte
Date d'inscription : 21/04/2010

Voir le profil de l'utilisateur https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

Re: Bootstrap - grande base de données

Message par Contenu sponsorisé Aujourd'hui à 11:32


Contenu sponsorisé


Revenir en haut Aller en bas

Voir le sujet précédent Voir le sujet suivant Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum