Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Valider un sous echantillon d'une population
3 participants
Page 1 sur 1
Valider un sous echantillon d'une population
Bonjour à tous,
Je suis face à un problème plus coriace qui me le semblait à la base.
J'ai en ma posession un échantillon de 800 000 individus environ extraient d'une base de 8 millions d'individus.
Pour chaque individu, j'ai des informations (près de 600 variables).
Je cherche à valider mon sous-échantillon à partir des proportions d'individus de la base selon une dizaine de critères d'intérêts, tous qualitatifs (tranche d'effectif de salarié, département, departement * tranche d'effectif salarié, etc).
Dans l'idéal, pour valider mon sous-échantillon, il faudrait que la proportion pour chacune des modalités des critères d'intérêts de la base correspondent à ce que j'ai dans mon échantillon.
Bien sûr, il est quasi-impossible que ces proportions soient égales, au mieux pas trop éloignées. J'aimerais donc avoir un point du vue plus théorique à partir d'indicateur statistique ou autre et non pas me baser à l'oeil nu.
J'avais pensé à la base aux test de chi2, le problème qui se présentait était la taille de l'échantillon (les p-valeur trouvées sont donc toutes proches de 0,00000000000000...).
Ce genre de problème peut être réglé par le V de Cramer qui prends en compte l'effectif de l'échantillon. Le problème qui se pose alors est comment faire lorsque je travaille sur un seul critère d'intérêt ? (par exemple uniquement sur la tranche d'effectif de salarié).
En effet, la formule du V de Cramer se calcule à partir d'un dénominateur égal au minimum du (nombre de colonne -1, nombre de ligne -1) mais je n'ai qu'une ligne (ou qu'une colonne selon le point de vue).
Que puis-je fais ?
De même, il m'arrive que des effectifs soient inférieurs à 5 (hypothèses nécessaires pour le Chi2). Que faut il faire dans ce cas là ?
Merci d'avance.
Je suis face à un problème plus coriace qui me le semblait à la base.
J'ai en ma posession un échantillon de 800 000 individus environ extraient d'une base de 8 millions d'individus.
Pour chaque individu, j'ai des informations (près de 600 variables).
Je cherche à valider mon sous-échantillon à partir des proportions d'individus de la base selon une dizaine de critères d'intérêts, tous qualitatifs (tranche d'effectif de salarié, département, departement * tranche d'effectif salarié, etc).
Dans l'idéal, pour valider mon sous-échantillon, il faudrait que la proportion pour chacune des modalités des critères d'intérêts de la base correspondent à ce que j'ai dans mon échantillon.
Bien sûr, il est quasi-impossible que ces proportions soient égales, au mieux pas trop éloignées. J'aimerais donc avoir un point du vue plus théorique à partir d'indicateur statistique ou autre et non pas me baser à l'oeil nu.
J'avais pensé à la base aux test de chi2, le problème qui se présentait était la taille de l'échantillon (les p-valeur trouvées sont donc toutes proches de 0,00000000000000...).
Ce genre de problème peut être réglé par le V de Cramer qui prends en compte l'effectif de l'échantillon. Le problème qui se pose alors est comment faire lorsque je travaille sur un seul critère d'intérêt ? (par exemple uniquement sur la tranche d'effectif de salarié).
En effet, la formule du V de Cramer se calcule à partir d'un dénominateur égal au minimum du (nombre de colonne -1, nombre de ligne -1) mais je n'ai qu'une ligne (ou qu'une colonne selon le point de vue).
Que puis-je fais ?
De même, il m'arrive que des effectifs soient inférieurs à 5 (hypothèses nécessaires pour le Chi2). Que faut il faire dans ce cas là ?
Merci d'avance.
Juliette C- Nombre de messages : 3
Date d'inscription : 23/05/2013
Re: Valider un sous echantillon d'une population
Bonjour,
Vous pouvez pas faire le contraire ? moi je retirais un échantillon représentatif des 10 variables, en faisant un échantillon stratifié sur les 10 variables en questions. Avec peut être une allocation proportionnelle.
Et pour remplacer le khi2 lorsque qu'il y a un effectif trop petit, on peut faire un test exact de Fischer.
Vous pouvez pas faire le contraire ? moi je retirais un échantillon représentatif des 10 variables, en faisant un échantillon stratifié sur les 10 variables en questions. Avec peut être une allocation proportionnelle.
Et pour remplacer le khi2 lorsque qu'il y a un effectif trop petit, on peut faire un test exact de Fischer.
sniper- Nombre de messages : 27
Date d'inscription : 12/04/2013
Re: Valider un sous echantillon d'une population
Merci sniper pour votre réponse.
Je ne sais pas si j'ai bien compris mais tirer un sous-échantillon d'un échantillon à valider ne permettrait pas de corriger le biais d’échantillonnage.
Pour l'effectif minimum, j'ai vu en effet que l'on pouvait utiliser un test de Fisher mais je pensais favoriser le regroupement des modalités.
Je ne sais pas si j'ai bien compris mais tirer un sous-échantillon d'un échantillon à valider ne permettrait pas de corriger le biais d’échantillonnage.
Pour l'effectif minimum, j'ai vu en effet que l'on pouvait utiliser un test de Fisher mais je pensais favoriser le regroupement des modalités.
Juliette C- Nombre de messages : 3
Date d'inscription : 23/05/2013
Re: Valider un sous echantillon d'une population
La question est pourquoi utiliser un échantillon alors que tu as accès à l'ensemble de la population.
si ton échantillonnage est bien aléatoire il n'est en théorie pas nécessaire de vérifier que ce dernier est bien représentatif.
L’échantillonnage par stratification va permettre de diminuer la variabilité de ton échantillon, ce qui est très utile en cas de forte contrainte sur la taille maximum à atteindre (ex : coût d'un sondage) mais dans ton cas tu ne semble pas avoir de telle contrainte ... donc quel est le but de cet échantillon ?
P.S : avec une telle quantité de données il est tout à fait normal (par construction) que la moindre petite différence deviennent significative.
si ton échantillonnage est bien aléatoire il n'est en théorie pas nécessaire de vérifier que ce dernier est bien représentatif.
L’échantillonnage par stratification va permettre de diminuer la variabilité de ton échantillon, ce qui est très utile en cas de forte contrainte sur la taille maximum à atteindre (ex : coût d'un sondage) mais dans ton cas tu ne semble pas avoir de telle contrainte ... donc quel est le but de cet échantillon ?
P.S : avec une telle quantité de données il est tout à fait normal (par construction) que la moindre petite différence deviennent significative.
FS- Nombre de messages : 163
Date d'inscription : 25/04/2008
Re: Valider un sous echantillon d'une population
'On' m'a donné un échantillon de la base mais je n'ai pas accès à la base. Je connais uniquement les effectifs des critères d'intérêts.
L'échantillon a été créé à partir d'un échantillonnage par stratification selon un seul critère d'intérêt. Il se peut donc qu'il se montre hétérogène pour les autres critères d'intérêts. Chose que je dois vérifier à partir des différentes proportions.
L'échantillon a été créé à partir d'un échantillonnage par stratification selon un seul critère d'intérêt. Il se peut donc qu'il se montre hétérogène pour les autres critères d'intérêts. Chose que je dois vérifier à partir des différentes proportions.
Juliette C- Nombre de messages : 3
Date d'inscription : 23/05/2013
Re: Valider un sous echantillon d'une population
Perso je dirais à ce "on" d'aller se faire foutre et de me lâcher les données.
si tu es quelqu'un de poli tu peux aussi lui dire que la "validité" d'un échantillon dépend uniquement de la précision à atteindre dans le problème que tu dois analyser.
et donc si la différence observée entre ton échantillon et la population est acceptable d'un point de vue métier, sinon quelle le seuil d'acceptabilité.
Dans tout les cas puisque tu connais les valeurs de la population mère il suffit de redresser l’échantillon pour que ça colle exactement à ces critères, mais bon si personne n'a évaluer que ces critères sont effectivement garant de la représentativité... alors retour à la case départ.
être statisticien n’empêche pas d’être pragmatique...
si tu es quelqu'un de poli tu peux aussi lui dire que la "validité" d'un échantillon dépend uniquement de la précision à atteindre dans le problème que tu dois analyser.
et donc si la différence observée entre ton échantillon et la population est acceptable d'un point de vue métier, sinon quelle le seuil d'acceptabilité.
Dans tout les cas puisque tu connais les valeurs de la population mère il suffit de redresser l’échantillon pour que ça colle exactement à ces critères, mais bon si personne n'a évaluer que ces critères sont effectivement garant de la représentativité... alors retour à la case départ.
être statisticien n’empêche pas d’être pragmatique...
FS- Nombre de messages : 163
Date d'inscription : 25/04/2008
Sujets similaires
» Valider une régression linéaire sous R
» Taille échantillon pour valider échelle
» Représentativité d'un échantillon dans une population
» test pour voir si un échantillon représente une population
» Échantillonnage : surreprésenter une sous-population ?
» Taille échantillon pour valider échelle
» Représentativité d'un échantillon dans une population
» test pour voir si un échantillon représente une population
» Échantillonnage : surreprésenter une sous-population ?
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum