Valider un sous echantillon d'une population

par Juliette C Jeu 23 Mai 2013 - 17:15

Bonjour à tous,
Je suis face à un problème plus coriace qui me le semblait à la base.
J'ai en ma posession un échantillon de 800 000 individus environ extraient d'une base de 8 millions d'individus.
Pour chaque individu, j'ai des informations (près de 600 variables).
Je cherche à valider mon sous-échantillon à partir des proportions d'individus de la base selon une dizaine de critères d'intérêts, tous qualitatifs (tranche d'effectif de salarié, département, departement * tranche d'effectif salarié, etc).
Dans l'idéal, pour valider mon sous-échantillon, il faudrait que la proportion pour chacune des modalités des critères d'intérêts de la base correspondent à ce que j'ai dans mon échantillon.
Bien sûr, il est quasi-impossible que ces proportions soient égales, au mieux pas trop éloignées. J'aimerais donc avoir un point du vue plus théorique à partir d'indicateur statistique ou autre et non pas me baser à l'oeil nu.
J'avais pensé à la base aux test de chi2, le problème qui se présentait était la taille de l'échantillon (les p-valeur trouvées sont donc toutes proches de 0,00000000000000...).
Ce genre de problème peut être réglé par le V de Cramer qui prends en compte l'effectif de l'échantillon. Le problème qui se pose alors est comment faire lorsque je travaille sur un seul critère d'intérêt ? (par exemple uniquement sur la tranche d'effectif de salarié).
En effet, la formule du V de Cramer se calcule à partir d'un dénominateur égal au minimum du (nombre de colonne -1, nombre de ligne -1) mais je n'ai qu'une ligne (ou qu'une colonne selon le point de vue).
Que puis-je fais ?

De même, il m'arrive que des effectifs soient inférieurs à 5 (hypothèses nécessaires pour le Chi2). Que faut il faire dans ce cas là ?

Merci d'avance.

par sniper Ven 24 Mai 2013 - 11:05

Bonjour,

Vous pouvez pas faire le contraire ? moi je retirais un échantillon représentatif des 10 variables, en faisant un échantillon stratifié sur les 10 variables en questions. Avec peut être une allocation proportionnelle.

Et pour remplacer le khi2 lorsque qu'il y a un effectif trop petit, on peut faire un test exact de Fischer.

par Juliette C Ven 24 Mai 2013 - 12:11

Merci sniper pour votre réponse.
Je ne sais pas si j'ai bien compris mais tirer un sous-échantillon d'un échantillon à valider ne permettrait pas de corriger le biais d’échantillonnage.

Pour l'effectif minimum, j'ai vu en effet que l'on pouvait utiliser un test de Fisher mais je pensais favoriser le regroupement des modalités.

par FS Ven 24 Mai 2013 - 12:36

La question est pourquoi utiliser un échantillon alors que tu as accès à l'ensemble de la population.
si ton échantillonnage est bien aléatoire il n'est en théorie pas nécessaire de vérifier que ce dernier est bien représentatif.
L’échantillonnage par stratification va permettre de diminuer la variabilité de ton échantillon, ce qui est très utile en cas de forte contrainte sur la taille maximum à atteindre (ex : coût d'un sondage) mais dans ton cas tu ne semble pas avoir de telle contrainte ... donc quel est le but de cet échantillon ?

P.S : avec une telle quantité de données il est tout à fait normal (par construction) que la moindre petite différence deviennent significative.

par Juliette C Ven 24 Mai 2013 - 13:01

'On' m'a donné un échantillon de la base mais je n'ai pas accès à la base. Je connais uniquement les effectifs des critères d'intérêts.
L'échantillon a été créé à partir d'un échantillonnage par stratification selon un seul critère d'intérêt. Il se peut donc qu'il se montre hétérogène pour les autres critères d'intérêts. Chose que je dois vérifier à partir des différentes proportions.

par FS Ven 24 Mai 2013 - 14:51

Perso je dirais à ce "on" d'aller se faire foutre et de me lâcher les données.
si tu es quelqu'un de poli tu peux aussi lui dire que la "validité" d'un échantillon dépend uniquement de la précision à atteindre dans le problème que tu dois analyser.
et donc si la différence observée entre ton échantillon et la population est acceptable d'un point de vue métier, sinon quelle le seuil d'acceptabilité.
Dans tout les cas puisque tu connais les valeurs de la population mère il suffit de redresser l’échantillon pour que ça colle exactement à ces critères, mais bon si personne n'a évaluer que ces critères sont effectivement garant de la représentativité... alors retour à la case départ.

être statisticien n’empêche pas d’être pragmatique...

par Contenu sponsorisé

Valider un sous echantillon d'une population

Valider un sous echantillon d'une population

Re: Valider un sous echantillon d'une population

Re: Valider un sous echantillon d'une population

Re: Valider un sous echantillon d'une population

Re: Valider un sous echantillon d'une population

Re: Valider un sous echantillon d'une population

Re: Valider un sous echantillon d'une population