Echantillon "représentatif" ?

par Mac_Leod Jeu 25 Juin 2015 - 12:11

Bonjour à tous,

Je suis à la recherche d'un programme qui serait capable de me générer un échantillon aléatoire représentatif de mes données.
Un échantillon, c'est relativement simple à faire ressortir ... Le problème étant que je ne suis pas statisticien et qu'il est difficile pour moi de savoir comment faire pour savoir si celui - ci est représentatif. J'ai fait quelques recherches et il existe apparemment bien des façons pour réaliser des tests sous R, logiciel dont je maîtrise les bases.

Mon soucis étant que j'aurais besoin d'un échantillon par ville pour en avoir un final qui regroupe l'ensemble de ceux - ci. Du coup, la taille de chaque échantillon ne sera pas la même, le nombre d'habitants par ville étant différent. Mais de façon à avoir une représentativité maximale d'au moins 95% dans chacune des villes.

Mais je ne sais pas comment m'y prendre sur cette partie statistique ...

par Mac_Leod Jeu 25 Juin 2015 - 14:06

Aussi, avec quelques recherches, j'ai trouvé un document et j'ai plus ou moins ce dont je recherche dans la section "taille de l'échantillon".

Les graphiques proposés sont particulièrement intéressant, savez - vous par quels moyens, je pourrais les reproduire ?

EDIT : Je ne peux poster de liens visiblement.
Premier lien en indiquant : "Généralités sur les problèmes de l'échantillonnage lara inist" sur google.

par Mac_Leod Jeu 2 Juil 2015 - 9:54

Bonjour,

Je reviens à vous pour donner l'état de mon avancement, la façon dont j'ai procédé.

De ma base de données initiale de 60.000 observations, j'ai pu ressortir une trentaine de strates (par ville) d'environ 1.000 à 2.500 observations en moyenne. Pour m'y retrouver et faciliter mes calculs, j'ai crée un data.frame listant les villes en plus de leur nombre d'observations correspondant.
A partir de là, j'ai calculé la taille de mes échantillons n avec les formules suivante :

Code:: n = IC² * SD*(1-SD) / e² # taille minimale d'un échantillon représentatif nadj = n / (1 + ((n - 1) / npop)) # n ajusté en fonction de la taille de la ville # IC -> Niveau de confiance (fixé à 95%) # SD -> Stand. dev. (fixé à 50%) # e -> marge d'erreur (fixée à 5, 3, puis 1%) # npop -> taille des populations

Ce qui donnerais par exemple, pour une marge d'erreur à 5% la formule suivante :

Code:: n5 <- (1.96^2) * 0.5*0.5 / 0.05^2 nadj5 <- n5/(1+((n5-1)/df$n_obs #df$n_obs, étant le nombre d'observation correspondant.

Bref, je ne détaille pas plus mais à l'aide d'une création de fonction, et de son application par apply, j'ai donc un data.frame final qui me liste le nom des villes, le nombre d'observations qui correspond à celle - ci, ainsi que les tailles d'échantillons minimale pour des marges d'erreur de 5, 3 et 1%.
Et je constate qu'il est assez superflu de diminuer la marge d'erreur. Un échantillon de 50.000 sur 60.000 étant relativement inutile. Je ne devrais donc retenir que celle à 5% qui me paraît déjà plus juste et suffisante (10.000).

J'aimerais donc, à présent, passer à la seconde étape de ma recherche. J'ai besoin de savoir si mes échantillons sont suffisamment représentatifs ou non de mes données. Mais quels sont les tests les plus optimisés pour ce genre d'échantillonnage.
J'ai installé le package Rcmdr pour me simplifier les choses de façon à ce que les lignes de code soient automatique mais il est difficile d'utilisation, du moins, je n'arrive pas à comparer 2 échantillons de 2 bases de données différentes. La sélection est impossible et je suis obligé de bidouiller moi - même les codes manuellement.
Ainsi, une aide vis à vis de ça ne serait pas du luxe ... également pour ce qui est des interprétations, le langage statistique francophone étant déjà suffisamment complexe, alors en anglais ... Rolling Eyes

Je rajouterais également une question ... mes données sont - elles indépendantes ou appariés ?

Merci en tout cas à la personne qui prendra le temps pour moi ! Smile

par jacknife_bootstrap Ven 3 Juil 2015 - 10:12

Bonjour Mac_Leod,

Les statisticiens considèrent l'infini à partir de 30 ( ce qui est relative selon moi ) donc si tu as des échantillons de 1000 en moyenne, tu es donc dans un contexte de grand échantillon et tu peux approximer ta distribution par une loi normale.
Oui mais à quoi ca sert?
La loi normale te permettra de créer des intervalles de confiances.
Tu peux aussi utiliser le rééchantillonnage le jacknife ( ou le bootstrap ) pour créer des intervalles de confiances de tes populations.

par Mac_Leod Ven 3 Juil 2015 - 13:46

Bonjour,

J'ai entendu parler de cette valeur comme étant un "seuil" nécessaire pour certains calculs, mais je ne n'imaginais pas que l'on pouvait considérer un infini aussi petit.

Ce ne sont pas mes échantillons mais mes strates qui sont composés de ce nombre d'observations en moyenne (varie de 500 à 5000 ceci dit).
Et c'est à partir de celles qui - ci que je vais composer des sous échantillons qui regroupés me donneront mon échantillon.

Je vais me renseigner un peu sur ces deux méthodes, merci pour ton intervention et de ton aide.

par Contenu sponsorisé

Echantillon "représentatif" ?

Echantillon "représentatif" ?

Re: Echantillon "représentatif" ?

Re: Echantillon "représentatif" ?

Re: Echantillon "représentatif" ?

Re: Echantillon "représentatif" ?

Re: Echantillon "représentatif" ?