Les posteurs les plus actifs de la semaine
Eric Wajnberg
 
smalblanc
 
charlie77
 
Nik
 
c@ssoulet
 
svditte
 
cmoi
 
zezima
 
louiv
 
laureG
 


Echantillon "représentatif" ?

Aller en bas

Echantillon "représentatif" ?

Message par Mac_Leod le Jeu 25 Juin 2015 - 12:11

Bonjour à tous,


Je suis à la recherche d'un programme qui serait capable de me générer un échantillon aléatoire représentatif de mes données.
Un échantillon, c'est relativement simple à faire ressortir ... Le problème étant que je ne suis pas statisticien et qu'il est difficile pour moi de savoir comment faire pour savoir si celui - ci est représentatif. J'ai fait quelques recherches et il existe apparemment bien des façons pour réaliser des tests sous R, logiciel dont je maîtrise les bases.

Mon soucis étant que j'aurais besoin d'un échantillon par ville pour en avoir un final qui regroupe l'ensemble de ceux - ci. Du coup, la taille de chaque échantillon ne sera pas la même, le nombre d'habitants par ville étant différent. Mais de façon à avoir une représentativité maximale d'au moins 95% dans chacune des villes.

Mais je ne sais pas comment m'y prendre sur cette partie statistique ...

Mac_Leod

Nombre de messages : 28
Date d'inscription : 25/06/2015

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Echantillon "représentatif" ?

Message par Mac_Leod le Jeu 25 Juin 2015 - 14:06

Aussi, avec quelques recherches, j'ai trouvé un document et j'ai plus ou moins ce dont je recherche dans la section "taille de l'échantillon".

Les graphiques proposés sont particulièrement intéressant, savez - vous par quels moyens, je pourrais les reproduire ?


EDIT : Je ne peux poster de liens visiblement.
Premier lien en indiquant : "Généralités sur les problèmes de l'échantillonnage lara inist" sur google.

Mac_Leod

Nombre de messages : 28
Date d'inscription : 25/06/2015

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Echantillon "représentatif" ?

Message par Mac_Leod le Jeu 2 Juil 2015 - 9:54

Bonjour,

Je reviens à vous pour donner l'état de mon avancement, la façon dont j'ai procédé.

De ma base de données initiale de 60.000 observations, j'ai pu ressortir une trentaine de strates (par ville) d'environ 1.000 à 2.500 observations en moyenne. Pour m'y retrouver et faciliter mes calculs, j'ai crée un data.frame listant les villes en plus de leur nombre d'observations correspondant.
A partir de là, j'ai calculé la taille de mes échantillons n avec les formules suivante :
Code:
n = IC² * SD*(1-SD) / e²              # taille minimale d'un échantillon représentatif          
nadj = n / (1 + ((n - 1) / npop))     # n ajusté en fonction de la taille de la ville

# IC -> Niveau de confiance (fixé à 95%)
# SD -> Stand. dev. (fixé à 50%)
# e -> marge d'erreur (fixée à 5, 3, puis 1%)
# npop -> taille des populations

Ce qui donnerais par exemple, pour une marge d'erreur à 5% la formule suivante :
Code:
n5 <- (1.96^2) * 0.5*0.5 / 0.05^2
nadj5 <- n5/(1+((n5-1)/df$n_obs        #df$n_obs, étant le nombre d'observation correspondant.

Bref, je ne détaille pas plus mais à l'aide d'une création de fonction, et de son application par apply, j'ai donc un data.frame final qui me liste le nom des villes, le nombre d'observations qui correspond à celle - ci, ainsi que les tailles d'échantillons minimale pour des marges d'erreur de 5, 3 et 1%.
Et je constate qu'il est assez superflu de diminuer la marge d'erreur. Un échantillon de 50.000 sur 60.000 étant relativement inutile. Je ne devrais donc retenir que celle à 5% qui me paraît déjà plus juste et suffisante (10.000).


J'aimerais donc, à présent, passer à la seconde étape de ma recherche. J'ai besoin de savoir si mes échantillons sont suffisamment représentatifs ou non de mes données. Mais quels sont les tests les plus optimisés pour ce genre d'échantillonnage.
J'ai installé le package Rcmdr pour me simplifier les choses de façon à ce que les lignes de code soient automatique mais il est difficile d'utilisation, du moins, je n'arrive pas à comparer 2 échantillons de 2 bases de données différentes. La sélection est impossible et je suis obligé de bidouiller moi - même les codes manuellement.
Ainsi, une aide vis à vis de ça ne serait pas du luxe ... également pour ce qui est des interprétations, le langage statistique francophone étant déjà suffisamment complexe, alors en anglais ... Rolling Eyes
Je rajouterais également une question ... mes données sont - elles indépendantes ou appariés ?


Merci en tout cas à la personne qui prendra le temps pour moi ! Smile

Mac_Leod

Nombre de messages : 28
Date d'inscription : 25/06/2015

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Echantillon "représentatif" ?

Message par jacknife_bootstrap le Ven 3 Juil 2015 - 10:12

Bonjour Mac_Leod,

Les statisticiens considèrent l'infini à partir de 30 ( ce qui est relative selon moi ) donc si tu as des échantillons de 1000 en moyenne, tu es donc dans un contexte de grand échantillon et tu peux approximer ta distribution par une loi normale.
Oui mais à quoi ca sert?
La loi normale te permettra de créer des intervalles de confiances.
Tu peux aussi utiliser le rééchantillonnage le jacknife ( ou le bootstrap ) pour créer des intervalles de confiances de tes populations.

jacknife_bootstrap

Nombre de messages : 7
Date d'inscription : 02/07/2015

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Echantillon "représentatif" ?

Message par Mac_Leod le Ven 3 Juil 2015 - 13:46

Bonjour,

J'ai entendu parler de cette valeur comme étant un "seuil" nécessaire pour certains calculs, mais je ne n'imaginais pas que l'on pouvait considérer un infini aussi petit.

Ce ne sont pas mes échantillons mais mes strates qui sont composés de ce nombre d'observations en moyenne (varie de 500 à 5000 ceci dit).
Et c'est à partir de celles qui - ci que je vais composer des sous échantillons qui regroupés me donneront mon échantillon.

Je vais me renseigner un peu sur ces deux méthodes, merci pour ton intervention et de ton aide.

Mac_Leod

Nombre de messages : 28
Date d'inscription : 25/06/2015

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Echantillon "représentatif" ?

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum