Les posteurs les plus actifs de la semaine


tirage aleatoire de données

Aller en bas

tirage aleatoire de données Empty tirage aleatoire de données

Message par gatos le Lun 9 Nov 2015 - 16:35

Bonjour,

Je dispose d'un jeu de données de taille 150000 observations. Et je veux prendre seulement 10000 observations mais aléatoirement.

Comment je peux faire un tirage aléatoire sous R ?

Cordialement,

gatos

Nombre de messages : 43
Date d'inscription : 04/07/2014

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

tirage aleatoire de données Empty Re: tirage aleatoire de données

Message par Ayana le Lun 9 Nov 2015 - 16:55

Re-bonjour,

Si ta base s'appelle tab et l'identifiant de tes observations s'appelle ID, ceci devrait marcher:
Code:
v<-sample(1:150000,10000,replace = F)
tab2<-tab[tab$ID %in% v,]

Ayana
Ayana
Ayana

Nombre de messages : 524
Localisation : Londres
Date d'inscription : 18/08/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

tirage aleatoire de données Empty Re: tirage aleatoire de données

Message par gatos le Mar 10 Nov 2015 - 8:31

Merci pour votre réponse ,
mais ça m'a donné un vecteur de longueur =17144 et non pas 10000 Sad

gatos

Nombre de messages : 43
Date d'inscription : 04/07/2014

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

tirage aleatoire de données Empty Re: tirage aleatoire de données

Message par c@ssoulet le Mar 10 Nov 2015 - 9:56

Méthode très simple, qui marche quel que soit le logiciel:
- Pour chaque observation, générer une variable ALEA = nombre aleatoire
- Trier ALEA = croissant
- Garder les x premières lignes

c@ssoulet

Nombre de messages : 893
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

tirage aleatoire de données Empty Re: tirage aleatoire de données

Message par gatos le Mar 10 Nov 2015 - 11:04

Je vous remercie pour votre réponse

gatos

Nombre de messages : 43
Date d'inscription : 04/07/2014

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

tirage aleatoire de données Empty Re: tirage aleatoire de données

Message par Florent Aubry le Mar 10 Nov 2015 - 12:53

Gatos a écrite "mais ça m'a donné un vecteur de longueur =17144 et non pas 10000". Je suppose qu'il veut parler du nombre de lignes de tab2 car il est impossible que v soit de cette longueur. La raison pour laquelle tab2 a plus de 10000 lignes vient du fait que plusieurs lignes de tab doivent avoir la même valeur de ID. Facile à vérifier :
Code:
table( tab$ID) != 1
donnera les ID défectueux.

Une manière de contourner le problème est :
Code:
v <- sample( nrow( tab), size=10000)
tab2 <- tab[v,]

Florent Aubry

Nombre de messages : 242
Date d'inscription : 02/11/2015

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

tirage aleatoire de données Empty Re: tirage aleatoire de données

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum