Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
tirage aleatoire de données
4 participants
Page 1 sur 1
tirage aleatoire de données
Bonjour,
Je dispose d'un jeu de données de taille 150000 observations. Et je veux prendre seulement 10000 observations mais aléatoirement.
Comment je peux faire un tirage aléatoire sous R ?
Cordialement,
Je dispose d'un jeu de données de taille 150000 observations. Et je veux prendre seulement 10000 observations mais aléatoirement.
Comment je peux faire un tirage aléatoire sous R ?
Cordialement,
gatos- Nombre de messages : 43
Date d'inscription : 04/07/2014
Re: tirage aleatoire de données
Re-bonjour,
Si ta base s'appelle tab et l'identifiant de tes observations s'appelle ID, ceci devrait marcher:
Ayana
Si ta base s'appelle tab et l'identifiant de tes observations s'appelle ID, ceci devrait marcher:
- Code:
v<-sample(1:150000,10000,replace = F)
tab2<-tab[tab$ID %in% v,]
Ayana
Ayana- Nombre de messages : 550
Localisation : Londres
Date d'inscription : 18/08/2009
Re: tirage aleatoire de données
Merci pour votre réponse ,
mais ça m'a donné un vecteur de longueur =17144 et non pas 10000
mais ça m'a donné un vecteur de longueur =17144 et non pas 10000
gatos- Nombre de messages : 43
Date d'inscription : 04/07/2014
Re: tirage aleatoire de données
Méthode très simple, qui marche quel que soit le logiciel:
- Pour chaque observation, générer une variable ALEA = nombre aleatoire
- Trier ALEA = croissant
- Garder les x premières lignes
- Pour chaque observation, générer une variable ALEA = nombre aleatoire
- Trier ALEA = croissant
- Garder les x premières lignes
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Re: tirage aleatoire de données
Je vous remercie pour votre réponse
gatos- Nombre de messages : 43
Date d'inscription : 04/07/2014
Re: tirage aleatoire de données
Gatos a écrite "mais ça m'a donné un vecteur de longueur =17144 et non pas 10000". Je suppose qu'il veut parler du nombre de lignes de tab2 car il est impossible que v soit de cette longueur. La raison pour laquelle tab2 a plus de 10000 lignes vient du fait que plusieurs lignes de tab doivent avoir la même valeur de ID. Facile à vérifier :
Une manière de contourner le problème est :
- Code:
table( tab$ID) != 1
Une manière de contourner le problème est :
- Code:
v <- sample( nrow( tab), size=10000)
tab2 <- tab[v,]
Florent Aubry- Nombre de messages : 251
Date d'inscription : 02/11/2015
Sujets similaires
» Tirage aléatoire pour jeu de données test et proportion
» Tirage aléatoire pondéré
» probabilité et tirage aléatoire avec remise
» Tirage stratifié non-proportionnel
» code R sélection aléatoire
» Tirage aléatoire pondéré
» probabilité et tirage aléatoire avec remise
» Tirage stratifié non-proportionnel
» code R sélection aléatoire
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum