Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Problème avec R
3 participants
Page 1 sur 1
Problème avec R
Bonjour tout le monde, j'espère que ce sujet n'a pas déjà été posté
Je suis débutante avec "R" (comme vous allez pouvoir vous en rendre compte ) et je suis à la recherche de quelqu'un qui pourrait répondre à quelques questions.
J'ai importé ma base de données data.txt (8 colonnes et 700 lignes => individus)
et j'ai réussi à obtenir les moyennes,valeur min,max... pour chaque colonne avec "summary(data)" mais après je suis bloquée
(je sais ça à pas été long ). Je n'arrive pas à étudier les colonnes individuellement,quand je donne le titre de la colonne (ex:"N°ind" =>soit "NÂ.ind" après importation dans R pour n°individu et "NP2005" pour nombre de plasmides en 2005), R n'apprécie pas trop.
Je dois étudier:
- l'effet année (3 années et donc 3 colonnes) sur la moyenne des données de ces colonnes
- l'effet des données d'une colonne (données binaires =>1ou0) sur la moyenne des données d'une autre colonne
- la répartition des données (normale?;pour la colonne en système binaire =>50%/50%?)
Je dois accompagner ces études (autant que possible) par des études de variances, résultats de tests, histogrammes, boxplot,...
PS:il y a des données manquantes dans certaines colonnes (que j'ai "éliminée" => na.strings="*")
Je sais que ça fait pas mal de boulot mais si quelqu'un peut m'aider ce serait vraiment sympa
Merci d'avance
Je suis débutante avec "R" (comme vous allez pouvoir vous en rendre compte ) et je suis à la recherche de quelqu'un qui pourrait répondre à quelques questions.
J'ai importé ma base de données data.txt (8 colonnes et 700 lignes => individus)
et j'ai réussi à obtenir les moyennes,valeur min,max... pour chaque colonne avec "summary(data)" mais après je suis bloquée
(je sais ça à pas été long ). Je n'arrive pas à étudier les colonnes individuellement,quand je donne le titre de la colonne (ex:"N°ind" =>soit "NÂ.ind" après importation dans R pour n°individu et "NP2005" pour nombre de plasmides en 2005), R n'apprécie pas trop.
Je dois étudier:
- l'effet année (3 années et donc 3 colonnes) sur la moyenne des données de ces colonnes
- l'effet des données d'une colonne (données binaires =>1ou0) sur la moyenne des données d'une autre colonne
- la répartition des données (normale?;pour la colonne en système binaire =>50%/50%?)
Je dois accompagner ces études (autant que possible) par des études de variances, résultats de tests, histogrammes, boxplot,...
PS:il y a des données manquantes dans certaines colonnes (que j'ai "éliminée" => na.strings="*")
Je sais que ça fait pas mal de boulot mais si quelqu'un peut m'aider ce serait vraiment sympa
Merci d'avance
soso_4990- Nombre de messages : 8
Date d'inscription : 21/10/2010
Re: Problème avec R
Bonjour,
Après avoir importé tes données, par exemple de la sorte :
Pour récupérer la colonne dont le nom est "NP2005" dans "data.txt", il faut utiliser par exemple la commande suivante :
Par contre, je pense que si le nom d'une de tes colonnes est "N°ind", cela risque peut-être de poser un problème à R, mais pas sûr...
Après, pour ce qui est du reste de ton étude, si tu as des questions sur des méthodes en particulier, n'hésite pas à les poser
Bonne continuation !
A.D.
Après avoir importé tes données, par exemple de la sorte :
- Code:
tab<-read.table("data.txt",header=TRUE)
Pour récupérer la colonne dont le nom est "NP2005" dans "data.txt", il faut utiliser par exemple la commande suivante :
- Code:
macolonne<-tab$NP2005
Par contre, je pense que si le nom d'une de tes colonnes est "N°ind", cela risque peut-être de poser un problème à R, mais pas sûr...
Après, pour ce qui est du reste de ton étude, si tu as des questions sur des méthodes en particulier, n'hésite pas à les poser
Bonne continuation !
A.D.
Re: Problème avec R
Bonsoir,
Merci pour ton aide, ça m'a énormément aidée
J'ai encore une petite question :
J'ai 4 colonnes binaires (type présence (1) ou absence (0)), j'ai réussi à obtenir le nombre de 0 et de 1 pour chaque colonne (et donc le % de chaque).
Je voudrais avoir un intervalle de confiance à 95% pour chaque colonne et/ou commun aux 4 colonnes (mais je sais pas trop si c'est possible )
Merci d'avance
Merci pour ton aide, ça m'a énormément aidée
J'ai encore une petite question :
J'ai 4 colonnes binaires (type présence (1) ou absence (0)), j'ai réussi à obtenir le nombre de 0 et de 1 pour chaque colonne (et donc le % de chaque).
Je voudrais avoir un intervalle de confiance à 95% pour chaque colonne et/ou commun aux 4 colonnes (mais je sais pas trop si c'est possible )
Merci d'avance
soso_4990- Nombre de messages : 8
Date d'inscription : 21/10/2010
Re: Problème avec R
Sauf erreur, l'estimateur d'une proportion suit une loi normale N(p, p(1-p)/n)
où p est la proportion estimée et n la taille de l'échantillon.
L'intervalle de conf est donc p +/- t*sqrt(p(1-p)/n) où t est le quantile de la loi de student df = n-1, 1-alpha/2.
Facile à calculer sous R pour chaque colonne.
Un truc du genre devrait marcher:
myIC <- function(x){
n <- length(x)
p <- length(x[x==1])/n
t <- qt(0.975, df = n-1)
ic <- t*sqrt(p(1-p)/n)
return(ic)
}
ICs <- apply(mydata[,1:4], 2, myIC) # si colonnes de 1 à 4 par exemple
Par contre je ne vois pas l'intérêt du "commun aux 4".
où p est la proportion estimée et n la taille de l'échantillon.
L'intervalle de conf est donc p +/- t*sqrt(p(1-p)/n) où t est le quantile de la loi de student df = n-1, 1-alpha/2.
Facile à calculer sous R pour chaque colonne.
Un truc du genre devrait marcher:
myIC <- function(x){
n <- length(x)
p <- length(x[x==1])/n
t <- qt(0.975, df = n-1)
ic <- t*sqrt(p(1-p)/n)
return(ic)
}
ICs <- apply(mydata[,1:4], 2, myIC) # si colonnes de 1 à 4 par exemple
Par contre je ne vois pas l'intérêt du "commun aux 4".
FredoFredo- Nombre de messages : 1
Date d'inscription : 30/10/2010
Re: Problème avec R
Ok merci beaucoup c'est sympa
soso_4990- Nombre de messages : 8
Date d'inscription : 21/10/2010
Sujets similaires
» Problème analyse de données avec R (ACM)
» probleme avec loi exponentielle
» Problème avec ACP et "facteur"
» [Résolu] Problème avec boxplot
» Problème avec l'algorithme VarClus
» probleme avec loi exponentielle
» Problème avec ACP et "facteur"
» [Résolu] Problème avec boxplot
» Problème avec l'algorithme VarClus
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum