Somme suivant la valeur d'un champ dans une data.frame

par HDKalit Ven 27 Sep 2013 - 13:04

(Re-)Bonjour tout le monde,

Encore une question qui fait suite à mon précédent post (en reprenant le même exemple).

J'ai une data frame de cette forme :

Code:: Numero Date Releve1 Releve2 9001 20120801 220 2 9001 20120802 242 1 9001 20120803 219 0 9002 20120804 192 2

J'aimerai sommer les valeurs du champ 'Releve1' et du champ 'Releve2' en fonction du Numéro et avoir en sortie quelque chose comme ça :

Code:: Numero Sum_Releve1 Sum_Releve2 9001 681 3 9002 192 2

Pour le moment je passe avec des boucle for() mais sur une très grande data.frame c'est pas forcément optimale.

Receveur de tout conseil

Cordialement,

Khalid

par popotam Dim 20 Oct 2013 - 7:43

Avec aggregate() mais tu ne peux faire qu'une colonne à la fois :

Code:: aggregate(Releve1~Numero, data=tondataframe, FUN=sum)

Avec ddply() c'est mieux, je ne connais pas la syntaxe par coeur mais la commande devrait ressembler à ça :

Code:: library(plyr) ddply(tondataframe, .(Numero), summarize, sum1=sum(Releve1), sum2=sum(Releve2))

par Nik Dim 20 Oct 2013 - 15:11

Salut,

Je confirme la syntaxe de popotam pour ddply. Si tu as vraiment un gros jeu de données alors avec ddply tu peux aussi utiliser du calcul parallèle assez facilement via les librairies foreach et doParallel.

Nik

par droopy Lun 21 Oct 2013 - 8:04

salut,

dans le cas d'une somme la fonction la plus performante est rowsum :

Code:: microbenchmark(rowsum(tab[,3:4], tab$Numero), aggregate(Releve1~Numero, tab, FUN=sum), ddply(tab, .(Numero), summarize, sum1=sum(Releve1), sum2=sum(Releve2))) Unit: microseconds expr min lq median uq max neval rowsum(tab[, 3:4], tab$Numero) 330.130 339.110 345.525 354.291 877.495 100 aggregate(Releve1 ~ Numero, tab, FUN = sum) 1011.770 1029.945 1051.113 1089.385 1780.648 100 ddply(tab, .(Numero), summarize, sum1 = sum(Releve1), sum2 = sum(Releve2)) 1649.365 1675.664 1701.109 1748.361 2480.676 100

cdlt

par Contenu sponsorisé

Somme suivant la valeur d'un champ dans une data.frame

Somme suivant la valeur d'un champ dans une data.frame

Re: Somme suivant la valeur d'un champ dans une data.frame

Re: Somme suivant la valeur d'un champ dans une data.frame

Re: Somme suivant la valeur d'un champ dans une data.frame

Re: Somme suivant la valeur d'un champ dans une data.frame