R-如何基于多个因素对不同的data.table列运行平均值和最大值并返回原始名称

NoviceProg 发表于 Dev

新闻节目

我需要将R代码从data.frame+更改plyr为data.tables，因为我需要一种更快，更节省内存的方式来处理大数据集。不幸的是，我的R技能非常有限，我整天都碰壁了。如果SO专家可以启发您，将不胜感激。

我的目标

基于2个函数（平均值和最大值）聚合data.table中的行，在选定的列上运行（列名通过vector传递），同时按列进行分组也通过vector传递。
结果DT应包含原始列名。
应该不会是DT的不必要的复制，以节省内存

我的测试代码

DT = data.table( a=LETTERS[c(1,1,1:4)],b=4:9, c=3:8, d = rnorm(6), 
                 e=LETTERS[c(rep(25,3),rep(26,3))], key="a" )

GrpVar1 <- "a"
GrpVar2 <- "e"
VarToMax <- "b"
VarToAve <- c( "c", "d")

我尝试过但对我没有用的东西

DT[, list( b=max( b ), c=mean(c), d=mean(d) ), by=c( GrpVar1, GrpVar2 ) ]  
# Hard-code col name - not what I want

DT[, list( max( get(VarToMax) ), mean( get(VarToAve) )), by=c( GrpVar1, GrpVar2 ) ]  
# Col names become 'V1', 'V2', worse, 1 column goes missing - Not what I want either

DT[, list( get(VarToMax)=max( get(VarToMax) ), 
           get(VarToAve)=mean( get(VarToAve) ) ), by=c( GrpVar1, GrpVar2 ) ]
# Above code gave Error!

附加问题

基于我对DT的非常有限的理解，该with = F参数应指示R解析VarToMax和VarToAve的值，但是运行下面的代码会导致错误。

DT[, list( max(VarToMax), mean(VarToAve) ), by=c( GrpVar1, GrpVar2 ), with=F ]

# Error in `[.data.table`(DT, , list(max(VarToMax), mean(VarToAve)), by = c(GrpVar1,  : 
#   object 'ansvals' not found
# In addition: Warning message:
# In mean.default(VarToAve) :
#   argument is not numeric or logical: returning NA

现有的SO解决方案无济于事

Arun的解决方案是我得到了这一点，但是我很坚持。他的其他解决方案使用lapply和.SDcols涉及创建2个额外的DT，这不符合我的内存保存要求。

dt1 <- dt[, lapply(.SD, sum), by=ID, .SDcols=c(3,4)]
dt2 <- dt[, lapply(.SD, head, 1), by=ID, .SDcols=c(2)]

我对data.table感到困惑！非常感激任何的帮助！

大卫·阿伦堡

这是我谦虚的尝试

DT[, as.list(c(setNames(max(get(VarToMax)), VarToMax), 
               lapply(.SD[, ..VarToAve], mean))), 
     c(GrpVar1, GrpVar2)]    
#    a e b c          d
# 1: A Y 6 4 -0.8000173
# 2: B Z 7 6  0.2508633
# 3: C Z 8 7  1.1966517
# 4: D Z 9 8  1.7291615

或者，您可以用最高的效率colMeans和eval(as.name())组合，而不是lapply与get

DT[, as.list(c(setNames(max(eval(as.name(VarToMax))), VarToMax), 
             colMeans(.SD[, ..VarToAve]))), 
     c(GrpVar1, GrpVar2)]   
#    a e b c          d
# 1: A Y 6 4 -0.8000173
# 2: B Z 7 6  0.2508633
# 3: C Z 8 7  1.1966517
# 4: D Z 9 8  1.7291615

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。