我正在尝试通过重复测量(一天多次测量,数周测量)来计算变量的平均值,从而实现创建日期框架(df)子集的简单任务。在我的df中,此变量称为“消耗”
我在这里遵循了此示例,并使代码适应我的df和所需的条件:根据另一列中的条件计算列数据的平均值
但是,我去手工计算了一些方法(使用excel),结果却截然不同
有人可以指出我错误代码的正确方向吗?
我确实将“ 0”作为一些度量,它们很重要,在计算平均值时需要包括我在内。
这是一个可重现的示例:
df <- read.table("https://pastebin.com/raw/Zpa8cLBN", header = T)
library(dplyr)
df_mean <- df %>% group_by(treatment,day,Control) %>% summarise(
consumption = first(consumption), consumption = last(consumption), consumption = mean(consumption[consumption >= 0]))
desired_results <- read.table("https://pastebin.com/raw/vZten0jd", header = T) # calculated manually in excel
当我比较两者时,“消费”列中的结果(应该是计算出的平均值)根本不正确。
谢谢大家
看来我需要为summerise
函数使用与原始名称不同的变量名称df
df_mean <- df %>% group_by(treatment,day,Control) %>% summarise(
Mean_consumption = first(consumption), Mean_consumption = last(consumption), Mean_consumption = mean(consumption[consumption >= 0]))
当与my交叉引用时desired_results
,这就是我想要的。
谢谢@jlesuffleur
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句