子集数据框导致错误输出

debugcn 发表于 Dev

安迪

我正在尝试通过重复测量（一天多次测量，数周测量）来计算变量的平均值，从而实现创建日期框架（df）子集的简单任务。在我的df中，此变量称为“消耗”

我在这里遵循了此示例，并使代码适应我的df和所需的条件：根据另一列中的条件计算列数据的平均值

但是，我去手工计算了一些方法（使用excel），结果却截然不同

有人可以指出我错误代码的正确方向吗？

我确实将“ 0”作为一些度量，它们很重要，在计算平均值时需要包括我在内。

这是一个可重现的示例：

df <- read.table("https://pastebin.com/raw/Zpa8cLBN", header = T)

library(dplyr)

df_mean <- df %>% group_by(treatment,day,Control) %>% summarise(
  consumption = first(consumption), consumption = last(consumption), consumption = mean(consumption[consumption >= 0]))

desired_results <- read.table("https://pastebin.com/raw/vZten0jd", header = T) # calculated manually in excel

当我比较两者时，“消费”列中的结果（应该是计算出的平均值）根本不正确。

谢谢大家

安迪

看来我需要为summerise函数使用与原始名称不同的变量名称df

df_mean <- df %>% group_by(treatment,day,Control) %>% summarise(
  Mean_consumption = first(consumption), Mean_consumption = last(consumption), Mean_consumption = mean(consumption[consumption >= 0]))

当与my交叉引用时desired_results，这就是我想要的。

谢谢@jlesuffleur

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。