我是新来的R和我想从我的一个新的数据集dataframe
,其中将包括它代表了一个新的列median
值的现有列的(所谓的总额外)dataframe
。后者由大约 5,000 个单独的观察结果组成。我对如何继续执行此任务感到有些困惑,因为需要根据以下标准计算中位数:财产、月份、年份和市场
目前,我的dataframe
(我们称之为 mydata1)如下(显示前 5 行):
Property Date Month Year Market TotalExtras
ZIL 1-Jan-15 1 2015 UK 450.00
ZIL 1-Jan-15 1 2015 UK 125.00
ZIL 1-Feb-15 2 2015 UK 300.00
ZIL 1-Feb-16 2 2016 FR 225.00
EBA 1-Feb-15 2 2015 UK 150.00
...
我需要我的 R 代码来创建一个新的dataframe
(我们称之为 mydata2),如下所示:
Property Date Month Year Market MedianTotalExtras
ZIL 1-Jan-15 1 2015 UK 175.00
ZIL 1-Feb-15 2 2015 UK 250.00
ZIL 1-Feb-16 2 2016 FR 400.00
EBA 1-Feb-15 2 2015 UK 328.00
...
上图仅供说明之用。基本上,mydata2 正在根据 Property、Date 和 Market 重新分组数据,用列“Median Total Extras”替换 mydata1 的“TotalExtras”列。
这可以用R完成吗?
在dplyr
一般的要点将是这样的:
mydata1 %>%
group_by(Property, Date, Market) %>%
summarise(MedianTotalExtras = median(TotalExtras))
wheregroup_by
将数据集切割成具有唯一Property
, Date
,Market
组合的部分,summarise
+median
计算中位数。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句