我有一个包含列名的大数据集:ID和Property。可能有几行共享同一个ID,这意味着一个ID具有许多不同的属性(分类变量)。我想为属性添加虚拟变量,最后在每行中获取一个具有不同ID的数据框,并使用1/0指示它是否具有该属性。原始数据具有200万行和10000个不同的属性。因此,理想情况下,我将通过组合相同的ID来缩小行的大小,并添加虚拟变量列(每个属性1列)。
当我使用以下代码时,R崩溃:
for(t in unique(df$property)){
df3[paste("property",t,sep="")] <- ifelse(df$property==t,1,0)
}
因此,我想知道为R中的大型数据集添加虚拟变量列的最有效方法是什么?
我们可以使用 table
as.data.frame.matrix(table(df1))
# A B C D
#1 1 1 0 0
#3 0 0 1 0
#4 0 0 0 1
#5 0 0 0 2
否则有效的方法将dcast
来自data.table
library(data.table)
dcast(setDT(df1), a~b, value.var = "a", length)
df1 <- structure(list(a = c(1L, 1L, 3L, 4L, 5L, 5L), b = c("A", "B",
"C", "D", "D", "D")), .Names = c("a", "b"), row.names = c("1",
"2", "3", "4", "5", "6"), class = "data.frame")
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句