mice_mod <-
mice(titanicData[, !names(titanicData) %in%
c('PassengerId','Name','Ticket','Cabin','Survived')],
method='rf')
mice_output <- complete(mice_mod)
我是R的新手,昨天我们有一次大学讲座。该命令的作用是什么?我已经阅读了在线文档,并将命令分解为一系列输出,没有任何乐趣。
鼠标功能近似于缺失值。在这种情况下,您将使用“ rf”语句,这意味着将使用随机森林插补算法。由于我无法复制您的数据集,因此我正在使用airquality
R是带有NA
值的内置数据集。这些可以近似。您正在使用创建某种预测模型mice
。实际上,它是一个mids
对象,小鼠将其用于估算的数据集(文档)。如果要使用这些插补,可以调用complete
创建填充的数据框。
library(mice)
df<-airquality
mice_mod <- mice(df, method='rf')
mice_output <- complete(mice_mod)
当你比较df
和mice_output
,你会看到NA
值Ozone
和Solar
得到更换。
在您的示例中,您的讲师正在使用不在被叫姓名列表中的所有姓名。因此,他正在预先过滤数据帧。
如果您需要有关算法的更多信息:关于文档,请参见
Doove,LL,van Buuren,S.,Dusseldorp,E.(2014),在存在交互效应的情况下,针对丢失的数据插补进行递归分区。计算统计与数据分析,72,92-104。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句