模拟R中数据丢失和错误的x百分比

rdorlearn

我想对我的相当大的数据集执行两件事10 K x 50 K以下是较小的一组200 x 10000

首先,我想生成5%的缺失值,这也许很简单,并且可以通过简单的技巧完成:

# dummy data 
set.seed(123)
# matrix of X variable 
xmat <- matrix(sample(0:4, 2000000, replace = TRUE), ncol = 10000)
colnames(xmat) <- paste ("M", 1:10000, sep ="")
rownames(xmat) <- paste("sample", 1:200, sep = "")

在数据的5%随机位置生成缺失值。

N <- 2000000*0.05 # 5% random missing values 
inds_miss <- round ( runif(N, 1, length(xmat)) )
xmat[inds_miss] <- NA

现在,我想生成错误(表示与上面矩阵中的值不同的值。上面的矩阵的值为0到4。所以我想做的是:

(1)我想用另一个非x的值替换x值(例如0可以用非0的随机样本替换(即1或2或3或4),类似地,1可以替换为而不是1(即0或2或3或4)。可以用以下方法简单地替换可替换随机值的指标:

  inds_err <- round ( runif(N, 1, length(xmat)) )

如果我随机采样0:4值并替换为索引,这有时会将相同的值替换为相同的值(0替换为0,1替换为1,依此类推),而不会产生错误。

errorg <- sample(0:4, length(inds_err), replace = TRUE)
xmat[inds_err] <- errorg

(2)所以我想做的是在xmat中引入缺少值的错误,但是我不想NA在上述步骤中将生成的值替换为一个值(0到4)。因此,ind_err不应成为vector的成员inds_miss

所以总结规则

(1)缺失值不应替换为错误值

(2)现有值必须替换为其他值(此处是错误的定义)-在随机采样中,这样做的概率为1/5。

怎么做到呢 ?我需要可以在大型数据集中使用的更快的解决方案。

尼古拉

您可以尝试以下方法:

    inds_err <- setdiff(round ( runif(2*N, 1, length(xmat)) ),inds_miss)[1:N]
    xmat[inds_err]<-(xmat[inds_err]+sample(4,N,replace=TRUE))%%5

在第一行中,您生成2*N可能的错误索引,inds_miss然后减去属于的错误索引,然后取第一个N。在第二行中,将值添加到要在1到4之间更改随机数的值,然后取mod 5通过这种方式,您可以确保新值将与原始值和stil在0-4范围内不同。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

R中的绘图百分比

来自分类Dev

从百分比计算损失和利润

来自分类Dev

InfluxDB中的百分比百分比

来自分类Dev

InfluxDB中的百分比百分比

来自分类Dev

R:如何将数据聚合成百分比而又不会丢失ggplot2中堆积条形图的数据?

来自分类Dev

将“ X%”格式的百分比读入R

来自分类Dev

R:数据子集的百分比计算

来自分类Dev

编织到pdf时,ztable包中的R百分比符号引发\ hline错误

来自分类Dev

如何找到数据帧中NA的百分比?

来自分类Dev

数据透视表中总计的百分比

来自分类Dev

ggplot条带分类数据中的百分比

来自分类Dev

计算postgres中列数据的百分比

来自分类Dev

在seaborn中绘制百分比数据

来自分类Dev

在R的数据框中计算列中的零并表示为百分比

来自分类Dev

在R中的数据集中以相等的间隔计算总计的百分比

来自分类Dev

使用R中的read.table按日期细分百分比数据

来自分类Dev

将数据汇总为R中并排条形图的百分比

来自分类Dev

用R数据框中的NA随机替换每组值的百分比

来自分类Dev

R中数据帧之间的对称百分比变化

来自分类Dev

根据R中的分组数据框计算性别百分比

来自分类Dev

基于数据帧R的子集的一列中“分类值”的百分比

来自分类Dev

从数据集显示 R studio 中的饼图百分比

来自分类Dev

R中的ddply变换(百分比变化)

来自分类Dev

如何str_extract R中的百分比?

来自分类Dev

如何对R中的百分比进行拆分

来自分类Dev

确定R中的字符匹配百分比

来自分类Dev

使表格显示百分比而不是R中的频率

来自分类Dev

如何计算R中的重叠百分比

来自分类Dev

按R中的子组百分比汇总