使用R删除大型数据集中的一些特殊列

debugcn 发表于 Dev

拉玛尼86

我使用大型数据集（1200 * 10000），在我的数据集中，某些列具有相同的值（除了一两点之外），我需要检测并删除此列，例如在“ 1846”列中：

> x[317:400,1846]

 [1] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2

[81] 2 2 **1** 2

其他行值（1：317和400：1200）= 2。

我该如何解决？

例如，在“我的文件”的某些部分（1200 * 10000），

x
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [,11] [,12]
 [1,]    1    1    0    1    2    0    1    0    1     2     2     1
 [2,]    1    1    0    1    2    0    1    0    1     2     1     1
 [3,]    2    1    0    1    2    0    1    0    1     2     2     1
 [4,]    1    2    0    1    2    0    1    0    1     2     2     2
 [5,]    0    1    0    1    2    0    1    0    1     2     1     1
 [6,]    2    0    0    1    2    0    1    2    0     2     1     2
 [7,]    1    1    0    1    2    1    1    0    1     2     0     2
 [8,]    0    1    0    1    2    0    1    0    1     2     0     0
 [9,]    0    1    0    1    2    0    1    0    1     1     2     1
[10,]    1    1    0    1    2    0    1    0    1     2     1     1

我想在原始数据集中删除3到10之类的列。

马克·米勒

我不确定，但是我想您想删除在n-1或n-2行中包含单个值的任何列，其中行n数是。如果是这样，那么您将要删除：

列x2，my.data因为它包含9个“ 1”和一个“ 0”，并且

列x5，my.data因为它包含8个'2'和两个'1'。

下面的代码可以做到这一点。抱歉，这不是您要尝试的操作。我不确定此代码在庞大的数据帧中是否能很好地执行。

my.data <- read.table(text='

x1  x2  x3  x4  x5  x6
 1   1   2   2   2   1
 1   1   2   1   1   2
 1   1   2   2   2   3
 1   1   2   2   2   4
 1   1   2   1   2   5
 1   1   2   2   2   6
 1   0   2   2   2   7
 1   1   2   1   2   8
 1   1   2   2   1   9
 1   1   2   2   2  10

', header = TRUE)

my.data

my.summary <- as.data.frame.matrix(table( rep(colnames(my.data), 
                      each=nrow(my.data)), unlist(my.data)))
my.summary

delete.these <- which(my.summary == (nrow(my.data)-2) | 
                      my.summary == (nrow(my.data)-1), arr.ind = TRUE)[,1]

my.data[,-delete.these]

   x1 x3 x4 x6
1   1  2  2  1
2   1  2  1  2
3   1  2  2  3
4   1  2  2  4
5   1  2  1  5
6   1  2  2  6
7   1  2  2  7
8   1  2  1  8
9   1  2  2  9
10  1  2  2 10

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。