R中是否有子设置功能,可让我平衡子集和条件?

mbald23

我正在处理一个大型数据集,该数据集需要作为子集才能在多个线程上同时运行。为了做到这一点,我需要将其分为N个子集,希望子集具有相同的大小。但是,我在表中有一个类别变量,并且我需要确保所有具有相同类别的内容都在同一子集中。有些类别只有2行,但是有些类别最多可能有2,000行。更高的优先级是没有类别涉及一个以上的子集,因此,如果我有一个包含5,000行的数据集,并且在一个类别中有3,000行,并且我被分成三个子集,那么我将拥有这3,000个子集,并且然后再增加两个(约1,000个)。

我正在考虑使用table()命令来预加载每个类别的频率,但是在弄清楚如何自动进行子设置时有些麻烦。

ander2ed

我想到了一种使用的方法data.table,该方法有点类似于您的使用计划,table但是希望可以使其变得更加自动化和通用。

该方法主要是查看每个category类别中的计数,计算所有类别上的累积计数,并将cut累积总和值分成nSubsets(大约)相等大小的组:

library(data.table)

## dummy up some data;
dt <- data.table(category = rep(1:256, sample(2:2000, 256, replace = T)))
## view couts by category;
dt[, .N, by = category]

# how many subsets do you want?;
nSubsets <- 4

## here we will assign each category value to a subset;
dt[, .(.N),
   by = .(category)][order(N), .(category,
                         subset = cut(cumsum(N), breaks = nSubsets))]

## join above to your data;
dt[dt[, .(.N),
      by = .(category)][order(N), .(category,
                            subset = cut(cumsum(N), breaks = nSubsets))],
   subset := i.subset,
   on = "category"]


dt
dt[, .N, by = subset]

现在,您的数据将有一个名为column的列subset该列在类别中不会变化,但会将数据切成几乎相等大小的子集。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

是否有Google Keep API和/或Google库/ API可让我以程序形式访问* nix脚本中的Keep笔记?

来自分类Dev

是否有可能基于行范围和r中的逻辑条件对data.frame进行子集化?

来自分类Dev

是否有一个简单的功能可以基于Python中的值条件构建子列表?

来自分类Dev

我可以在 R 中设置子集的同时操作列吗?

来自分类Dev

R中是否有“功能是否”?

来自分类Dev

dcast中是否有一个允许我包含其他条件的功能?

来自分类Dev

R中具有动态条件的子集数据

来自分类Dev

具有条件和子功能的excel sumproduct

来自分类Dev

具有条件和子功能的excel sumproduct

来自分类Dev

R中的条件子集出错

来自分类Dev

R中基于条件的子集

来自分类Dev

子集不平衡的面板数据集以在R中至少具有2个连续观察值

来自分类Dev

R中是否有“暂停”功能?

来自分类Dev

R中是否有“包装”功能?

来自分类Dev

是否有任何C编译器可让您阻止使用特定的库和函数?

来自分类Dev

是否有Razor助手,可让您使用字符串和对象创建url

来自分类Dev

是否有任何C编译器可让您阻止使用特定的库和函数?

来自分类Dev

R中矩阵的有效子集和列求和

来自分类Dev

Vimeo API和隐私:哪些设置可让视频在移动应用中显示?

来自分类Dev

我们是否可以通过检查SQL和HQL中的if else条件来设置表名?

来自分类Dev

具有多个条件的R子集

来自分类Dev

在R中特定的时间点序列中设置子集,我可以使用seq吗?

来自分类Dev

是否有R函数用于导出数据表中的列表和子列表名称?

来自分类Dev

具有子名和逻辑运算符的R子集

来自分类Dev

基于r中条件的子集列表

来自分类Dev

基于R中条件的子集列表

来自分类Dev

R中的条件子集数据帧

来自分类Dev

在R中按组条件进行子集

来自分类Dev

R中的子集行按条件随机

Related 相关文章

  1. 1

    是否有Google Keep API和/或Google库/ API可让我以程序形式访问* nix脚本中的Keep笔记?

  2. 2

    是否有可能基于行范围和r中的逻辑条件对data.frame进行子集化?

  3. 3

    是否有一个简单的功能可以基于Python中的值条件构建子列表?

  4. 4

    我可以在 R 中设置子集的同时操作列吗?

  5. 5

    R中是否有“功能是否”?

  6. 6

    dcast中是否有一个允许我包含其他条件的功能?

  7. 7

    R中具有动态条件的子集数据

  8. 8

    具有条件和子功能的excel sumproduct

  9. 9

    具有条件和子功能的excel sumproduct

  10. 10

    R中的条件子集出错

  11. 11

    R中基于条件的子集

  12. 12

    子集不平衡的面板数据集以在R中至少具有2个连续观察值

  13. 13

    R中是否有“暂停”功能?

  14. 14

    R中是否有“包装”功能?

  15. 15

    是否有任何C编译器可让您阻止使用特定的库和函数?

  16. 16

    是否有Razor助手,可让您使用字符串和对象创建url

  17. 17

    是否有任何C编译器可让您阻止使用特定的库和函数?

  18. 18

    R中矩阵的有效子集和列求和

  19. 19

    Vimeo API和隐私:哪些设置可让视频在移动应用中显示?

  20. 20

    我们是否可以通过检查SQL和HQL中的if else条件来设置表名?

  21. 21

    具有多个条件的R子集

  22. 22

    在R中特定的时间点序列中设置子集,我可以使用seq吗?

  23. 23

    是否有R函数用于导出数据表中的列表和子列表名称?

  24. 24

    具有子名和逻辑运算符的R子集

  25. 25

    基于r中条件的子集列表

  26. 26

    基于R中条件的子集列表

  27. 27

    R中的条件子集数据帧

  28. 28

    在R中按组条件进行子集

  29. 29

    R中的子集行按条件随机

热门标签

归档