R中是否有子设置功能，可让我平衡子集和条件？

debugcn 发表于 Dev

mbald23

我正在处理一个大型数据集，该数据集需要作为子集才能在多个线程上同时运行。为了做到这一点，我需要将其分为N个子集，希望子集具有相同的大小。但是，我在表中有一个类别变量，并且我需要确保所有具有相同类别的内容都在同一子集中。有些类别只有2行，但是有些类别最多可能有2,000行。更高的优先级是没有类别涉及一个以上的子集，因此，如果我有一个包含5,000行的数据集，并且在一个类别中有3,000行，并且我被分成三个子集，那么我将拥有这3,000个子集，并且然后再增加两个（约1,000个）。

我正在考虑使用table（）命令来预加载每个类别的频率，但是在弄清楚如何自动进行子设置时有些麻烦。

ander2ed

我想到了一种使用的方法data.table，该方法有点类似于您的使用计划，table但是希望可以使其变得更加自动化和通用。

该方法主要是查看每个category类别中的计数，计算所有类别上的累积计数，并将cut累积总和值分成nSubsets（大约）相等大小的组：

library(data.table)

## dummy up some data;
dt <- data.table(category = rep(1:256, sample(2:2000, 256, replace = T)))
## view couts by category;
dt[, .N, by = category]

# how many subsets do you want?;
nSubsets <- 4

## here we will assign each category value to a subset;
dt[, .(.N),
   by = .(category)][order(N), .(category,
                         subset = cut(cumsum(N), breaks = nSubsets))]

## join above to your data;
dt[dt[, .(.N),
      by = .(category)][order(N), .(category,
                            subset = cut(cumsum(N), breaks = nSubsets))],
   subset := i.subset,
   on = "category"]


dt
dt[, .N, by = subset]

现在，您的数据将有一个名为column的列subset，该列在类别中不会变化，但会将数据切成几乎相等大小的子集。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-04-6

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

R中是否有子设置功能，可让我平衡子集和条件？

R中是否有子设置功能，可让我平衡子集和条件？

是否有Google Keep API和/或Google库/ API可让我以程序形式访问* nix脚本中的Keep笔记？

是否有可能基于行范围和r中的逻辑条件对data.frame进行子集化？

是否有一个简单的功能可以基于Python中的值条件构建子列表？

我可以在 R 中设置子集的同时操作列吗？

R中是否有“功能是否”？

dcast中是否有一个允许我包含其他条件的功能？

R中具有动态条件的子集数据

具有条件和子功能的excel sumproduct

具有条件和子功能的excel sumproduct

R中的条件子集出错

R中基于条件的子集

子集不平衡的面板数据集以在R中至少具有2个连续观察值

R中是否有“暂停”功能？

R中是否有“包装”功能？

是否有任何C编译器可让您阻止使用特定的库和函数？

是否有Razor助手，可让您使用字符串和对象创建url

是否有任何C编译器可让您阻止使用特定的库和函数？

R中矩阵的有效子集和列求和

Vimeo API和隐私：哪些设置可让视频在移动应用中显示？

我们是否可以通过检查SQL和HQL中的if else条件来设置表名？

具有多个条件的R子集

在R中特定的时间点序列中设置子集，我可以使用seq吗？

是否有R函数用于导出数据表中的列表和子列表名称？

具有子名和逻辑运算符的R子集

基于r中条件的子集列表

基于R中条件的子集列表

R中的条件子集数据帧

在R中按组条件进行子集

R中的子集行按条件随机