如何处理R中不平衡的数据集?

rama27

我有以下问题。我的数据集包含有关网球运动员及其在职业生涯中每个赛季参加的比赛次数的信息。

Name Season Games
Nadal 2015 84
Novak 2017 14
Nadal 2016 88
Federer 2018 75
Nadal 2010 45
.
.
.

我想创建一个新数据集,其中仅包含玩了五年或更长时间的玩家。

我想,我必须以某种方式总结球员,然后筛选他们。请问我该怎么办?

dc37

使用dplyr可以计数和过滤数据框。例如,我创建此虚拟数据框:

df = data.frame(P = c("A","A","A","A","A","A","A","B","B","C","C","C","C"),
                y = c(1,4,5,8,7,4,2,3,4,8,7,4,1))


library(dplyr)
df %>% group_by(P) %>% add_count(P) %>% filter(n > 5)
# A tibble: 7 x 3
# Groups:   P [1]
  P         y     n
  <fct> <dbl> <int>
1 A         1     7
2 A         4     7
3 A         5     7
4 A         8     7
5 A         7     7
6 A         4     7
7 A         2     7

使用数据框,您可以尝试:

df %>% group_by(Name) %>% add_count(Name) %>% filter(n >= 5)

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用libSVM的SVM中的数据不平衡

来自分类Dev

来自不平衡面板数据的R样本

来自分类Dev

子集不平衡的面板数据集以在R中至少具有2个连续观察值

来自分类Dev

不平衡训练数据集和回归模型

来自分类Dev

在R中的不平衡面板数据中创建滞后变量

来自分类Dev

如何通过svmlight中可用的不平衡训练数据集来提供平衡训练的成本?

来自分类Dev

根据不平衡数据在ggplot中创建重叠直方图

来自分类Dev

在Spark MLlib中处理不平衡的数据集

来自分类Dev

如何在R中的不平衡面板数据中创建自上次事件以来的时间?

来自分类Dev

如何处理sklearn随机森林中的类不平衡。我应该使用样本权重还是班级权重参数

来自分类Dev

使用TensorFlow训练不平衡数据

来自分类Dev

如何创建一个新行,该行将向我显示R中不平衡面板数据集中某个组中的观察次数?

来自分类Dev

如何确定不平衡数据集的class_weights

来自分类Dev

重新采样不平衡数据集的数据框

来自分类Dev

不平衡的数据集-如何通过网格搜索优化超参数?

来自分类Dev

R不平衡数据帧数据清理

来自分类Dev

如何平衡不平衡的面板数据?

来自分类Dev

SAS中不平衡数据集的滚动窗口模型

来自分类Dev

如何在Pandas数据框中为不平衡面板生成滞后变量?

来自分类Dev

如何通过训练和交叉验证集正确地分割不平衡数据集

来自分类Dev

如何在sklearn中对不平衡数据集执行交叉验证

来自分类Dev

如何将缺失的NA包括在不平衡面板数据集的R data.frame中?

来自分类Dev

如何通过svmlight中可用的不平衡训练数据集来提供平衡训练的成本?

来自分类Dev

r Caret软件包中的prSummary用于不平衡数据

来自分类Dev

如何使图像不平衡?

来自分类Dev

数据集不平衡时的连接优化

来自分类Dev

如何评估/提高具有不平衡数据集的神经网络预测的准确性?

来自分类Dev

如何在r中从长到宽传播不平衡的数据

来自分类Dev

如何处理 Scikit.learn 管道中不平衡的 xgboost 多类分类?

Related 相关文章

  1. 1

    使用libSVM的SVM中的数据不平衡

  2. 2

    来自不平衡面板数据的R样本

  3. 3

    子集不平衡的面板数据集以在R中至少具有2个连续观察值

  4. 4

    不平衡训练数据集和回归模型

  5. 5

    在R中的不平衡面板数据中创建滞后变量

  6. 6

    如何通过svmlight中可用的不平衡训练数据集来提供平衡训练的成本?

  7. 7

    根据不平衡数据在ggplot中创建重叠直方图

  8. 8

    在Spark MLlib中处理不平衡的数据集

  9. 9

    如何在R中的不平衡面板数据中创建自上次事件以来的时间?

  10. 10

    如何处理sklearn随机森林中的类不平衡。我应该使用样本权重还是班级权重参数

  11. 11

    使用TensorFlow训练不平衡数据

  12. 12

    如何创建一个新行,该行将向我显示R中不平衡面板数据集中某个组中的观察次数?

  13. 13

    如何确定不平衡数据集的class_weights

  14. 14

    重新采样不平衡数据集的数据框

  15. 15

    不平衡的数据集-如何通过网格搜索优化超参数?

  16. 16

    R不平衡数据帧数据清理

  17. 17

    如何平衡不平衡的面板数据?

  18. 18

    SAS中不平衡数据集的滚动窗口模型

  19. 19

    如何在Pandas数据框中为不平衡面板生成滞后变量?

  20. 20

    如何通过训练和交叉验证集正确地分割不平衡数据集

  21. 21

    如何在sklearn中对不平衡数据集执行交叉验证

  22. 22

    如何将缺失的NA包括在不平衡面板数据集的R data.frame中?

  23. 23

    如何通过svmlight中可用的不平衡训练数据集来提供平衡训练的成本?

  24. 24

    r Caret软件包中的prSummary用于不平衡数据

  25. 25

    如何使图像不平衡?

  26. 26

    数据集不平衡时的连接优化

  27. 27

    如何评估/提高具有不平衡数据集的神经网络预测的准确性?

  28. 28

    如何在r中从长到宽传播不平衡的数据

  29. 29

    如何处理 Scikit.learn 管道中不平衡的 xgboost 多类分类?

热门标签

归档