熊猫:选择平衡样本

用户名

我有一个涵盖五年的3000家公司的数据框架。

Id     Company          Year       Value
0      1111111          2016         NaN
1      1111111          2015      3871.0
2      3333333          2016      3989.0
3      3333333          2015      3648.0
4      4444444          2016      5456.0
5      4444444          2015         NaN
6      2222222          2016         NaN
7      2222222          2015        10.0
8      5555555          2016      1515.0
9      5555555          2015      2654.0

我喜欢进行选择,以确保所有公司都没有NaN值。因此,在选择中存在所有期间的数据,因此每个期间有相同数量的公司。

最简单的方法是什么?

结果应该是:

Id     Company          Year       Value
2      3333333          2016      3989.0
3      3333333          2015      3648.0
7      5555555          2016      1515.0
8      5555555          2015      2654.0

谢谢

艾汉

groupby.count()返回非空值的数量,因此,如果对公司进行分组,则计数应等于年数。假设没有重复项,您可以执行以下操作:

df.ix[df.groupby('Company')['Value'].transform('count') > 1, :]
Out[259]: 
   Id  Company  Year   Value
2   2  3333333  2016  3989.0
3   3  3333333  2015  3648.0
8   8  5555555  2016  1515.0
9   9  5555555  2015  2654.0

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用熊猫平衡数据集

来自分类Dev

子样本熊猫数据框

来自分类Dev

子样本熊猫数据框

来自分类Dev

r-样本不平衡的清晰代码

来自分类Dev

来自不平衡面板数据的R样本

来自分类常见问题

熊猫中的样本数据集

来自分类Dev

熊猫创建随机样本而不重复

来自分类Dev

一键编码单个样本熊猫

来自分类Dev

ValueError:样本大于从图中选择样本的总体

来自分类Dev

选择所有用户的样本并更新样本的字段值

来自分类Dev

根据两列选择随机平衡记录

来自分类Dev

在Matlab中随机选择大量样本的子集

来自分类Dev

在Elasticsearch的样本中选择数据集

来自分类Dev

如何从熊猫多索引中获取随机(引导)样本

来自分类Dev

熊猫中数据框的子集的随机样本

来自分类Dev

使用Python /熊猫匹配样本对年度数据

来自分类Dev

熊猫:创建随机样本和相关矩阵

来自分类Dev

如何从熊猫的时间序列中删除重复的样本?

来自分类Dev

用样本改组一列熊猫df

来自分类Dev

从熊猫数据框中突出显示带状图中的特定样本

来自分类Dev

熊猫从Multiindex获取行名(样本名称)

来自分类Dev

在熊猫系列中查找至少 N 个样本的布尔区间

来自分类Dev

熊猫数据框(选择)

来自分类Dev

特定年份的熊猫选择

来自分类Dev

大熊猫的选择

来自分类Dev

熊猫的高效STAR选择

来自分类Dev

熊猫面板布尔选择

来自分类Dev

熊猫选择列错误

来自分类Dev

熊猫的Sklearn功能选择