沿列计算汇总统计信息

马丁·约尔丹诺夫·格奥尔基耶夫

我想在 Pandas DataFrame 中计算统计数据(某个百分位范围内的观察计数)。

我有以下数据帧

 Austria Japan    USA
   0.8    0.1    0.4
   0.5    0.8    0.3
   0.4    0.5    0.8
   0.1    0.1    0.7
   0.3    0.9    0.9

我想达到以下结果。

非常感谢帮助

                Count(PERCENTILE(x<0.4))        Count(PERCENTILE(0.4<x<0.7))        Count(PERCENTILE(x>0.7))
    Austria                     
    Japan                       
    USA
IM币

首先,您要重新调整数据。正如您所说,您需要分组,因此您需要先将数据分组为一列。为此使用pd.melt

然后,使用pd.cut,我将从bin名为 的 bin 列表中分配该值所属的新列categories如果您想使用名称而不是实际的 bins 值,只需取消对该labels部分代码的注释

然后,通过分组bins和使用Series.value_counts,我可以计算出每组的 bin 数量。

如果您真的想要问题中提出的输出,请使用 df.unstack()

df = pd.read_csv('some_data.csv')
df = pd.melt(df, var_name='country', value_name='value')
print(df)
#     country  value
# 0   Austria    0.8
# 1   Austria    0.5
# 2   Austria    0.4
# 3   Austria    0.1
# 4   Austria    0.3
# 5     Japan    0.1
# 6     Japan    0.8
# 7     Japan    0.5
# 8     Japan    0.1
# 9     Japan    0.9
# 10      USA    0.4
# 11      USA    0.3
# 12      USA    0.8
# 13      USA    0.7
# 14      USA    0.9

categories = [0.0, 0.4, 0.7, 1.0]
# labels = ['Count(Percentile(x<0.4))', 'Count(Percentile(0.4<x<0.7))', 'Count(Percentile(0.7<x))']
df['bins'] = pd.cut(df['value'], categories)#, labels=labels)
print(df)
#     country  value        bins
# 0   Austria    0.8  (0.7, 1.0]
# 1   Austria    0.5  (0.4, 0.7]
# 2   Austria    0.4  (0.0, 0.4]
# 3   Austria    0.1  (0.0, 0.4]
# 4   Austria    0.3  (0.0, 0.4]
# 5     Japan    0.1  (0.0, 0.4]
# 6     Japan    0.8  (0.7, 1.0]
# 7     Japan    0.5  (0.4, 0.7]
# 8     Japan    0.1  (0.0, 0.4]
# 9     Japan    0.9  (0.7, 1.0]
# 10      USA    0.4  (0.0, 0.4]
# 11      USA    0.3  (0.0, 0.4]
# 12      USA    0.8  (0.7, 1.0]
# 13      USA    0.7  (0.4, 0.7]
# 14      USA    0.9  (0.7, 1.0]

df = df.groupby(['country'])['bins'].value_counts()
print(df)
# country  bins      
# Austria  (0.0, 0.4]    3
#          (0.4, 0.7]    1
#          (0.7, 1.0]    1
# Japan    (0.0, 0.4]    2
#          (0.7, 1.0]    2
#          (0.4, 0.7]    1
# USA      (0.0, 0.4]    2
#          (0.7, 1.0]    2
#          (0.4, 0.7]    1

print(df.unstack())
# bins     (0.0, 0.4]  (0.4, 0.7]  (0.7, 1.0]
# country                                    
# Austria           3           1           1
# Japan             2           1           2
# USA               2           1           2

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

在SQL中计算滚动汇总统计信息

来自分类Dev

使用 data.table 汇总组的汇总统计信息

来自分类Dev

R汇总统计信息(按数据表的列)

来自分类Dev

根据日期字段按年份分组汇总统计信息

来自分类Dev

SAS 使汇总统计信息在 proc 中不可用

来自分类Dev

从 Pyspark 表中的循环附加汇总统计信息

来自分类Dev

r 中回归循环的汇总统计信息

来自分类Dev

如何有效地计算嵌套在 Postgres 中的 JSONB 数组的汇总统计信息?

来自分类Dev

根据列表中数据框中每个单元格中的值单独计算汇总统计信息

来自分类Dev

如何在R中的多个列之间产生汇总统计信息?

来自分类Dev

如果指标变量等于1,如何生成汇总统计信息?

来自分类Dev

Stata将Excel汇总统计信息按组发送到MS Excel

来自分类Dev

将汇总统计信息与SQLAlchemy中的查询结果进行合并?

来自分类Dev

比较具有相同列的两个数据框的汇总统计信息

来自分类Dev

按事件序列分组并获取每个序列的汇总统计信息

来自分类Dev

如何使用 matplotlib 或 seaborn 在绘图旁边显示汇总统计信息?

来自分类Dev

熊猫汇总统计的均值检验差异?

来自分类Dev

如何制作汇总统计表

来自分类Dev

R ggplot-ecdf图表-在绘图区域的内部/外部添加带有汇总统计信息的表格

来自分类Dev

从R中的汇总统计量进行t.test?

来自分类Dev

从数据框创建汇总统计表

来自分类Dev

如何创建汇总统计数据框架?

来自分类Dev

Zelig和Amelia的估算数据汇总统计

来自分类Dev

如何动态地进行集群明智的汇总统计

来自分类Dev

使用 esttab:如何指定汇总统计的位数

来自分类Dev

将面板数据汇总统计导出到 LaTeX

来自分类Dev

连续变量双向汇总统计表

来自分类Dev

在dplyr分析中结合多个汇总统计

来自分类Dev

如何计算Linux Network RX,TX的总统计信息-不仅仅是重启之间?

Related 相关文章

  1. 1

    在SQL中计算滚动汇总统计信息

  2. 2

    使用 data.table 汇总组的汇总统计信息

  3. 3

    R汇总统计信息(按数据表的列)

  4. 4

    根据日期字段按年份分组汇总统计信息

  5. 5

    SAS 使汇总统计信息在 proc 中不可用

  6. 6

    从 Pyspark 表中的循环附加汇总统计信息

  7. 7

    r 中回归循环的汇总统计信息

  8. 8

    如何有效地计算嵌套在 Postgres 中的 JSONB 数组的汇总统计信息?

  9. 9

    根据列表中数据框中每个单元格中的值单独计算汇总统计信息

  10. 10

    如何在R中的多个列之间产生汇总统计信息?

  11. 11

    如果指标变量等于1,如何生成汇总统计信息?

  12. 12

    Stata将Excel汇总统计信息按组发送到MS Excel

  13. 13

    将汇总统计信息与SQLAlchemy中的查询结果进行合并?

  14. 14

    比较具有相同列的两个数据框的汇总统计信息

  15. 15

    按事件序列分组并获取每个序列的汇总统计信息

  16. 16

    如何使用 matplotlib 或 seaborn 在绘图旁边显示汇总统计信息?

  17. 17

    熊猫汇总统计的均值检验差异?

  18. 18

    如何制作汇总统计表

  19. 19

    R ggplot-ecdf图表-在绘图区域的内部/外部添加带有汇总统计信息的表格

  20. 20

    从R中的汇总统计量进行t.test?

  21. 21

    从数据框创建汇总统计表

  22. 22

    如何创建汇总统计数据框架?

  23. 23

    Zelig和Amelia的估算数据汇总统计

  24. 24

    如何动态地进行集群明智的汇总统计

  25. 25

    使用 esttab:如何指定汇总统计的位数

  26. 26

    将面板数据汇总统计导出到 LaTeX

  27. 27

    连续变量双向汇总统计表

  28. 28

    在dplyr分析中结合多个汇总统计

  29. 29

    如何计算Linux Network RX,TX的总统计信息-不仅仅是重启之间?

热门标签

归档