PySpark按条件计数值

mar tin 发表于 Dev

马田

我有一个DataFrame，这里是一个代码段：

[['u1', 1], ['u2', 0]]

基本上是一个名为的字符串字段f，第二个元素（is_fav）的值是1或0 。

我需要做的是在第一个字段上分组并计算1和0的出现次数。我希望做这样的事情

num_fav = count((col("is_fav") == 1)).alias("num_fav")

num_nonfav = count((col("is_fav") == 0)).alias("num_nonfav")

df.groupBy("f").agg(num_fav, num_nonfav)

它无法正常工作，在两种情况下我都得到相同的结果，该结果等于组中项目的计数，因此似乎忽略了过滤器（无论是1还是0）。这取决于count工作原理吗？

零323

这里没有过滤器。双方col("is_fav") == 1并col("is_fav") == 0)都只是布尔表达式，并count不会真正关心他们的价值，只要它被定义。

您可以通过多种方法来解决此问题，例如，使用simple sum：

from pyspark.sql.functions import sum, abs

gpd = df.groupBy("f")
gpd.agg(
    sum("is_fav").alias("fv"),
    (count("is_fav") - sum("is_fav")).alias("nfv")
)

或将忽略的值设为未定义（也称为NULL）：

exprs = [
    count(when(col("is_fav") == x, True)).alias(c)
    for (x, c) in [(1, "fv"), (0, "nfv")]
]
gpd.agg(*exprs)

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-26

我来说两句

0条评论

登录后参与评论

来自分类Dev

按计数值对字典排序

来自分类Dev

按计数值对字典排序

来自分类Dev

按特定键计数值

来自分类Dev

Pandas Dataframe - 行迭代，按条件重置计数值，无循环

来自分类Dev

PySpark合并数据框和计数值

来自分类Dev

使用熊猫按日期计数值的频率

来自分类Dev

熊猫按列和计数值分组

来自分类Dev

按组求和和计数值

来自分类Dev

如何从使用where条件获取计数值

来自分类Dev

在xquery中按条件计数

来自分类Dev

SailsJS模型按条件计数

来自分类Dev

在R中按组顺序匹配和计数值

来自分类Dev

如何绘制按计数值排序的列字

来自分类Dev

如何在SQL中按计数值分组

来自分类Dev

休眠条件按子记录计数的顺序

来自分类Dev

熊猫按条件计数成群元素

来自分类Dev

GroupBy和按条件计数实体框架

来自分类Dev

按关联记录的条件计数顺序

来自分类Dev

如何按条件获得计数r？

来自分类Dev

SQL Oracle中按行进行条件条件项计数

来自分类Dev

计数值表的出现

来自分类Dev

数组中键的计数值

来自分类Dev

MySQL：打印计数值

来自分类Dev

比较和计数值

来自分类Dev

查询不同的计数值

来自分类Dev

计数值表的出现

来自分类Dev

流星：计数值

来自分类Dev

计数值的类别

来自分类Dev

Power BI（DAX）：按条件过滤的非重复计数

Related 相关文章

文章