搜索

搜索

pyspark sql：如何计算多个条件的行

debugcn 发表于 Dev

15

质量17

经过一些操作，我有一个这样的数据框；

df_new_1 = df_old.filter(df_old["col1"] >= df_old["col2"])
df_new_2 = df_old.filter(df_old["col1"] < df_old["col2"])

print(df_new_1.count(), df_new_2.count())
>> 10, 15

通过调用，我可以像上面那样单独找到行数count()。但是我该如何使用pyspark sql row操作来做到这一点。即按行汇总。我想看到这样的结果；

Row(check1=10, check2=15)

x

由于您标记了pyspark-sql，因此可以执行以下操作：

df_old.createOrReplaceTempView("df_table")

spark.sql("""

    SELECT sum(int(col1 >= col2)) as check1
    ,      sum(int(col1 < col2)) as check2
    FROM df_table

""").collect()

或使用API函数：

from pyspark.sql.functions import expr

df_old.agg(
    expr("sum(int(col1 >= col2)) as check1"), 
    expr("sum(int(col1 < col2)) as check2")
).collect()

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-04-2

0

我来说两句

0条评论

登录后参与评论

相关文章

来自分类Dev

计算Dataframe Pyspark中的行

来自分类Dev

根据多个条件删除PySpark数据框中的行

来自分类Dev

如何计算pyspark数据帧中值的条件概率？

来自分类Dev

如何在pyspark中计算？

来自分类Dev

根据条件pyspark计算不同的列值

来自分类Dev

PySpark计算相关

来自分类Dev

PySpark条件增量

来自分类Dev

Pyspark 中的多个 WHEN 条件实现

来自分类Dev

PySpark下降行

来自分类Dev

Pyspark从PostgreSQL删除行

来自分类Dev

pyspark列重复行

来自分类Dev

PySpark或SQL：消耗合并

来自分类Dev

Pyspark数据框SQL

来自分类Dev

PySpark sql CASE 失败

来自分类Dev

如何配置pyspark作业

来自分类Dev

pyspark如何与Java集成？

来自分类Dev

如何使用pyspark绘图？

来自分类Dev

如何计算pyspark中每行的单词数

来自分类Dev

如何在PySpark中进行滚动计算？

来自分类Dev

我可以使用PySpark计算满足条件的行的每行聚合吗？

来自分类常见问题

在Pyspark中的条件时如何动态链接？

来自分类Dev

在Pyspark中的条件时如何动态链接？

来自分类Dev

计算pyspark中的滚动总和

来自分类Dev

PySpark按条件计数值

来自分类Dev

Pyspark：根据条件修改列

来自分类Dev

pyspark function.lag条件

来自分类Dev

pyspark中的Xor逻辑条件

来自分类Dev

Pyspark数据框中的条件

来自分类Dev

Pyspark如何计算每个组中字符串的出现次数并打印多个选定的列？

Related 相关文章

文章

热门标签

归档