如何在pyspark中计算?

gh

我有很多头衔。我想在整个数据集中计算每个标题。例如:

`title`

   A
   b
   A
   c
   c
   c

输出:

 title fre
     A   2
     b   1
     c   3
智慧

您可以groupBy title然后count

import pyspark.sql.functions as f
df.groupBy('title').agg(f.count('*').alias('count')).show()
+-----+-----+
|title|count|
+-----+-----+
|    A|    2|
|    c|    3|
|    b|    1|
+-----+-----+

或更简而言之:

df.groupBy('title').count().show()

+-----+-----+
|title|count|
+-----+-----+
|    A|    2|
|    c|    3|
|    b|    1|
+-----+-----+

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何在PySpark中计算多个列和滚动窗口上的不同元素

来自分类Dev

如何在PySpark数据帧中计算每日基准(时间序列)

来自分类Dev

如何在Hive中计算中位数

来自分类Dev

如何在SQL中计算“运行总计”

来自分类Dev

如何在RX中计算处理时间

来自分类Dev

如何在PostgreSQL中计算最大列

来自分类Dev

如何在mysql中计算复合主键

来自分类Dev

如何在Excel中计算元素

来自分类Dev

如何在mySQL表中计算票数?

来自分类Dev

如何在AngularJS中计算地图大小

来自分类Dev

如何在蜂巢中计算累计薪水

来自分类Dev

如何在Matlab中计算每页STD?

来自分类Dev

如何在Excel中计算总和

来自分类Dev

如何在Slick 2.0中计算(*)?

来自分类Dev

如何在Firebase中计算连接

来自分类Dev

如何在bash中计算arccos()?

来自分类Dev

如何在mysql中计算权重

来自分类Dev

如何在Django模板中计算时差

来自分类Dev

如何在Netlogo中计算死海龟

来自分类Dev

如何在BigQuery中计算年龄?

来自分类Dev

如何在WPF中计算形状的方向

来自分类Dev

如何在SQL中计算平均日期?

来自分类Dev

如何在Hive中计算日期差

来自分类Dev

如何在SQL中计算累积时差

来自分类Dev

如何在Liquid中计算变量+1

来自分类Dev

如何在MATLAB中计算环的半径?

来自分类Dev

如何在javascript中计算点值?

来自分类Dev

如何在Erlang中计算5 ^ 262144

来自分类Dev

如何在python中计算列表的方差?