搜索

搜索

在Spark数据框中的24小时时间范围内计算总和

debugcn 发表于 Dev

20

斯瓦蒂

我想通过基于小时过滤行来计算日期和日期+1（24小时）之和。

1, 2018-05-01 02:12:00,1
1, 2018-05-01 03:16:10,2
1, 2018-05-01 09:12:00,4
1, 2018-05-01 14:18:00,3
1, 2018-05-01 18:32:00,1
1, 2018-05-01 20:12:00,1
1, 2018-05-02 01:22:00,1
1, 2018-05-02 02:12:00,1
1, 2018-05-02 08:30:00,1
1, 2018-05-02 10:12:00,1
1, 2018-05-02 11:32:00,1
1, 2018-05-02 18:12:00,1
1, 2018-05-03 03:12:00,1
1, 2018-05-03 08:22:00,1

在这里，示例我已经过滤了从9AM到9AM（下一个日期）的行输出

1, 2018-05-01,12
1, 2018-05-02,5

x

只需将时间戳列的时间偏移9小时，然后将调整后的列的日期分组即可：

from pyspark.sql.functions import expr, sum as fsum 

df
# DataFrame[id: int, dtime: timestamp, cnt: int]

df.groupby("id", expr("date(dtime - interval 9 hours) as ddate")) \
  .agg(fsum("cnt").alias("cnt")) \
  .show()
+---+----------+---+
| id|     ddate|cnt|
+---+----------+---+
|  1|2018-05-01| 12|
|  1|2018-05-02|  5|
|  1|2018-04-30|  3|
+---+----------+---+

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-04-5

0

我来说两句

0条评论

登录后参与评论

相关文章

来自分类Dev

从给定的开始结束时间计算每小时时间范围内的发生次数

来自分类Dev

计算时间范围内的小时数

来自分类Dev

颠覆日志-24小时时间范围

来自分类Dev

数据框中的每小时时间序列数据：计算每天的总数据

来自分类Dev

计算特定时间范围内数据框列中的最大出现次数

来自分类Dev

在datetime变量中获取24小时时间格式

来自分类Dev

将24小时时间格式的时间以列类型的时间存储到数据库中

来自分类Dev

计算重叠时间范围内的分钟总和

来自分类Dev

的时间计算平均（HH：MM：SS）24小时时钟的

来自分类Dev

在UTC范围内的JAVA中将12小时转换为24小时

来自分类Dev

日期条件以在24小时时间窗口中检索数据mysql

来自分类Dev

当答案大于24小时时，如何（实际上）减去Excel中的时间？

来自分类Dev

计算日期范围内的总和

来自分类Dev

如何时间戳范围之间计算（在特定范围内）的小时和分钟的总量

来自分类Dev

从SQL Server 2008中的24小时时间中删除前导零

来自分类Dev

每个时间范围内的降水总和

来自分类Dev

计算R中1年时间范围内的累计产品

来自分类Dev

计算R中1年时间范围内的累计产品

来自分类Dev

计算给定时间范围内两个日期时间之间的小时数

来自分类Dev

计算时间范围内的时间

来自分类Dev

从现在起24小时范围内检查日期

来自分类Dev

查找24小时范围内的最大值，并提取该行的所有属性

来自分类Dev

在python中将12小时时间格式转换为24小时时间格式（一天的记录）

来自分类Dev

将AM / PM的12小时时间字符串转换为24小时时间

来自分类Dev

在python中将12小时时间格式转换为24小时时间格式（一天的记录）

来自分类Dev

如何在Hive中将12小时时间戳转换为24小时时间戳？

来自分类Dev

计算时间范围内的天数？

来自分类Dev

计算时间范围内的分组行

来自分类Dev

正则表达式12小时和24小时时间格式

Related 相关文章

文章

热门标签

归档