如何将正在运行的ID新列添加到Spark数据框架(pyspark)

鲍里斯

我有以下数据框:

timestamp	      sum
31/01/2017 09:00	0
31/01/2017 10:00	0
31/01/2017 11:00	0
31/01/2017 12:00	2
31/01/2017 13:00	2
31/01/2017 14:00	2
31/01/2017 15:00	11

并想添加一个新的Id列-只是一个像这样的运行编号:

+----------------+---+---------+
|       timestamp|sum|running_id|
+----------------+---+---------+
|2017-01-31 09:00|  0|        0|
|2017-01-31 10:00|  0|        1|
|2017-01-31 11:00|  0|        2|
|2017-01-31 12:00|  2|        3|
|2017-01-31 13:00|  2|        4|
|2017-01-31 14:00|  2|        5|
|2017-01-31 15:00| 11|        6|

我这样做是这样的:

sub_data_spark =  sub_data_spark.rdd.zipWithIndex().map(lambda x: (x[0][0],x[0][1],x[1])).toDF(sub_data_spark.columns+["running_id"])

有人可以建议一种“更清洁”的方式吗?

谢谢鲍里斯

艾希什·辛格(Ashish Singh)

尝试使用 select *, row_Number() over ( order by sum) from table

或基于逻辑的任何列。也可以使用PARTITION BY子句。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何将种子节点添加到正在运行的Akka群集

来自分类Dev

如何将文件添加到正在运行的jar

来自分类Dev

Beam / Cloud Dataflow:如何将 Kafka(或 PubSub)主题添加到正在运行的流

来自分类Dev

如何将新列和对应的行特定值添加到spark数据框?

来自分类Dev

在Pyspark中,如何将值列表作为新列添加到现有数据框?

来自分类Dev

如何将新数据添加到geoJson文件?

来自分类Dev

如何将行ID的持久列添加到Spark DataFrame?

来自分类Dev

如何将新列添加到Bootstrap网格?

来自分类Dev

如何将数据行添加到特定列?

来自分类Dev

如何将列添加到数据框中?

来自分类Dev

如何将事件添加到在运行时创建的元素?

来自分类Dev

如何在不重新启动服务的情况下将新节点副本添加到正在运行的Elasticsearch?

来自分类Dev

在实体框架中在运行时将新模型添加到现有上下文中

来自分类Dev

如何在运行时将数据源添加到Lookup Edit?

来自分类Dev

如何将具有特定数据的新列添加到 R 数据框中

来自分类Dev

根据现有列与pyspark的交互将新列添加到数据框

来自分类Dev

如何将YouTube框架添加到ERB文件

来自分类Dev

如何将Jpanel添加到创建的框架中

来自分类Dev

如何将Qwt图添加到框架

来自分类Dev

熊猫数据框:如何将describe()应用于每个组并添加到新列?

来自分类Dev

在运行时使用jQuery将新行添加到HTML表中时,如何避免生成重复的标签(id)

来自分类Dev

如何将 JSON 对象添加到 apache spark 中的数据集/数据帧

来自分类Dev

如何将新数据从ebay添加到Django中的数据库?

来自分类Dev

如何将新数据从ebay添加到Django中的数据库?

来自分类Dev

如何将新的数据行添加到我的 Derby 数据库中?

来自分类Dev

如何将新数据添加到 android 中的 Firebase 数据库?

来自分类Dev

将Docker容器添加到正在运行的OpenShift Pod

来自分类Dev

Spark使用上一行的值将新列添加到数据框

来自分类Dev

将面板添加到框架,但在运行应用程序时不显示

Related 相关文章

  1. 1

    如何将种子节点添加到正在运行的Akka群集

  2. 2

    如何将文件添加到正在运行的jar

  3. 3

    Beam / Cloud Dataflow:如何将 Kafka(或 PubSub)主题添加到正在运行的流

  4. 4

    如何将新列和对应的行特定值添加到spark数据框?

  5. 5

    在Pyspark中,如何将值列表作为新列添加到现有数据框?

  6. 6

    如何将新数据添加到geoJson文件?

  7. 7

    如何将行ID的持久列添加到Spark DataFrame?

  8. 8

    如何将新列添加到Bootstrap网格?

  9. 9

    如何将数据行添加到特定列?

  10. 10

    如何将列添加到数据框中?

  11. 11

    如何将事件添加到在运行时创建的元素?

  12. 12

    如何在不重新启动服务的情况下将新节点副本添加到正在运行的Elasticsearch?

  13. 13

    在实体框架中在运行时将新模型添加到现有上下文中

  14. 14

    如何在运行时将数据源添加到Lookup Edit?

  15. 15

    如何将具有特定数据的新列添加到 R 数据框中

  16. 16

    根据现有列与pyspark的交互将新列添加到数据框

  17. 17

    如何将YouTube框架添加到ERB文件

  18. 18

    如何将Jpanel添加到创建的框架中

  19. 19

    如何将Qwt图添加到框架

  20. 20

    熊猫数据框:如何将describe()应用于每个组并添加到新列?

  21. 21

    在运行时使用jQuery将新行添加到HTML表中时,如何避免生成重复的标签(id)

  22. 22

    如何将 JSON 对象添加到 apache spark 中的数据集/数据帧

  23. 23

    如何将新数据从ebay添加到Django中的数据库?

  24. 24

    如何将新数据从ebay添加到Django中的数据库?

  25. 25

    如何将新的数据行添加到我的 Derby 数据库中?

  26. 26

    如何将新数据添加到 android 中的 Firebase 数据库?

  27. 27

    将Docker容器添加到正在运行的OpenShift Pod

  28. 28

    Spark使用上一行的值将新列添加到数据框

  29. 29

    将面板添加到框架,但在运行应用程序时不显示

热门标签

归档