如何将正在运行的ID新列添加到Spark数据框架（pyspark）

debugcn 发表于 Dev

鲍里斯

我有以下数据框：

timestamp	      sum
31/01/2017 09:00	0
31/01/2017 10:00	0
31/01/2017 11:00	0
31/01/2017 12:00	2
31/01/2017 13:00	2
31/01/2017 14:00	2
31/01/2017 15:00	11

并想添加一个新的Id列-只是一个像这样的运行编号：

+----------------+---+---------+
|       timestamp|sum|running_id|
+----------------+---+---------+
|2017-01-31 09:00|  0|        0|
|2017-01-31 10:00|  0|        1|
|2017-01-31 11:00|  0|        2|
|2017-01-31 12:00|  2|        3|
|2017-01-31 13:00|  2|        4|
|2017-01-31 14:00|  2|        5|
|2017-01-31 15:00| 11|        6|

我这样做是这样的：

sub_data_spark =  sub_data_spark.rdd.zipWithIndex().map(lambda x: (x[0][0],x[0][1],x[1])).toDF(sub_data_spark.columns+["running_id"])

有人可以建议一种“更清洁”的方式吗？

谢谢鲍里斯

艾希什·辛格（Ashish Singh）

尝试使用 select *, row_Number() over ( order by sum) from table

或基于逻辑的任何列。也可以使用PARTITION BY子句。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-7

我来说两句

0条评论

登录后参与评论

来自分类Dev

如何将种子节点添加到正在运行的Akka群集

来自分类Dev

如何将文件添加到正在运行的jar

来自分类Dev

Beam / Cloud Dataflow：如何将 Kafka（或 PubSub）主题添加到正在运行的流

来自分类Dev

如何将新列和对应的行特定值添加到spark数据框？

来自分类Dev

在Pyspark中，如何将值列表作为新列添加到现有数据框？

来自分类Dev

如何将新数据添加到geoJson文件？

来自分类Dev

如何将行ID的持久列添加到Spark DataFrame？

来自分类Dev

如何将新列添加到Bootstrap网格？

来自分类Dev

如何将数据行添加到特定列？

来自分类Dev

如何将列添加到数据框中？

来自分类Dev

如何将事件添加到在运行时创建的元素？

来自分类Dev

如何在不重新启动服务的情况下将新节点副本添加到正在运行的Elasticsearch？

来自分类Dev

在实体框架中在运行时将新模型添加到现有上下文中

来自分类Dev

如何在运行时将数据源添加到Lookup Edit？

来自分类Dev

如何将具有特定数据的新列添加到 R 数据框中

来自分类Dev

根据现有列与pyspark的交互将新列添加到数据框

来自分类Dev

如何将YouTube框架添加到ERB文件

来自分类Dev

如何将Jpanel添加到创建的框架中

来自分类Dev

如何将Qwt图添加到框架

来自分类Dev

熊猫数据框：如何将describe（）应用于每个组并添加到新列？

来自分类Dev

在运行时使用jQuery将新行添加到HTML表中时，如何避免生成重复的标签（id）

来自分类Dev

如何将 JSON 对象添加到 apache spark 中的数据集/数据帧

来自分类Dev

如何将新数据从ebay添加到Django中的数据库？

来自分类Dev

如何将新数据从ebay添加到Django中的数据库？

来自分类Dev

如何将新的数据行添加到我的 Derby 数据库中？

来自分类Dev

如何将新数据添加到 android 中的 Firebase 数据库？

来自分类Dev

将Docker容器添加到正在运行的OpenShift Pod

来自分类Dev

Spark使用上一行的值将新列添加到数据框

来自分类Dev

将面板添加到框架，但在运行应用程序时不显示

Related 相关文章

文章