搜索

搜索

如何使用来自另一个数据框的随机值更新Pyspark中的数据框？

debugcn 发表于 Dev

35

鲁德拉

我在pyspark中有两个数据框，如下所示：

数据框A：总计1000条记录

+-----+
|Name |
+-----+
|    a|
|    b|
|    c|
+-----+

数据框B：总共3条记录

+-----+
|Zip  |
+-----+
|06905|
|06901|
|06902|
+-----+

我需要在数据框A中添加一个名为Zip的新列，并使用数据框B中随机选择的值填充值。因此，数据框A的外观如下所示：

+-----+-----+
|Name |Zip  |
+-----+-----+
|    a|06901|
|    b|06905|
|    c|06902|
|    d|06902|
+-----+-----+

请帮我写这段代码。非常感谢您的帮助。

我在Azure Databricks上运行此程序，显然，quinn不在其中。因此，不能不幸使用奎因。

麦克

如果b很小（3行），则可以将其收集到Python列表中并将其作为数组列添加到中a。然后，您可以使用获取随机元素shuffle。

import pyspark.sql.functions as F

df = a.withColumn(
    'Zip',
    F.shuffle(
        F.array(*[F.lit(r[0]) for r in b.collect()])
    )[0]
)

df.show()
+----+-----+
|Name|  Zip|
+----+-----+
|   a|06901|
|   b|06905|
|   c|06902|
|   d|06901|
+----+-----+

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-04-8

0

我来说两句

0条评论

登录后参与评论

相关文章

来自分类Dev

使用来自另一个数据框的值更新数据框标头

来自分类Dev

使用来自另一个数据框的值修改数据框

来自分类Dev

使用来自另一个数据框的索引替换数据框中的行

来自分类Dev

R：使用来自另一个数据框的映射在一个数据框中创建一个新列

来自分类Dev

如何用另一个数据框（熊猫）中的值更新空数据框值？

来自分类Dev

使用来自另一个数据框的数据按组替换数据框值

来自分类Dev

使用来自另一个数据框的名称重命名列

来自分类Dev

使用来自另一个数据框的名称重命名列

来自分类Dev

大熊猫：使用来自另一个数据框的重复行更新多个数据框列

来自分类Dev

根据匹配的值，使用另一个数据框中的值更新一个数据框中的列

来自分类Dev

perl使用来自另一个数据库的值更新oracle数据库

来自分类Dev

用另一个数据框中的相应值更新pandas数据框的值

来自分类Dev

使用来自另一个数据框的值作为R中的变量名称来对数据框进行变异

来自分类Dev

如何使用 Javascript 中的 Key of Id 用来自另一个数组的数据更新一个数组？

来自分类Dev

如何查找数据框中某行的匹配，条件是来自另一个数据框中的许多行

来自分类Dev

使用来自另一个文件的随机数据更新源文件中的数据

来自分类Dev

如何使用来自另一个数组的值更新一个NumPy数组？

来自分类Dev

如何使用另一个数据库表中的值更新表

来自分类Dev

从另一个数据框中更新熊猫数据框中的特定值

来自分类Dev

使用来自另一个数据框的值创建新的dask数据框列会导致“块大小未知”错误

来自分类Dev

使用条件从另一个数据框中更新值来更新pandas数据框列

来自分类常见问题

如何从另一个数据框更新带有集合的熊猫数据框

来自分类Dev

如何从另一个数据框更新多索引数据框？

来自分类Dev

如何从另一个数据框更新带有集合的熊猫数据框

来自分类Dev

根据Python中的另一个数据框更新数据框

来自分类Dev

使用pd.merge映射一个数据框中来自另一个数据框的多个列的值

来自分类Dev

如何访问另一个数据框中的列表/数据框值

来自分类Dev

如何删除不在另一个数据框中的数据框行？

来自分类Dev

使用另一个数据框缩放数据框中的变量

Related 相关文章

文章

热门标签

归档