搜索

搜索

如何在PySpark的UDF中返回“元组类型”？

kamalbanga 发表于 Dev

10

卡马尔邦加

输入的所有数据类型pyspark.sql.types是：

__all__ = [
    "DataType", "NullType", "StringType", "BinaryType", "BooleanType", "DateType",
    "TimestampType", "DecimalType", "DoubleType", "FloatType", "ByteType", "IntegerType",
    "LongType", "ShortType", "ArrayType", "MapType", "StructField", "StructType"]

我必须编写一个UDF（在pyspark中），它返回一个元组数组。我应该给它第二个参数是udf方法的返回类型吗？这将是ArrayType(TupleType())...

零323

TupleTypeSpark中没有这样的东西。产品类型structs用特定类型的字段表示。例如，如果您想返回一个成对的数组（整数，字符串），则可以使用如下模式：

from pyspark.sql.types import *

schema = ArrayType(StructType([
    StructField("char", StringType(), False),
    StructField("count", IntegerType(), False)
]))

用法示例：

from pyspark.sql.functions import udf
from collections import Counter

char_count_udf = udf(
    lambda s: Counter(s).most_common(),
    schema
)

df = sc.parallelize([(1, "foo"), (2, "bar")]).toDF(["id", "value"])

df.select("*", char_count_udf(df["value"])).show(2, False)

## +---+-----+-------------------------+
## |id |value|PythonUDF#<lambda>(value)|
## +---+-----+-------------------------+
## |1  |foo  |[[o,2], [f,1]]           |
## |2  |bar  |[[r,1], [a,1], [b,1]]    |
## +---+-----+-------------------------+

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-28

0

我来说两句

0条评论

登录后参与评论

上一篇：严格构造函数的部分应用

相关文章

来自分类Dev

pyspark中UDF的返回类型无效

来自分类Dev

如何在F＃中返回特定类型的元组？

来自分类Dev

如何在dapper中返回原始数据类型的元组

来自分类Dev

如何在列表中查找重叠的元组并返回重叠的元组

来自分类Dev

如何在Julia类型声明的中定义类型的元组

来自分类Dev

udf（用户定义函数）如何在 pyspark 中工作？

来自分类Dev

如何在pyspark的RDD上访问元组中的单个元素？

来自分类Dev

如何在python中返回元组中的对象列表？

来自分类Dev

如何在Excel UDF Function中返回值？

来自分类Dev

如何在Excel UDF Function中返回值？

来自分类Dev

如何在scala的hive udf中返回null？

来自分类Dev

如何在类型提示中定义元组或列表的大小

来自分类Dev

如何在dotty中解开元组中元素的类型？

来自分类Dev

如何在宏中迭代元组/对象的字段（名称+类型）？

来自分类Dev

如何在Haskell中递归返回元组数组

来自分类Dev

Pyspark UDF-复杂返回类型的性能下降

来自分类Dev

Presto Udf 中的返回行类型

来自分类Dev

如何在打字稿中显式定义具有不同元组类型的元组数组？

来自分类Dev

如何在pyspark中使用pandas_udf拆分数据帧中的字符串

来自分类Dev

如何在Python中获取元组中多处理返回的所有值

来自分类Dev

如何在用户定义的函数（又名 udf）中返回 Pandas.Series？

来自分类常见问题

pyspark中的熊猫UDF

来自分类Dev

pyspark中的熊猫UDF

来自分类Dev

pySpark 中的 udf for 循环

来自分类Dev

如何在打字稿中编写`Invert`类型以反转元组的顺序

来自分类Dev

如何在Coq中创建元组并将其用作新的数据类型

来自分类Dev

Python如何在迭代字典时返回键返回元组

来自分类Dev

如何在函数的返回类型中引用遵循协议的类？

来自分类Dev

如何在Java中抽象不同的返回类型？

Related 相关文章

文章

热门标签

归档