如何为数据框中的复杂列创建包含数组（案例类）的 udf

debugcn 发表于 Dev

德桑光伏

我有一个数据框，它有一个复杂的列数据类型 Arraytype>。为了转换这个数据框，我创建了 udf，它可以使用 Array [case class] 作为参数来使用这个列。这里的主要瓶颈是当我根据 stucttype 创建 case 类时，structfield 名称包含特殊字符，例如“##field”。因此，我以这种方式为 case class ( ##field)提供相同的名称，并将其附加到 udf 参数。在 spark udf 定义中解释后，将案例类字段的名称更改为此“$hash$hashfield”。使用此数据帧执行转换时，由于此未命中匹配而失败。请帮忙 ...

阿图尔·拉希托夫

由于 JVM 限制，Scala 以编码形式存储标识符，目前 Spark 无法映射##field到$hash$hashfield.

一种可能的解决方案是从原始行中手动提取字段（但您需要知道中字段的顺序df，您可以使用df.schema它）：

val myUdf = udf { (struct: Row) =>
  // Pattern match struct:
  struct match {
    case Row(a: String) => Foo(a)
  }

  // .. or extract values from Row
  val `##a` = struct.getAs[String](0)
}

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-9

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

如何为数据框中的复杂列创建包含数组（案例类）的 udf

如何为数据框中的复杂列创建包含数组（案例类）的 udf

HiveQL中的“ UDF”语句中的UDF

UDF中的Excel UDF产生#VALUE错误

创建纯 UDF iso

对UDF使用数组求和

如何优化此UDF

如何打开UDF卷

如何打开UDF卷

pyspark中的熊猫UDF

pyspark中的熊猫UDF

UDF 中的返回位

pySpark 中的 udf for 循环

在Linux中创建UDF映像

如何使用udf更新包含数组的spark dataframe列

如何在AS400中创建UDF

mysql UDF上列的数据被截断

如何使用Scala调用UDF

PIG脚本中的Ruby UDF

在Scala Spark中并置UDF

Spark：访问UDF中的行

PIG脚本中的Ruby UDF

在SQL UDF中传递格式

在PySpark中重新加载UDF

在Spark Scala中定义UDF

使用 udf 和递归在数据框中创建新列

检索spark数据框数组列值，并将其作为UDF中的列名重用

UDF在redshift中：可以在另一个UDF中引用UDF

使用UDF进行Pyspark数据框联接

带有数据框的火花udf

包含未知列数的Spark UDF