私はDatabricksでPythonをコーディングしており、spark2.4.5を使用しています。
2つのパラメーターを持つUDFが必要です。1つ目はデータフレームで2つ目はSKidです。そのデータフレームでは、そのデータフレームのすべての列をハッシュする必要があります。
以下のコードを記述しましたが、動的データフレームのすべての列を連結する方法を知る必要がありますか?
def xHashDataframe(df,skColumn):
a = df.select(
col(skColumn)
,md5(
concat(
col("column1"), lit("~"),
col("column2"), lit("~"),
...
col("columnN"), lit("~")
)).alias("RowHash")
)
return a
UDFを使用する必要はありません。concat_wsはトリックを行う必要があります:
df.withColumn("RowHash", F.md5(F.concat_ws("~", *df.columns))).show(truncate=False)
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加