通过 pyspark.sql.dataframe 将 XML 数据转换为 Pandas 数据帧

debugcn 发表于 Dev

JMH

我的背景：SAS 和 R 的长期用户，试图弄清楚如何使用 Python 和 Spark 在 Azure Databricks 中做一些基本的事情。抱歉，下面缺少可重现的示例；我不知道如何创建一个这样的。

我正在尝试从复杂的 XML 文件中读取数据。我已经到了这一点，在那里我有一个 pyspark.sql.dataframe（称之为 xml1），具有这种安排：

RESPONSE:array
  element:array
    element:struct
      VALUE:string
      VARNAME:string

xml1 数据框如下所示：

[Row(RESPONSE=[[Row(VALUE='No', VARNAME='PROV_U'), Row(VALUE='Included', VARNAME='ADJSAMP'), Row(VALUE='65', VARNAME='AGE'), ...

当我使用 xml2=xml1.toPandas() 时，我得到了这个：

                      RESPONSE
0   [[(No, PROV_U), (Included, ADJSAMP), (65, AGE)...
1   [[(Included, ADJSAMP), (71, AGE), ...
...

至少，我想将其转换为具有两列 VARNAME 和 VALUE 的 Pandas 数据框。更好的解决方案是使用以 VARNAME 值（例如 PROV_U、ADJSAMP、AGE）命名的列的数据框，每个 RESPONSE 一行。感谢在中间步骤中提供正确 Python 术语名称的有用提示！

阿南德K。

处理结构数组爆炸是你的答案。这是有关如何使用爆炸的链接https://hadoopist.wordpress.com/2016/05/16/how-to-handle-nested-dataarray-of-structures-or-multiple-explodes-in-sparkscala-and- pyspark/

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-24

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

通过 pyspark.sql.dataframe 将 XML 数据转换为 Pandas 数据帧

通过 pyspark.sql.dataframe 将 XML 数据转换为 Pandas 数据帧

将Pandas DataFrame转换为XML并添加数据

将XML转换为pandas数据框

使用Rpy2将Pandas DataFrame转换为R数据帧

使用Rpy2将Pandas DataFrame转换为R数据帧

无法使用pyspark数据帧将utm转换为latlong

将pyspark数据帧转换为嵌套的json结构

通过泛型将数据类型转换为xml？

通过XSLT将异常XML数据转换为CSV

在python中将xml数据转换为pandas dataframe

将列的字典从不同的数据帧转换为数据帧：pyspark

将pandas DataFrame转换为任意嵌套的JSON数据

将CKAN数据API调用从字节转换为Pandas DataFrame

将JSON数据从request.get转换为pandas DataFrame

如何将XML文件转换为Pandas数据框

将网站完全以XML格式转换为pandas数据框

Pyspark：将 pyspark.sql.row 转换为 Dataframe

R将XML（复杂结构）转换为数据帧

如何通过 Pandas 数据帧中的 sort_values 函数将 pd.to_datetime 转换为 JSON？

如何将for循环的结果转换为pandas数据帧？

将 Pandas 数据帧转换为字典并添加公共键值对

如何将XML数据转换为SQL Server表

将单列单行XML数据转换为SQL表

将 XML 转换为 SQL Server 数据库

Pyspark：将PythonRDD转换为数据框

Pyspark 将行数据转换为键值对

将列表转换为 pyspark 数据框

将 Pandas 数据帧中的数据转换为 keras LSTM 的时间序列训练数据

将xml数据转换为数据框

如何通过对列进行分组将Pandas数据框转换为数据框字典