我的背景:SAS 和 R 的长期用户,试图弄清楚如何使用 Python 和 Spark 在 Azure Databricks 中做一些基本的事情。抱歉,下面缺少可重现的示例;我不知道如何创建一个这样的。
我正在尝试从复杂的 XML 文件中读取数据。我已经到了这一点,在那里我有一个 pyspark.sql.dataframe(称之为 xml1),具有这种安排:
RESPONSE:array
element:array
element:struct
VALUE:string
VARNAME:string
xml1 数据框如下所示:
[Row(RESPONSE=[[Row(VALUE='No', VARNAME='PROV_U'), Row(VALUE='Included', VARNAME='ADJSAMP'), Row(VALUE='65', VARNAME='AGE'), ...
当我使用 xml2=xml1.toPandas() 时,我得到了这个:
RESPONSE
0 [[(No, PROV_U), (Included, ADJSAMP), (65, AGE)...
1 [[(Included, ADJSAMP), (71, AGE), ...
...
至少,我想将其转换为具有两列 VARNAME 和 VALUE 的 Pandas 数据框。更好的解决方案是使用以 VARNAME 值(例如 PROV_U、ADJSAMP、AGE)命名的列的数据框,每个 RESPONSE 一行。感谢在中间步骤中提供正确 Python 术语名称的有用提示!
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句