当我使用pandas读取databricks笔记本中的镶木地板文件时,会发生以下错误:AttributeError:模块'pandas'没有属性'read_parquet'。尝试在我的群集上安装最新版本的熊猫,但仍然没有更改。关于如何解决它的任何想法?
若要在Azure Databricks笔记本中读取镶木地板格式文件,应直接使用该类pyspark.sql.DataFrameReader
来将数据加载为PySpark数据框,而不要使用pandas
。
这是代码示例。
df = spark.read.format("parquet").load('<the path of your parquet file>')
要么
df = spark.read.parquet('<the path of your parquet file>')
如果要从PySpark数据框获取熊猫数据框,则可以使用toPandas()
以下PySpark数据框的功能。
pdf = df.toPandas()
更新:我pandas
通过下面的代码检查了默认Azure databricks笔记本中的版本,发现是0.19.2
。
因此,您必须升级的pandas
版本必须大于等于0.21.x
,这是第一个支持该read_parquet
功能的版本,pandas/io/parquet.py
如下图所示。
要pandas
在您的databricks集群中进行升级,请按照Library utilities
databricks官方文档Databricks Utilities
中的部分安装不同版本的pandas
软件包,如下面的代码和图所示。
dbutils.library.installPyPI("pandas", version="0.24.2")
dbutils.library.restartPython()
然后,您可以read_parquet
按照熊猫官方文件所说的那样使用功能。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句