熊猫缺少Azure Databricks Notebook中的read_parquet函数

debugcn 发表于 Dev

当我使用pandas读取databricks笔记本中的镶木地板文件时，会发生以下错误：AttributeError：模块'pandas'没有属性'read_parquet'。尝试在我的群集上安装最新版本的熊猫，但仍然没有更改。关于如何解决它的任何想法？

彼得潘

若要在Azure Databricks笔记本中读取镶木地板格式文件，应直接使用该类pyspark.sql.DataFrameReader来将数据加载为PySpark数据框，而不要使用pandas。

这是代码示例。

df = spark.read.format("parquet").load('<the path of your parquet file>')

要么

df = spark.read.parquet('<the path of your parquet file>')

如果要从PySpark数据框获取熊猫数据框，则可以使用toPandas()以下PySpark数据框的功能。

pdf = df.toPandas()

更新：我pandas通过下面的代码检查了默认Azure databricks笔记本中的版本，发现是0.19.2。

因此，您必须升级的pandas版本必须大于等于0.21.x，这是第一个支持该read_parquet功能的版本，pandas/io/parquet.py如下图所示。

要pandas在您的databricks集群中进行升级，请按照Library utilitiesdatabricks官方文档Databricks Utilities中的部分安装不同版本的pandas软件包，如下面的代码和图所示。

dbutils.library.installPyPI("pandas", version="0.24.2")
dbutils.library.restartPython()

然后，您可以read_parquet按照熊猫官方文件所说的那样使用功能。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-04-1

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

熊猫缺少Azure Databricks Notebook中的read_parquet函数

熊猫缺少Azure Databricks Notebook中的read_parquet函数

在Azure Databricks中配置GC

Azure Databricks中的Python版本

从Databricks中的Azure Datalake读取AVRO

在Azure Databricks中查询SQL Server表

在Azure Databricks中编写Spark数据框

Azure Databricks中的外部属性文件

Azure Databricks-将Parquet文件写入策划区域

将Databricks中的R Notebook中的csv文件写入Azure blob存储吗？

Azure Databricks中DBFS的数据大小限制是多少

调整类路径/在Azure Databricks中更改Spring版本

使用 Databricks 中现有群集的 Azure 数据工厂

使用Sparklyr读取Databricks中的Parquet文件

Databricks中的SAS文件

从Azure Databricks读取Excel文件

Databricks与Azure事件中心连接

Azure Databricks 移动日志分析

从Databricks Notebook运行git命令

读取 DataBricks Notebook 中的行值

Azure Databricks：如何在Databricks群集中添加Spark配置

无法通过提供的Databricks扩展程序部署Databricks Notebook

使用Azure数据工厂，单个管道，单个Databricks Notebook并行处理表？

尝试访问Azure Databricks中的Azure DBFS文件系统时出现安装错误

为什么Azure Databricks需要将数据存储在Azure的临时存储中

python / databricks中的featurestore功能

使用Databricks中的PySpark在Azure DataLake中进行分区并覆盖策略

Azure Databricks群集初始化脚本-从已装载的存储中安装转盘

如何使用Databricks将.rdata文件转换为Azure数据湖中的镶木地板？

Azure Databricks Spark SQL Query to CosmosDB 从其他文档中获取列

标记Azure Databricks的托管资源组