熊猫缺少Azure Databricks Notebook中的read_parquet函数

zz

当我使用pandas读取databricks笔记本中的镶木地板文件时,会发生以下错误:AttributeError:模块'pandas'没有属性'read_parquet'。尝试在我的群集上安装最新版本的熊猫,但仍然没有更改。关于如何解决它的任何想法?

彼得潘

若要在Azure Databricks笔记本中读取镶木地板格式文件,应直接使用该类pyspark.sql.DataFrameReader来将数据加载为PySpark数据框,而不要使用pandas

这是代码示例。

df = spark.read.format("parquet").load('<the path of your parquet file>')

要么

df = spark.read.parquet('<the path of your parquet file>')

如果要从PySpark数据框获取熊猫数据框,则可以使用toPandas()以下PySpark数据框的功能

pdf = df.toPandas()

更新:我pandas通过下面的代码检查了默认Azure databricks笔记本中版本,发现是0.19.2

在此处输入图片说明

因此,您必须升级的pandas版本必须大于等于0.21.x,这是第一个支持该read_parquet功能的版本pandas/io/parquet.py如下图所示。

在此处输入图片说明

pandas在您的databricks集群中进行升级,请按照Library utilitiesdatabricks官方文档Databricks Utilities中的部分安装不同版本的pandas软件包,如下面的代码和图所示。

dbutils.library.installPyPI("pandas", version="0.24.2")
dbutils.library.restartPython()

在此处输入图片说明

然后,您可以read_parquet按照熊猫官方文件所说的那样使用功能。

在此处输入图片说明

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

在Azure Databricks中配置GC

来自分类Dev

Azure Databricks中的Python版本

来自分类Dev

从Databricks中的Azure Datalake读取AVRO

来自分类Dev

在Azure Databricks中查询SQL Server表

来自分类Dev

在Azure Databricks中编写Spark数据框

来自分类Dev

Azure Databricks中的外部属性文件

来自分类Dev

Azure Databricks-将Parquet文件写入策划区域

来自分类Dev

将Databricks中的R Notebook中的csv文件写入Azure blob存储吗?

来自分类Dev

Azure Databricks中DBFS的数据大小限制是多少

来自分类Dev

调整类路径/在Azure Databricks中更改Spring版本

来自分类Dev

使用 Databricks 中现有群集的 Azure 数据工厂

来自分类Dev

使用Sparklyr读取Databricks中的Parquet文件

来自分类Dev

Databricks中的SAS文件

来自分类Dev

从Azure Databricks读取Excel文件

来自分类Dev

Databricks与Azure事件中心连接

来自分类Dev

Azure Databricks 移动日志分析

来自分类Dev

从Databricks Notebook运行git命令

来自分类Dev

读取 DataBricks Notebook 中的行值

来自分类Dev

Azure Databricks:如何在Databricks群集中添加Spark配置

来自分类Dev

无法通过提供的Databricks扩展程序部署Databricks Notebook

来自分类Dev

使用Azure数据工厂,单个管道,单个Databricks Notebook并行处理表?

来自分类Dev

尝试访问Azure Databricks中的Azure DBFS文件系统时出现安装错误

来自分类Dev

为什么Azure Databricks需要将数据存储在Azure的临时存储中

来自分类Dev

python / databricks中的featurestore功能

来自分类Dev

使用Databricks中的PySpark在Azure DataLake中进行分区并覆盖策略

来自分类Dev

Azure Databricks群集初始化脚本-从已装载的存储中安装转盘

来自分类Dev

如何使用Databricks将.rdata文件转换为Azure数据湖中的镶木地板?

来自分类Dev

Azure Databricks Spark SQL Query to CosmosDB 从其他文档中获取列

来自分类Dev

标记Azure Databricks的托管资源组

Related 相关文章

  1. 1

    在Azure Databricks中配置GC

  2. 2

    Azure Databricks中的Python版本

  3. 3

    从Databricks中的Azure Datalake读取AVRO

  4. 4

    在Azure Databricks中查询SQL Server表

  5. 5

    在Azure Databricks中编写Spark数据框

  6. 6

    Azure Databricks中的外部属性文件

  7. 7

    Azure Databricks-将Parquet文件写入策划区域

  8. 8

    将Databricks中的R Notebook中的csv文件写入Azure blob存储吗?

  9. 9

    Azure Databricks中DBFS的数据大小限制是多少

  10. 10

    调整类路径/在Azure Databricks中更改Spring版本

  11. 11

    使用 Databricks 中现有群集的 Azure 数据工厂

  12. 12

    使用Sparklyr读取Databricks中的Parquet文件

  13. 13

    Databricks中的SAS文件

  14. 14

    从Azure Databricks读取Excel文件

  15. 15

    Databricks与Azure事件中心连接

  16. 16

    Azure Databricks 移动日志分析

  17. 17

    从Databricks Notebook运行git命令

  18. 18

    读取 DataBricks Notebook 中的行值

  19. 19

    Azure Databricks:如何在Databricks群集中添加Spark配置

  20. 20

    无法通过提供的Databricks扩展程序部署Databricks Notebook

  21. 21

    使用Azure数据工厂,单个管道,单个Databricks Notebook并行处理表?

  22. 22

    尝试访问Azure Databricks中的Azure DBFS文件系统时出现安装错误

  23. 23

    为什么Azure Databricks需要将数据存储在Azure的临时存储中

  24. 24

    python / databricks中的featurestore功能

  25. 25

    使用Databricks中的PySpark在Azure DataLake中进行分区并覆盖策略

  26. 26

    Azure Databricks群集初始化脚本-从已装载的存储中安装转盘

  27. 27

    如何使用Databricks将.rdata文件转换为Azure数据湖中的镶木地板?

  28. 28

    Azure Databricks Spark SQL Query to CosmosDB 从其他文档中获取列

  29. 29

    标记Azure Databricks的托管资源组

热门标签

归档