使用Sparklyr读取Databricks中的Parquet文件

等等

尝试使用以下代码将R中的Parquet文件读取到Apache Spark 2.4.3中。它可以在使用Windows 10的本地计算机上运行,​​但不能在Databricks 5.5 LTS上运行。

library(sparklyr)
library(arrow)

# Set up Spark connection
sc <- sparklyr::spark_connect(method = "databricks")

# Convert iris R data frame to Parquet and save to disk
arrow::write_parquet(iris, "/dbfs/user/iris.parquet")

# Read Parquet file into a Spark DataFrame: throws the error below
iris_sdf <- sparklyr::spark_read_parquet(sc, "iris_sdf", "user/iris.parquet")

record_batch_stream_reader(stream)中的错误:record_batch_stream_reader(stream)中的错误:找不到函数“ record_batch_stream_reader”

这里可能出什么问题了?

SessionInfo() 在我的本地计算机上:

R version 3.6.3 (2020-02-29)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 10 x64 (build 18362)

Matrix products: default

locale:
[1] LC_COLLATE=English_United States.1252  LC_CTYPE=English_United States.1252    LC_MONETARY=English_United States.1252 LC_NUMERIC=C                           LC_TIME=English_United States.1252    

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
[1] arrow_0.16.0.2 sparklyr_1.1.0

loaded via a namespace (and not attached):
 [1] Rcpp_1.0.3        rstudioapi_0.11   magrittr_1.5      bit_1.1-15.2      tidyselect_1.0.0  R6_2.4.1          rlang_0.4.5       httr_1.4.1        dplyr_0.8.5       tools_3.6.3       DBI_1.1.0         dbplyr_1.4.2      ellipsis_0.3.0    htmltools_0.4.0  
[15] bit64_0.9-7       assertthat_0.2.1  rprojroot_1.3-2   digest_0.6.25     tibble_2.1.3      forge_0.2.0       crayon_1.3.4      purrr_0.3.3       vctrs_0.2.4       base64enc_0.1-3   htmlwidgets_1.5.1 glue_1.3.1        compiler_3.6.3    pillar_1.4.3     
[29] generics_0.0.2    r2d3_0.2.3        backports_1.1.5   jsonlite_1.6.1    pkgconfig_2.0.3  
等等

问题是Databricks Runtime 5.5 LTS带有sparklyr 1.0.0(于2019-02-25发行),但是需要版本1.1.0或更高版本。通过CRAN或GitHub安装较新的版本,spark_read_parquet()应该可以使用。

# CRAN
install.packages("sparklyr")

# GitHub
devtools::install_github("rstudio/sparklyr")

# You also need to install Apache Arrow
install.packages("arrow")
arrow_install()

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

在Spark 2.0中读取本地Parquet文件

来自分类Dev

在Spark 2.0中读取本地Parquet文件

来自分类Dev

从Scala读取Parquet文件而不使用Spark

来自分类Dev

从Python Pandas / Dask中的Parquet文件中读取行组?

来自分类Dev

如何从Java中的Avro-Parquet文件读取特定字段?

来自分类Dev

您如何从Parquet文件中读取ARRAY列?

来自分类Dev

可以使用相同的代码读取csv或parquet文件

来自分类Dev

如何使用PySpark读取目录下的Parquet文件?

来自分类Dev

使用 Apache Beam 和 ParquetIO 读取多个 parquet 文件

来自分类Dev

使用 Impala 查询 HDFS 中的 Parquet 文件

来自分类Dev

从Azure Databricks读取Excel文件

来自分类Dev

Databricks中的SAS文件

来自分类Dev

Azure Databricks-将Parquet文件写入策划区域

来自分类Dev

创建Hive表以从Parquet / Avro模式读取Parquet文件

来自分类Dev

DataFrame.write.parquet-HIVE或Impala无法读取Parquet文件

来自分类Dev

有没有办法从Mobius中将hdfs中的Parquet文件读取到SqlContext中?

来自分类Dev

如何将多个目录中的多个.parquet文件读取到单个pandas数据框中?

来自分类Dev

sparklyr spark_read_parquet 将字符串字段读取为列表

来自分类Dev

无法读取 Azure Databricks 上的 .xlsx 文件

来自分类Dev

如何使Spark使用Parquet文件中的分区信息?

来自分类Dev

如何使用Java在HDFS中创建和填充Parquet文件?

来自分类Dev

使用 Sqoop 导入时 Parquet 文件中的脏值

来自分类Dev

Spark无法读取由AvroParquetWriter编写的Parquet文件中的DECIMAL列

来自分类Dev

spark 是否只能从 parquet 文件中读取满足某些条件的列值?

来自分类Dev

如何使用fsspec + adlfs加快从adl://读取CSV / Parquet文件的速度?

来自分类Dev

熊猫缺少Azure Databricks Notebook中的read_parquet函数

来自分类Dev

使用RegEx并读取.EGG文件中的文件?

来自分类Dev

Spark SQL中的Parquet文件

来自分类Dev

使用Struct列类型读取/写入Parquet

Related 相关文章

  1. 1

    在Spark 2.0中读取本地Parquet文件

  2. 2

    在Spark 2.0中读取本地Parquet文件

  3. 3

    从Scala读取Parquet文件而不使用Spark

  4. 4

    从Python Pandas / Dask中的Parquet文件中读取行组?

  5. 5

    如何从Java中的Avro-Parquet文件读取特定字段?

  6. 6

    您如何从Parquet文件中读取ARRAY列?

  7. 7

    可以使用相同的代码读取csv或parquet文件

  8. 8

    如何使用PySpark读取目录下的Parquet文件?

  9. 9

    使用 Apache Beam 和 ParquetIO 读取多个 parquet 文件

  10. 10

    使用 Impala 查询 HDFS 中的 Parquet 文件

  11. 11

    从Azure Databricks读取Excel文件

  12. 12

    Databricks中的SAS文件

  13. 13

    Azure Databricks-将Parquet文件写入策划区域

  14. 14

    创建Hive表以从Parquet / Avro模式读取Parquet文件

  15. 15

    DataFrame.write.parquet-HIVE或Impala无法读取Parquet文件

  16. 16

    有没有办法从Mobius中将hdfs中的Parquet文件读取到SqlContext中?

  17. 17

    如何将多个目录中的多个.parquet文件读取到单个pandas数据框中?

  18. 18

    sparklyr spark_read_parquet 将字符串字段读取为列表

  19. 19

    无法读取 Azure Databricks 上的 .xlsx 文件

  20. 20

    如何使Spark使用Parquet文件中的分区信息?

  21. 21

    如何使用Java在HDFS中创建和填充Parquet文件?

  22. 22

    使用 Sqoop 导入时 Parquet 文件中的脏值

  23. 23

    Spark无法读取由AvroParquetWriter编写的Parquet文件中的DECIMAL列

  24. 24

    spark 是否只能从 parquet 文件中读取满足某些条件的列值?

  25. 25

    如何使用fsspec + adlfs加快从adl://读取CSV / Parquet文件的速度?

  26. 26

    熊猫缺少Azure Databricks Notebook中的read_parquet函数

  27. 27

    使用RegEx并读取.EGG文件中的文件?

  28. 28

    Spark SQL中的Parquet文件

  29. 29

    使用Struct列类型读取/写入Parquet

热门标签

归档