使用toPandas()和databricks连接时遇到“ java.lang.OutOfMemoryError:Java堆空间”

佩茨霍尔特

我正在尝试将大小为[2734984行x 11列]的pyspark数据框转换为调用的pandas数据框toPandas()使用Azure Databricks Notebook时,它完全可以正常工作(11秒),但是java.lang.OutOfMemoryError: Java heap space当我使用databricks-connect(db-connect版本和Databricks Runtime Version都为7.1)运行完全相同的代码时,我遇到了异常。

我已经增加了火花驱动程序的内存(100g)和maxResultSize(15g)。我认为该错误位于databricks-connect中,因为我无法使用笔记本电脑复制它。

有什么提示吗?

错误是以下之一:

Exception in thread "serve-Arrow" java.lang.OutOfMemoryError: Java heap space
    at com.ning.compress.lzf.ChunkDecoder.decode(ChunkDecoder.java:51)
    at com.ning.compress.lzf.LZFDecoder.decode(LZFDecoder.java:102)
    at com.databricks.service.SparkServiceRPCClient.executeRPC0(SparkServiceRPCClient.scala:84)
    at com.databricks.service.SparkServiceRemoteFuncRunner.withRpcRetries(SparkServiceRemoteFuncRunner.scala:234)
    at com.databricks.service.SparkServiceRemoteFuncRunner.executeRPC(SparkServiceRemoteFuncRunner.scala:156)
    at com.databricks.service.SparkServiceRemoteFuncRunner.executeRPCHandleCancels(SparkServiceRemoteFuncRunner.scala:287)
    at com.databricks.service.SparkServiceRemoteFuncRunner.$anonfun$execute0$1(SparkServiceRemoteFuncRunner.scala:118)
    at com.databricks.service.SparkServiceRemoteFuncRunner$$Lambda$934/2145652039.apply(Unknown Source)
    at scala.util.DynamicVariable.withValue(DynamicVariable.scala:62)
    at com.databricks.service.SparkServiceRemoteFuncRunner.withRetry(SparkServiceRemoteFuncRunner.scala:135)
    at com.databricks.service.SparkServiceRemoteFuncRunner.execute0(SparkServiceRemoteFuncRunner.scala:113)
    at com.databricks.service.SparkServiceRemoteFuncRunner.$anonfun$execute$1(SparkServiceRemoteFuncRunner.scala:86)
    at com.databricks.service.SparkServiceRemoteFuncRunner$$Lambda$1031/465320026.apply(Unknown Source)
    at com.databricks.spark.util.Log4jUsageLogger.recordOperation(UsageLogger.scala:210)
    at com.databricks.spark.util.UsageLogging.recordOperation(UsageLogger.scala:346)
    at com.databricks.spark.util.UsageLogging.recordOperation$(UsageLogger.scala:325)
    at com.databricks.service.SparkServiceRPCClientStub.recordOperation(SparkServiceRPCClientStub.scala:61)
    at com.databricks.service.SparkServiceRemoteFuncRunner.execute(SparkServiceRemoteFuncRunner.scala:78)
    at com.databricks.service.SparkServiceRemoteFuncRunner.execute$(SparkServiceRemoteFuncRunner.scala:67)
    at com.databricks.service.SparkServiceRPCClientStub.execute(SparkServiceRPCClientStub.scala:61)
    at com.databricks.service.SparkServiceRPCClientStub.executeRDD(SparkServiceRPCClientStub.scala:225)
    at com.databricks.service.SparkClient$.executeRDD(SparkClient.scala:279)
    at com.databricks.spark.util.SparkClientContext$.executeRDD(SparkClientContext.scala:161)
    at org.apache.spark.scheduler.DAGScheduler.submitJob(DAGScheduler.scala:864)
    at org.apache.spark.scheduler.DAGScheduler.runJob(DAGScheduler.scala:928)
    at org.apache.spark.SparkContext.runJob(SparkContext.scala:2331)
    at org.apache.spark.SparkContext.runJob(SparkContext.scala:2426)
    at org.apache.spark.sql.Dataset.$anonfun$collectAsArrowToPython$6(Dataset.scala:3638)
    at org.apache.spark.sql.Dataset$$Lambda$3567/1086808304.apply$mcV$sp(Unknown Source)
    at scala.runtime.java8.JFunction0$mcV$sp.apply(JFunction0$mcV$sp.java:23)
    at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1581)
    at org.apache.spark.sql.Dataset.$anonfun$collectAsArrowToPython$3(Dataset.scala:3642)```
桑德数据库

这很可能是因为Databricks-connect正在客户端计算机上执行toPandas,然后这可能会耗尽内存。您可以通过spark.driver.memory在(本地)配置文件${spark_home}/conf/spark-defaults.conf进行设置来增加本地驱动程序的内存${spark_home}可以使用来获得databricks-connect get-spark-home

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用opencsv-java.lang.OutOfMemoryError:Java堆空间

来自分类Dev

java.lang.OutOfMemoryError:Java堆空间

来自分类Dev

java.lang.OutOfMemoryError:Java堆空间?

来自分类Dev

java.lang.OutOfMemoryError:初始化数组时的Java堆空间

来自分类Dev

java.lang.OutOfMemoryError:我尝试创建BufferedImage时的Java堆空间

来自分类Dev

Pyspark-java.lang.OutOfMemoryError:写入csv文件时的Java堆空间

来自分类Dev

java.lang.OutOfMemoryError:重复调用函数时发生Java堆空间错误

来自分类Dev

java.lang.OutOfMemoryError:从URL下载大文件时的Java堆空间

来自分类Dev

java.lang.OutOfMemoryError:Payara和Eclipse上的Java堆空间

来自分类Dev

java.lang.OutOfMemoryError Java堆空间解决方案(Netbeans和Tomcat-Spring-Hibernate)

来自分类Dev

java.lang.OutOfMemoryError:Java 8的Java堆空间

来自分类Dev

KAFKA 和 SSL:java.lang.OutOfMemoryError:在 KAFKA SSL 集群上使用 kafka-topics 命令时的 Java 堆空间

来自分类Dev

常量dspace错误java.lang.OutOfMemoryError:Java堆空间

来自分类Dev

java.lang.OutOfMemoryError:100000条记录的Java堆空间

来自分类Dev

Eclipse:java.lang.OutOfMemoryError:Java堆空间

来自分类Dev

java.lang.OutOfMemoryError:Grails中的Java堆空间

来自分类Dev

java.lang.OutOfMemoryError:带有蜂巢的Java堆空间

来自分类Dev

NETBEANS:“ java.lang.OutOfMemoryError:Java堆空间”

来自分类Dev

SonarQube分析失败java.lang.OutOfMemoryError:Java堆空间

来自分类Dev

异常java.lang.OutOfMemoryError:Java堆空间

来自分类Dev

获取“ java.lang.OutOfMemoryError:Java堆空间”

来自分类Dev

java.lang.OutOfMemoryError:Java堆空间Hadoop Ubuntu

来自分类Dev

MetaMap java.lang.OutOfMemoryError: Java 堆空间

来自分类Dev

OutOfMemoryError:使用 XSLT 转换的 Java 堆空间

来自分类Dev

java.lang.OutOfMemoryError:尝试将Java对象转换为Json字符串时的Java堆空间

来自分类Dev

严重:Java堆空间java.lang.OutOfMemoryError:Java堆空间

来自分类Dev

我在Netbean6.9.1上构建ejb模块时,Java堆空间(java.lang.OutOfMemoryError)异常

来自分类Dev

OutOfMemoryError Java堆空间

来自分类Dev

OutOfMemoryError Java堆空间

Related 相关文章

  1. 1

    使用opencsv-java.lang.OutOfMemoryError:Java堆空间

  2. 2

    java.lang.OutOfMemoryError:Java堆空间

  3. 3

    java.lang.OutOfMemoryError:Java堆空间?

  4. 4

    java.lang.OutOfMemoryError:初始化数组时的Java堆空间

  5. 5

    java.lang.OutOfMemoryError:我尝试创建BufferedImage时的Java堆空间

  6. 6

    Pyspark-java.lang.OutOfMemoryError:写入csv文件时的Java堆空间

  7. 7

    java.lang.OutOfMemoryError:重复调用函数时发生Java堆空间错误

  8. 8

    java.lang.OutOfMemoryError:从URL下载大文件时的Java堆空间

  9. 9

    java.lang.OutOfMemoryError:Payara和Eclipse上的Java堆空间

  10. 10

    java.lang.OutOfMemoryError Java堆空间解决方案(Netbeans和Tomcat-Spring-Hibernate)

  11. 11

    java.lang.OutOfMemoryError:Java 8的Java堆空间

  12. 12

    KAFKA 和 SSL:java.lang.OutOfMemoryError:在 KAFKA SSL 集群上使用 kafka-topics 命令时的 Java 堆空间

  13. 13

    常量dspace错误java.lang.OutOfMemoryError:Java堆空间

  14. 14

    java.lang.OutOfMemoryError:100000条记录的Java堆空间

  15. 15

    Eclipse:java.lang.OutOfMemoryError:Java堆空间

  16. 16

    java.lang.OutOfMemoryError:Grails中的Java堆空间

  17. 17

    java.lang.OutOfMemoryError:带有蜂巢的Java堆空间

  18. 18

    NETBEANS:“ java.lang.OutOfMemoryError:Java堆空间”

  19. 19

    SonarQube分析失败java.lang.OutOfMemoryError:Java堆空间

  20. 20

    异常java.lang.OutOfMemoryError:Java堆空间

  21. 21

    获取“ java.lang.OutOfMemoryError:Java堆空间”

  22. 22

    java.lang.OutOfMemoryError:Java堆空间Hadoop Ubuntu

  23. 23

    MetaMap java.lang.OutOfMemoryError: Java 堆空间

  24. 24

    OutOfMemoryError:使用 XSLT 转换的 Java 堆空间

  25. 25

    java.lang.OutOfMemoryError:尝试将Java对象转换为Json字符串时的Java堆空间

  26. 26

    严重:Java堆空间java.lang.OutOfMemoryError:Java堆空间

  27. 27

    我在Netbean6.9.1上构建ejb模块时,Java堆空间(java.lang.OutOfMemoryError)异常

  28. 28

    OutOfMemoryError Java堆空间

  29. 29

    OutOfMemoryError Java堆空间

热门标签

归档