如何在Spark中处理执行程序内存和驱动程序内存？

wlsherica 发表于 Dev

我对在Spark中处理执行程序内存和驱动程序内存感到困惑。

我的环境设置如下：

内存128 G，16 CPU for 9 VM
Centos
Hadoop 2.5.0-cdh5.2.0
火花1.1.0

输入数据信息：

HDFS的3.5 GB数据文件

为了进行简单的开发，我使用了以独立集群模式（8个工作程序，20个内核，45.3 G内存）执行了Python代码spark-submit。现在，我想设置执行程序内存或驱动程序内存以进行性能调整。

从Spark文档中，执行程序内存的定义为

每个执行程序进程要使用的内存量，格式与JVM内存字符串相同（例如512m，2g）。

驱动程序内存如何？

马斯格

您需要分配给驱动程序的内存取决于作业。

如果作业仅基于转换，并终止于某些分布式输出操作，例如rdd.saveAsTextFile，rdd.saveToCassandra等，则驱动程序的内存需求将非常低。几乎没有100 MB的存储空间。该驱动程序还负责传递文件和收集度量标准，但不参与数据处理。

如果作业需要驱动程序参与计算，例如某些ML算法需要具体化结果并在下一次迭代中广播结果，则您的作业将取决于通过驱动程序的数据量。操作，如.collect，.take和takeSample传送数据至驱动器并因此，驾驶员需要足够的内存来分配这样的数据。

例如，如果rdd群集中有一个val myresultArray = rdd.collect3GB的内存，并调用，那么驱动程序中将需要3GB的内存来保存该数据，并为第一段中提到的功能提供一些额外的空间。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2020-11-26

我来说两句

0条评论

登录后参与评论

上一篇：使用Karma，Jasmine和ngHtml2JsPreprocessor的AngularJS测试指令：未加载模板

来自分类Dev

Related 相关文章

文章

如何在Spark中处理执行程序内存和驱动程序内存？

如何在Spark中处理执行程序内存和驱动程序内存？

如何设置Spark执行程序的内存？

Spark 驱动程序内存计算

执行程序内存和本地部署

在 Spark 流作业中，如何从执行程序到驱动程序收集错误消息并在每个流批处理结束时记录这些消息？

如何从驱动程序将不适合驱动程序内存的数据加载到Spark独立群集中？

YARN上的Spark：执行程序内存少于通过spark-submit设置的执行程序内存

Spark执行程序中的内存中数据结构的预期行为是什么？

配置执行程序内存和每个Worker节点的执行程序数

通过 Sparklyr 在本地模式下运行 Spark 时如何配置驱动程序内存？

为什么驱动程序内存不在我的Spark上下文配置中？

访问内核模式驱动程序中的用户模式内存

Apache Spark：驱动程序（而不只是执行程序）尝试连接到Cassandra

是 spark 驱动程序还是执行程序创建了数据库连接？

pci驱动程序WEC7中的I / O区域和内存区域是什么

如果在运行Spark应用程序时我的驱动程序或执行程序在Spark中丢失了，该怎么办？

如何知道哪段代码在驱动程序或执行程序上运行？

执行程序如何在我的Java程序中终止？

Cassandra如何处理Datastax Java驱动程序中的阻塞执行语句

在Mesos上具有不同内存量的Spark执行程序

Apache Spark使用本机依赖关系-独立模式下的驱动程序/执行程序代码流

Linux等操作系统如何将可执行程序加载到虚拟内存中？

Linux等操作系统如何将可执行程序加载到虚拟内存中？

PySpark：设置执行程序/内核和内存本地计算机

Azure功能：内存不足，无法继续执行程序

如何在新的mongo C＃驱动程序中执行findAll并使之同步

如何在Selenium WebDriver中设置可执行IE驱动程序的路径

如何在MongoCollection Java驱动程序3中执行MongoDB findAndModify查询？

Windows CE：在OAL和内核驱动程序之间共享内存

Windows CE：在OAL和内核驱动程序之间共享内存