我有两个关于Apache Spark的问题。
我建立了一个独立的Spark集群,每个工作人员都有4个核心,这是否意味着我最多只能在一个工作人员上同时运行4个应用程序?
我有一个我希望它能够定期运行的过程,那么最佳实践是什么?调用spark-submit
cron作业还是在驱动程序中循环我的代码?
“在多个应用程序之间共享Spark集群时,您需要决定如何在执行程序之间分配资源。独立集群管理器具有基本的调度策略,该策略允许限制每个应用程序的使用率,以便多个应用程序可以同时运行。Apache Mesos支持在应用程序运行时进行更多的动态共享,而YARN具有队列的概念,可让您限制各种应用程序的使用量。”
因此,这应该对您有帮助。2。作者还提供了许多要点,以帮助您决定在第138-139页上使用哪个集群管理器。总的来说,本书的第7章非常宝贵,我强烈建议您购买(Databricks带有促销代码)。
关于问题1,您可以通过设置以下各项来配置资源分配:(1)执行程序内存和(2)最大核心总数。听起来您已经设置了最大内核数,所以请考虑执行程序内存。每个应用程序都有一个执行程序(并且只有您允许的最大内存)。每个内核可以有多个执行程序。
您可以通过访问http:// masternode:8080来验证这些设置是否适用于独立模式。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句