我正在尝试在Amazon AWS中运行一个简单的pyspark作业,并将其配置为通过spark-default.conf文件使用Yarn。我对Yarn部署代码有些困惑。
我看到一些示例代码,如下所示:
conf = SparkConf()
conf.setMaster('yarn-client')
conf.setAppName('spark-yarn')
sc = SparkContext(conf=conf)
而且我不确定在指定'yarn-client'的情况下如何执行spark作业。我通常按如下方式进行:
$spark-submit --deploy-mode client spark-job.py
但是之间有什么区别
$spark-submit --deploy-mode client spark-job.py
和
$spark-submit spark-job.py
如何确定查看Spark日志是作业是在客户端模式下运行还是在集群或纱线客户端上运行?
默认--deploy-mode
值为客户端。因此,下面的spark-submit都将在客户端模式下运行。
$spark-submit --deploy-mode client spark-job.py
和
$spark-submit spark-job.py
如果指定--master yarn
,则它将在客户端模式下以yarn运行。
注意:--master群集的主URL(例如,用于独立群集spark://23.195.26.187:7077)模式类型*独立* YARN * Mesos * Kubernetes
--deploy-mode:将驱动程序部署在工作程序节点(群集)上还是本地部署为外部客户端(客户端)(默认值:客户端)* client * cluster
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句