GCP Dataproc集群上的工作流计划

巴拉吉·文卡特什(Balajee Venkatesh)

我有一些复杂的Oozie工作流程,可以从本地Hadoop迁移到GCP Dataproc。工作流程包括shell脚本,Python脚本,Spark-Scala作业,Sqoop作业等。

我遇到了一些潜在的解决方案,这些解决方案结合了我的工作流程计划需求:

  1. 云作曲家
  2. 具有Cloud Scheduling的Dataproc工作流程模板
  3. 在Dataproc自动扩展群集上安装Oozie

请让我知道在性能,成本和迁移复杂性方面哪种选择最有效。

特克斯

这3个都是合理的选择(尽管#2 Scheduler + Dataproc最笨拙)。需要考虑几个问题:您的工作流多久运行一次,您对未使用的VM的容忍度如何?您的Oozie工作流有多复杂?您愿意花多少时间进行迁移?

Dataproc的工作流支持分支/联接,但是缺少其他Oozie功能,例如在工作失败,决策节点等方面的操作。如果使用其中任何一个,我什至都不会考虑直接迁移到工作流模板并选择#3或下面的混合迁移。

混合迁移是一个很好的起点(假设您的群集很少使用)。保留您的Oozie工作流程,并让Composer +工作流程模板与Oozie创建集群,使用init操作来暂存Oozie XML文件+作业jar /工件,pig sh从工作流中添加单个作业,以通过CLI触发Oozie。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

GCP工作流程睡眠限制

来自分类Dev

GCP工作流程睡眠限制

来自分类Dev

在GCP Dataproc上运行Bash脚本

来自分类Dev

YARN上GCP Dataproc的自动缩放指标

来自分类Dev

GCP Dataproc并行步骤执行

来自分类Dev

向 GCP 上的数据流作业添加更多工作人员

来自分类Dev

对GCP Dataproc sofwareConfig值感到困惑

来自分类Dev

Tekton是GCP / GKE的私有Kubernetes集群

来自分类Dev

使用Terraform管理GCP Composer Kubernetes集群

来自分类Dev

GCP Dataproc:在激活堆栈驱动程序的情况下创建集群

来自分类Dev

如何在GCP中将jar依赖项添加到dataproc集群?

来自分类Dev

创建GCP Dataproc集群时出错:“ compute.projects.get”权限被拒绝

来自分类Dev

如何强制python版本在从GCP dataproc集群旋转的datalab实例中进行同步?

来自分类Dev

GCP数据流与云功能

来自分类Dev

如何安排在HDInsight集群上运行Java程序的Oozie工作流

来自分类Dev

创建集群后如何在 GCP 上运行集群初始化脚本

来自分类Dev

GCP上PySpark群集的空闲删除配置

来自分类Dev

在GCP云上长期运行的作业

来自分类Dev

在GCP上为Cassandra升级VM

来自分类Dev

GCP上的最佳Devops解决方案

来自分类Dev

GCP上的GoDaddy域不安全

来自分类Dev

保持 Jupyter Notebook 在 GCP 上运行

来自分类Dev

无法在 GCP 上创建 pytorch cpu 映像

来自分类Dev

在dataproc / gcp中顺序执行多个spark作业

来自分类Dev

GCP Dataproc 自定义图像 Python 环境

来自分类Dev

将外部节点添加到GCP Kubernetes集群

来自分类Dev

gcp kubernetes 集群的 ssl 身份验证不起作用

来自分类Dev

如何在GCP上SSH到kubernetes / GKE集群中的节点

来自分类Dev

GCP数据流-处理JSON花费的时间太长

Related 相关文章

热门标签

归档