我有一些复杂的Oozie工作流程,可以从本地Hadoop迁移到GCP Dataproc。工作流程包括shell脚本,Python脚本,Spark-Scala作业,Sqoop作业等。
我遇到了一些潜在的解决方案,这些解决方案结合了我的工作流程计划需求:
请让我知道在性能,成本和迁移复杂性方面哪种选择最有效。
这3个都是合理的选择(尽管#2 Scheduler + Dataproc最笨拙)。需要考虑几个问题:您的工作流多久运行一次,您对未使用的VM的容忍度如何?您的Oozie工作流有多复杂?您愿意花多少时间进行迁移?
Dataproc的工作流支持分支/联接,但是缺少其他Oozie功能,例如在工作失败,决策节点等方面的操作。如果使用其中任何一个,我什至都不会考虑直接迁移到工作流模板并选择#3或下面的混合迁移。
混合迁移是一个很好的起点(假设您的群集很少使用)。保留您的Oozie工作流程,并让Composer +工作流程模板与Oozie创建集群,使用init操作来暂存Oozie XML文件+作业jar /工件,pig sh
从工作流中添加单个作业,以通过CLI触发Oozie。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句