是否可以使用Google的Dataflow运行Hadoop MR作业?

杰里米

是否可以使用Google的Dataflow服务运行Hadoop MR作业?

我有几个Hadoop MR作业,希望能够在Dataflow服务上运行。我希望能够利用Dataflow服务,而不必完全重写Hadoop作业。

杰里米

为了使迁移更容易,我认为应该可以定义一个通用的Dataflow转换,该转换可以包装Hadoop Mappers和Reducers,以便可以在Dataflow Pipelines中重用该代码。

这是一个非常小的实现AvroMRTransform,它充当AvroMapper和AvroReducer的包装器(即,它只能用于作为Avro数据的输入和输出)。

AvroMRTransform可以运行,但是几乎可以肯定它无法处理。它还不支持许多Hadoop功能,例如计数器。

由于这些原因,除了临时停止间隙度量外,我不建议使用其他任何方法(例如,您的应用程序包含许多MR作业,并且您不想一次全部重写它们)。

Hadoop MR API令我印象深刻,因此最终要使用Dataflow支持每个功能可能要比重写应用程序还要做更多的工作。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

Hadoop-2.6.0授权不适用于MR作业

来自分类Dev

运行MR作业时“无法验证数据的完整性”

来自分类Dev

Hadoop MapReduce:是否可以仅将一部分输入数据用作MR作业的输入?

来自分类Dev

如何在CDH5 Hue中设置运行MR作业的配置?

来自分类Dev

我的cdh5.2群集在运行hbase MR作业时获取FileNotFoundException

来自分类Dev

运行MR作业时出现“无法验证数据完整性”

来自分类Dev

运行hbase MR作业时我的cdh5.2群集获取FileNotFoundException

来自分类Dev

是否可以使用Slurm在chroot环境中运行用户的作业

来自分类Dev

是否可以使用不同的 jenkins 作业运行每个 testing.xml 文件?

来自分类Dev

如何使用自定义Docker映像运行Python Google Cloud Dataflow作业?

来自分类Dev

如何通过App Engine运行Google Cloud Dataflow作业?

来自分类Dev

您可以使用在Jenkins上使用HermesJMS的SoapUI插件运行Maven作业吗?

来自分类Dev

google dataflow BQ / BT是否为每个作业写原子?

来自分类Dev

如何中止映射器(或精简器)中的MR作业

来自分类Dev

如何中止映射器(或精简器)中的MR作业

来自分类Dev

MS-SQL-是否可以使用Visual Studio SSDT插件管理sql代理作业的代码?

来自分类Dev

如何通过运行Google Compute Engine cron作业来计划Dataflow作业

来自分类Dev

Hadoop Pig作业未运行

来自分类Dev

hadoop:无法运行mapreduce作业

来自分类Dev

是否可以使用Google计算引擎运行Selenium脚本?

来自分类Dev

是否可以使用Google计算引擎运行Selenium脚本?

来自分类Dev

使用JobControl Hadoop的复杂作业

来自分类Dev

Google Cloud Dataflow作业的机器类型

来自分类Dev

我们可以使用Spring批处理分区和Rabbitmq同时运行具有不同参数的同一作业的多个作业实例吗

来自分类Dev

在哪里可以在 Google Cloud Platform 上运行连续作业?

来自分类Dev

无法在hadoop 2.4.0上运行MapReduce作业

来自分类Dev

hadoop中正在运行的作业-错误

来自分类Dev

运行Hadoop Map-Reduce作业

来自分类Dev

Spark/Hadoop 作业未并行运行

Related 相关文章

  1. 1

    Hadoop-2.6.0授权不适用于MR作业

  2. 2

    运行MR作业时“无法验证数据的完整性”

  3. 3

    Hadoop MapReduce:是否可以仅将一部分输入数据用作MR作业的输入?

  4. 4

    如何在CDH5 Hue中设置运行MR作业的配置?

  5. 5

    我的cdh5.2群集在运行hbase MR作业时获取FileNotFoundException

  6. 6

    运行MR作业时出现“无法验证数据完整性”

  7. 7

    运行hbase MR作业时我的cdh5.2群集获取FileNotFoundException

  8. 8

    是否可以使用Slurm在chroot环境中运行用户的作业

  9. 9

    是否可以使用不同的 jenkins 作业运行每个 testing.xml 文件?

  10. 10

    如何使用自定义Docker映像运行Python Google Cloud Dataflow作业?

  11. 11

    如何通过App Engine运行Google Cloud Dataflow作业?

  12. 12

    您可以使用在Jenkins上使用HermesJMS的SoapUI插件运行Maven作业吗?

  13. 13

    google dataflow BQ / BT是否为每个作业写原子?

  14. 14

    如何中止映射器(或精简器)中的MR作业

  15. 15

    如何中止映射器(或精简器)中的MR作业

  16. 16

    MS-SQL-是否可以使用Visual Studio SSDT插件管理sql代理作业的代码?

  17. 17

    如何通过运行Google Compute Engine cron作业来计划Dataflow作业

  18. 18

    Hadoop Pig作业未运行

  19. 19

    hadoop:无法运行mapreduce作业

  20. 20

    是否可以使用Google计算引擎运行Selenium脚本?

  21. 21

    是否可以使用Google计算引擎运行Selenium脚本?

  22. 22

    使用JobControl Hadoop的复杂作业

  23. 23

    Google Cloud Dataflow作业的机器类型

  24. 24

    我们可以使用Spring批处理分区和Rabbitmq同时运行具有不同参数的同一作业的多个作业实例吗

  25. 25

    在哪里可以在 Google Cloud Platform 上运行连续作业?

  26. 26

    无法在hadoop 2.4.0上运行MapReduce作业

  27. 27

    hadoop中正在运行的作业-错误

  28. 28

    运行Hadoop Map-Reduce作业

  29. 29

    Spark/Hadoop 作业未并行运行

热门标签

归档