是否可以在没有集群的情况下运行 Hadoop MapReduce 程序?我的意思是,为了教育目的,我只是想稍微摆弄一下 map/reduce,所以我想要的只是在我的计算机上运行一些 MapReduce 程序,我不需要任何工作拆分到多个节点等......不需要任何性能提升或任何东西,正如我所说的,只是出于教育目的..我还需要运行 VM 来实现这一目标吗?我正在使用 IntelliJ Ultimate,并且我正在尝试运行简单的 WordCount .. 我相信我已经设置了所有必要的库和整个项目,并且在运行时我得到了这个异常:
Exception in thread "main" java.io.IOException: Cannot initialize Cluster.
Please check your configuration for mapreduce.framework.name and the correspond server addresses.
我发现一些帖子说整个 map/reduce 过程可以在 jvm 上本地运行,但还没有找到方法。
“伪分布式”模式的整个安装教程专门带你完成单节点Hadoop集群的安装
还有“迷你集群”,你会发现一些 Hadoop 项目用于单元和集成测试
我觉得你只是在问你是否需要 HDFS 或 YARN,但答案是否定的,Hadoop 可以file://
从磁盘读取带前缀的文件路径,无论是否有集群
请记住,分裂不仅在节点之间,而且在单个计算机的多个核心之间。如果您不进行任何并行处理,那么除了学习 API 语义之外,没有太多理由使用 Hadoop。
旁白:从“教育的角度”来看,在我迄今为止的职业生涯中,我发现编写 Spark 的人比 MapReduce 多,而且专门要求 MapReduce 代码的工作并不多
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句