为什么我的输出文件都命名为“ part-r-xxxxx”，即使我没有提到任何reducer类也是如此？

debugcn 发表于 Dev

安吉特·凯特里（Ankit khettry）

我正在使用Hadoop 2.6.0的Apache发行版。我知道，对于每个映射器，映射器的输出文件都以“ part-m-xxxxx”格式命名，而对于每个简化器，简化器的输出文件都被命名为“ part-r-xxxxx”。我正在尝试一个简单的Max-Temperature用例，但尚未在Job配置中设置任何reducer类。在这种情况下，输出文件不应该被命名为“ part-m-xxxxx”吗？请在下面找到我的主班：

public class MaxTemperature{

    public static void main(String[] args) throws Exception
    {
        Configuration conf = new Configuration();
        Job job = new Job(conf, "Max Temperture");
        job.setJarByClass(MaxTemperature.class);
        int noOfInputPaths = args.length-1;
        for (int i=0; i<noOfInputPaths; i++){
            System.out.println("Adding Input path: "+args[i]);
            FileInputFormat.addInputPath(job, new Path(args[i]));
        }
        System.out.println("Output path: "+args[args.length - 1]);
        FileOutputFormat.setOutputPath(job, new Path(args[args.length - 1]));

        job.setMapperClass(MaxTemperatureMapper.class);
        //job.setReducerClass(MaxTemperatureReducer.class);
        //job.setNumReduceTasks(3);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);     

        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        System.exit(job.waitForCompletion(true)? 0 : 1);
    }
}

Kishore

如果MapReduce程序员未使用job.setReducerClass设置Reducer类，则将其IdentityReducer.class用作默认值。如果您只想对输入进行排序。例如，身份缩减器可用于实现令人尴尬的并行算法，其中您仅使用映射器执行并行任务，但希望对输出键值对进行排序。输出将是part-r-xxxxx。

如果您设置

job.setNumReduceTasks(0);

在这种情况下，减速器将不会运行，程序的输出将命名为part-m-xxxxx。输出将不排序。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-13

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

为什么我的输出文件都命名为“ part-r-xxxxx”，即使我没有提到任何reducer类也是如此？

为什么我的输出文件都命名为“ part-r-xxxxx”，即使我没有提到任何reducer类也是如此？

为什么我所有的android studio项目都命名为app

在类中，我如何将输出文件命名为此类的未来实例的名称

为什么hadoop输出文件part-r-00000为空

为什么我的cron输出文件名的末尾有\ r？

Spark中的part-r-xxxxx文件

为什么在我直接将其命名为laravel5时找不到类名

为什么将提交按钮命名为“ submit”，我的表单却不提交？

为什么ASP.Net MVC将我的“固定”区域重命名为“ _Fixed”

Windows为什么将我的库重命名为驱动器号？

为什么案例类被命名为“案例”？

为什么我的python脚本输出文件为空

为什么我没有得到任何输出？

为什么我没有得到任何输出

为什么我没有得到任何输出

如果我们在 java main 方法中将 args[] 命名为 arhs[]（或任何其他名称），为什么没有错误？

我将Excel工作表重命名为默认的“ Sheet1”后，为什么此VBA代码失败？

为什么我的网络接口命名为enp0s25而不是eth0？

为什么使用 Nsurl 请求一直告诉我重命名为“init(url)”

Hadoop中的part-r-00000和part-m-00000文件有什么区别？

是否所有文件夹都命名为“核心”核心转储？

我不知道为什么我得到一个空白的输出文件

将我的 Laravel 项目命名为 crm 有什么问题吗

即使我安装了没有命名为seaborn的模块

为什么我的输出文件的大小小于原始文件的大小？

我想将目录中的所有文件从* .ts重命名为* .mkv

如果我将脚本命名为“ string.py”或“ math.py”，则“导入”操作的行为会有所不同。为什么会这样呢？

为什么我的客户没有收到任何字节？

为什么Windows上的traceroute命名为tracert-我正在阅读的书声称存在一些历史背景

我们如何复制仅命名为哈希格式的文件