hadoop映射器中对象类型的键

user275157 发表于 Dev

用户名

hadoop的新手，并试图从此处了解mapreduce wordcount示例代码。

文档中的映射器是-

Mapper<KEYIN,VALUEIN,KEYOUT,VALUEOUT>

我看到在mapreduce字数示例中，映射代码如下

public void map(Object key, Text value, Context context)

问题-Object类型的此键的作用是什么？如果映射器的输入是文本文档，那么我假设其中的值将是hadoop已分区并存储在HDFS中的文本块（64MB或128MB）。更一般而言，此输入键Keyin在地图代码中的用途是什么？

任何指针将不胜感激

停留

InputFormat描述了Map-Reduce作业的输入规范。默认情况下，hadoop使用TextInputFormat继承自的FileInputFormat来处理输入文件。

我们还可以指定在客户端或驱动程序代码中使用的输入格式：

job.setInputFormatClass(SomeInputFormat.class);

对于TextInputFormat，文件分为几行。键是文件中的位置，值是文本行。

在中public void map(Object key, Text value, Context context)，键是行偏移量，值是实际文本。

请查看TextInputFormat API https://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapreduce/lib/input/TextInputFormat.html

默认情况下，关键是LongWritable类型和价值类型是Text为TextInputFormat你的榜样，对象类型在的地方。在指定的LongWritable，因为它是兼容的。您也可以使用LongWritabletype代替Object

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-20

我来说两句

0条评论

登录后参与评论

上一篇：实体框架代码优先：循环或多个级联路径

来自分类Dev

Related 相关文章

文章

hadoop映射器中对象类型的键

hadoop映射器中对象类型的键

hadoop获取映射器的实际数量

Hadoop中的映射器输入键值对

自动映射器-根据映射对象的类型设置值

Hadoop：在映射器的输出中使用自定义对象

复杂对象中的自动映射器和映射列表/嵌套映射

Hadoop：仅在映射器中获取输入文件名一次

找不到Hadoop映射器类

自动映射器，将一种对象成员类型映射到多种具体类型

映射器输出键能否路由到Hadoop MR中的特定节点

使用XMLInputFormat在hadoop中解析xml时未执行我的hadoop映射器类

在数据映射器模式中创建对象数组

为什么我在Hadoop 2中获得了如此多的映射器

自动映射器：将类型对象上的单个成员映射到对象的Icollection

交换键和值映射器hadoop

对象映射器-解析[AnyObject]的数组

打字稿中的递归对象映射器类型

自动映射器映射对象

hadoop获取映射器的实际数量

如何在hadoop的mapreduce程序中增加映射器和化简器的数量？

对象的自动映射器配置

从映射器访问mongodb的对象（MapReduce）

RestKit中xml的对象映射器

通过映射器中的文档编号区分字数-Hadoop？

JacksonJaxbJsonProvider默认对象映射器

自动映射器：将类型对象上的单个成员映射到对象的Icollection

在自动映射器选项中传递多个对象

来自对象列表的自动映射器

Hadoop MapReduce 访问映射器在减速器中的输出数量

忽略映射器中没有映射对象中相关属性的字段