Cloudera Impala:如何从HDFS块读取数据?

用户3031097

我在Impala中有一个基本问题。我们知道Impala允许您查询HDFS中存储的数据。现在,如果一个文件被分成多个块,可以说一行文本分布在两个块中。在Hive / MapReduce中,RecordReader会处理此问题。

在这种情况下,Impala如何读取记录?

马特

在Impala用户列表上引用我的答案

当Impala发现不完整的记录(例如,扫描某些文件格式(例如文本或rc文件)时可能发生)时,它将继续从下一个块开始增量读取,直到读取了整个记录。请注意,这可能需要少量的“远程读取”(从远程数据节点读取),但是与应该在本地读取(最好是通过短路读取)的整个块相比,这通常是很少的。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

Cloudera Impala:如何从HDFS块读取数据?

来自分类Dev

Cloudera Impala禁用元数据

来自分类Dev

Springera的Cloudera Impala?

来自分类Dev

Springera的Cloudera Impala?

来自分类Dev

Cloudera Manager-HDFS复制不足的块

来自分类Dev

How to duplicate a cloudera impala table backed by avro?

来自分类Dev

连接集群外部的Cloudera Impala / Hive

来自分类Dev

Cloudera Manager未显示完成的Impala查询

来自分类Dev

为什么Cloudera的Impala仍在“孵化”?

来自分类Dev

Cloudera Impala连接到Tableau错误

来自分类Dev

如何复制由avro支持的cloudera impala表?

来自分类Dev

Cloudera:在HDFS异常中上传文件

来自分类Dev

Cloudera Hadoop VM 5.10 - 找到 HDFS 路径?

来自分类Dev

切换包含cloudera hadoop / hdfs / hbase数据的磁盘

来自分类Dev

如何通过cloudera tarball安装spark?

来自分类Dev

如何从cloudera CDH发送颜色编码的警报?

来自分类Dev

如何使用impala-shell或其他方式复制cloudera impala表?

来自分类Dev

为RODBC安装Cloudera Impala ODBC驱动程序

来自分类Dev

Cloudera-Hive / Impala显示创建表-语法错误

来自分类Dev

如何在 Cloudera 5.x 上使用 pyspark 从 DataTap 读取数据?

来自分类Dev

无法通过Java API(Cloudera-CDH4.4.0)访问HDFS

来自分类Dev

Cloudera用户不允许在hadoop上操作hdfs系统

来自分类Dev

Cloudera命令:hdfs dfs -put testfile.txt失败

来自分类Dev

Cloudera用户不允许在hadoop上操作hdfs系统

来自分类Dev

Pyspark - IndentationError:预期使用 Cloudera 虚拟机的缩进块

来自分类Dev

Hive无法加载数据-Cloudera QuickStart VM 5.8

来自分类Dev

如何在Cloudera QuickStart Terminal中编写多行?

来自分类Dev

Cloudera CDH4如何与Avro配合使用?

来自分类Dev

如何下载特定cloudera发行版的源代码?

Related 相关文章

  1. 1

    Cloudera Impala:如何从HDFS块读取数据?

  2. 2

    Cloudera Impala禁用元数据

  3. 3

    Springera的Cloudera Impala?

  4. 4

    Springera的Cloudera Impala?

  5. 5

    Cloudera Manager-HDFS复制不足的块

  6. 6

    How to duplicate a cloudera impala table backed by avro?

  7. 7

    连接集群外部的Cloudera Impala / Hive

  8. 8

    Cloudera Manager未显示完成的Impala查询

  9. 9

    为什么Cloudera的Impala仍在“孵化”?

  10. 10

    Cloudera Impala连接到Tableau错误

  11. 11

    如何复制由avro支持的cloudera impala表?

  12. 12

    Cloudera:在HDFS异常中上传文件

  13. 13

    Cloudera Hadoop VM 5.10 - 找到 HDFS 路径?

  14. 14

    切换包含cloudera hadoop / hdfs / hbase数据的磁盘

  15. 15

    如何通过cloudera tarball安装spark?

  16. 16

    如何从cloudera CDH发送颜色编码的警报?

  17. 17

    如何使用impala-shell或其他方式复制cloudera impala表?

  18. 18

    为RODBC安装Cloudera Impala ODBC驱动程序

  19. 19

    Cloudera-Hive / Impala显示创建表-语法错误

  20. 20

    如何在 Cloudera 5.x 上使用 pyspark 从 DataTap 读取数据?

  21. 21

    无法通过Java API(Cloudera-CDH4.4.0)访问HDFS

  22. 22

    Cloudera用户不允许在hadoop上操作hdfs系统

  23. 23

    Cloudera命令:hdfs dfs -put testfile.txt失败

  24. 24

    Cloudera用户不允许在hadoop上操作hdfs系统

  25. 25

    Pyspark - IndentationError:预期使用 Cloudera 虚拟机的缩进块

  26. 26

    Hive无法加载数据-Cloudera QuickStart VM 5.8

  27. 27

    如何在Cloudera QuickStart Terminal中编写多行?

  28. 28

    Cloudera CDH4如何与Avro配合使用?

  29. 29

    如何下载特定cloudera发行版的源代码?

热门标签

归档