我在Impala中有一个基本问题。我们知道Impala允许您查询HDFS中存储的数据。现在,如果一个文件被分成多个块,可以说一行文本分布在两个块中。在Hive / MapReduce中,RecordReader会处理此问题。
在这种情况下,Impala如何读取记录?
当Impala发现不完整的记录(例如,扫描某些文件格式(例如文本或rc文件)时可能发生)时,它将继续从下一个块开始增量读取,直到读取了整个记录。请注意,这可能需要少量的“远程读取”(从远程数据节点读取),但是与应该在本地读取(最好是通过短路读取)的整个块相比,这通常是很少的。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句