HiveContext spark如何在内部工作？

Tom Sebastian 发表于 Dev

汤姆·塞巴斯蒂安

我是Spark的新手，发现使用HiveContext我们可以连接hive并运行HiveQLs。我运行它，它起作用了。

我的疑问是是否Spark通过spark jobs。也就是说，它HiveContext仅用于从HDFS访问相应的配置单元表文件

或者

它内部调用hive来执行查询吗？

斯里尼

不，Spark不会调用配置单元来执行查询。Spark仅从配置单元读取元数据，并在Spark引擎内执行查询。Spark拥有自己的SQL执行引擎，其中包括催化剂，钨等组件，以优化查询并提供更快的结果。它使用来自配置单元和spark执行引擎的元数据来运行查询。

Hive的最大优势之一是它的metastore。它充当hadoop生态系统中许多组件的单个meta存储。

提出您的问题，当您使用HiveContext时，它将可以访问metastore db和所有Hive Meta Data，它们可以清楚地说明您拥有的数据类型，您在哪里拥有数据，序列化和反序列化，压缩编解码器，列，数据类型以及字面上有关表格及其数据的每个细节。这足以让spark理解数据。

总体而言，Spark只需要元存储即可提供基础数据的完整详细信息，一旦有了元数据，它将在其执行引擎上执行您所要求的查询。Hive比Map Spark慢，因为它使用MapReduce。因此，没有任何必要返回到配置单元并要求在配置单元中运行它。

让我知道它是否回答了您的问题。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-26

我来说两句

0条评论

登录后参与评论

上一篇：events.js：154 throw er; //未处理的“错误”事件

来自分类Dev

Related 相关文章

文章

HiveContext spark如何在内部工作？

HiveContext spark如何在内部工作？

Bluemix Spark中的HiveContext

Spark 版本 2 中的 HiveContext

spark HiveContext / SQLContext如何检索架构/数据？

接口如何在内部工作？

“ range（）”如何在内部工作？

Spark SQL：HiveContext不会忽略标头

在Spark CLI中初始化HiveContext

在 spark sql 中使用 HiveContext 抛出异常

如何将多个语句传递到Spark SQL HiveContext

在 Spark 中使用 HiveContext 时 Spark 初始化错误

数组在c / c ++中如何在内部工作

Spring方面如何在内部工作？

参数对象如何在内部工作？

PDOStatement :: fetch（）如何在内部工作？

FormatterServices.GetUninitializedObject如何在内部工作？

PHP的“未设置”构造如何在内部工作？

微软假货的垫片如何在内部正常工作？

reduceByKey：它如何在内部工作？

Twitter Bootstrap如何在内部工作

Meteor.loginWithExternalSystem如何在内部工作？

如何在内部SeekBar上禁用ScrollView的工作？

NetworkX adjacency_matrix（）如何在内部工作？

数组在c / c ++中如何在内部工作

在NestJS中InjectRepository如何在内部工作？

exec bash内置函数如何在内部工作？

关系字段如何在内部工作？

Apache Crunch PTable collectValues如何在内部工作

参数对象如何在内部工作？

-ss 命令如何在内部工作