在HDFS中存储关系数据的最佳方法

Breach 发表于 Dev

违反

我最近在hadoop上阅读了很多东西，可以说我了解它的一般概念，但是仍然（至少）有一个谜题使我无法理解。在hdfs中存储关系数据的最佳方法是什么？

首先，我知道hadoop并不存在，无法替代为我的应用程序提供服务的传统的老式sql数据库。我在这里面临的问题是我想使用hadoop将来自多个系统的数据聚合到hdfs中。然后，我可以将多个系统中的数据交叉引用在一起，然后生成报表工具等使用的新数据集。

好的，因此，我应该使用一个表将表数据导入到一个文件，还是应该导入连接表的查询结果。

例如：

SQL表：

人物：人物ID名称生日性别

公司：

CompanyID
Name
Address

人公司

PersonID
CompanyID

我应该原样导入所有3个表，还是应该导入查询结果，返回人员为何在哪个公司工作。

请和我分享您的想法！

高拉夫·卡瑞（Gaurav Khare）

通常，要在hadoop中构建数据仓库，必须提取所有表。在您的示例中，您需要在HDFS中拥有所有3个表，然后进行ETL /聚合，例如Joiners_weekly可以具有一个etl，其中

选择* from PersonCompany pc加入pc.personid = p.personid上的Person p加入pc.companyid = c.companyid上的Company c。

这可以是可以从hadoop生成的报告。希望这可以帮助。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-22

我来说两句

0条评论

登录后参与评论

上一篇：Android Studio Gradle androidTest与InstrumentTest

来自分类Dev

在关系数据库中存储数组的最佳方法是什么？

来自分类Dev

MySql中关系数据库设计的最佳方法

来自分类Dev

关系数据库-存储累积数据的最佳方法？

来自分类Dev

我们可以将关系数据存储在hdfs中吗

来自分类Dev

在Redis中存储双向关系数据

来自分类Dev

在Redis中存储双向关系数据

来自分类Dev

Java框架在Redis中存储关系数据

来自分类Dev

关系数据库模型中的Django POST方法

来自分类Dev

在奥尔良项目中处理关系数据库中的遗留数据的最佳实践是什么？

来自分类Dev

将“只读”对象作为序列化数据存储在关系数据库中

来自分类Dev

使用Laravel 4在关系数据库中存储动态数据

来自分类Dev

多功能数据存储：通过DDD进行抽象以存储在关系数据库或文档数据库中？

来自分类Dev

在会话中存储数据的最佳方法

来自分类Dev

在 C 中存储常量数据的最佳方法

来自分类Dev

如何在关系数据库中存储自定义实体属性

来自分类Dev

在关系数据库中存储大量点（x，y，z）

来自分类Dev

在关系数据库中存储大量点（x，y，z）

来自分类Dev

如何在关系数据库中存储自定义实体属性

来自分类Dev

将关系数据作为状态存储在 Apache Flink 中并通过属性查询

来自分类Dev

查询以获取Laravel中的关系数据

来自分类Dev

Ruby中的关系数据库

来自分类Dev

在Hazelcast中更新关系数据

来自分类Dev

最佳关系数据库删除方法：使用DELETE还是使用有效/无效的COLUMN？

来自分类Dev

用于度量存储的关系数据库模式设计

来自分类Dev

春季启动-使用JPA在关系数据库中存储和检索数据时出现UnsatisfiedDependencyException

来自分类Dev

关系数据Redux

来自分类Dev

在关系数据库中记录同胞的最有效方法是什么？

来自分类Dev

从Codeigniter中的关系数据库中获取数据

来自分类Dev

为什么我不能将电子邮件正文存储在关系数据库中？

Related 相关文章

文章