使用Elasticsearch作为中央数据存储库

user322076 发表于 Dev

用户名

我们目前正在使用Elasticsearch对大约1000万个文档进行索引并执行搜索。它工作正常，我们对其性能感到满意。我开始使用elasticsearch的同事坚信，它可以用作中央数据存储库，其他数据系统（例如SQL Server，Hadoop / Hive）可以将数据推送到其中。我对此没有任何争议，因为我对两者的了解都非常有限。但是，我很担心。

我确实知道Elasticsearch中的数据是以一种有效的文本搜索方式存储的。Hadoop就像文件系统一样存储数据，但是存储方式可以有效地扩展/复制多个数据节点上的块。因此，在我看来，将Hadoop（因为对数据的看法更加不可知）用作中央数据存储库似乎更为有益。然后将数据从Hadoop推送到SQL，elasticsearch等...

我已经阅读了几篇有关Hadoop和Elasticsearch用例的文章，将Hadoop用作中央数据存储库似乎很常规。但是，我找不到任何暗示Elasticsearch并不是不错的选择的东西。

请帮忙！

皮尔西

我强烈不鼓励大多数用户使用Elasticsearch作为您的主要数据存储区。在群集由于网络分区而崩溃之前，它将非常有用。即使ES专业人员始终设置的诸如minimum_master_nodes之类的设置也不会节省您的时间。参见Aphyr的《 Call Me Maybe》系列的出色分析：http：//aphyr.com/posts/317-call-me-maybe-elasticsearch

eliasah是的，这取决于您的用例，但是如果您的数据（和工作）对您很重要，请远离。

将数据的黄金记录保存在真正专注于持久性的内容中，并同步数据以从中进行搜索。它增加了额外的复杂性和资源，但会带来更好的夜间休息:)

有很多方法可以解决此问题，如果elasticsearch完成了您需要的一切，您可以调查Kafka以将所有进入事件的事件持久化到一个集群中，如果出现问题，可以重播。我喜欢这种方法，因为它为Elasticsearch提供了一个异步摄取管道，该管道也可以实现持久性。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-10

我来说两句

0条评论

登录后参与评论

上一篇：播放2个反向路由，从控制器方法获取路由

来自分类Dev

Related 相关文章

文章