我们目前正在使用Elasticsearch对大约1000万个文档进行索引并执行搜索。它工作正常,我们对其性能感到满意。我开始使用elasticsearch的同事坚信,它可以用作中央数据存储库,其他数据系统(例如SQL Server,Hadoop / Hive)可以将数据推送到其中。我对此没有任何争议,因为我对两者的了解都非常有限。但是,我很担心。
我确实知道Elasticsearch中的数据是以一种有效的文本搜索方式存储的。Hadoop就像文件系统一样存储数据,但是存储方式可以有效地扩展/复制多个数据节点上的块。因此,在我看来,将Hadoop(因为对数据的看法更加不可知)用作中央数据存储库似乎更为有益。然后将数据从Hadoop推送到SQL,elasticsearch等...
我已经阅读了几篇有关Hadoop和Elasticsearch用例的文章,将Hadoop用作中央数据存储库似乎很常规。但是,我找不到任何暗示Elasticsearch并不是不错的选择的东西。
请帮忙!
我强烈不鼓励大多数用户使用Elasticsearch作为您的主要数据存储区。在群集由于网络分区而崩溃之前,它将非常有用。即使ES专业人员始终设置的诸如minimum_master_nodes之类的设置也不会节省您的时间。参见Aphyr的《 Call Me Maybe》系列的出色分析:http://aphyr.com/posts/317-call-me-maybe-elasticsearch
eliasah是的,这取决于您的用例,但是如果您的数据(和工作)对您很重要,请远离。
将数据的黄金记录保存在真正专注于持久性的内容中,并同步数据以从中进行搜索。它增加了额外的复杂性和资源,但会带来更好的夜间休息:)
有很多方法可以解决此问题,如果elasticsearch完成了您需要的一切,您可以调查Kafka以将所有进入事件的事件持久化到一个集群中,如果出现问题,可以重播。我喜欢这种方法,因为它为Elasticsearch提供了一个异步摄取管道,该管道也可以实现持久性。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句