分布式存储大量文件

AxFab 发表于 Dev

AxFab

这里集思广益。

我在寻找最合适的解决方案来寻找分布式存储解决方案。我正在寻找一种高效的键/值存储，平坦的名称空间，并具有最小的延迟。

情境

我计划保存1或更少的小块记录。它们主要是生产/消费记录：

1写
一读，更多关于罕见的案例。
删除，几个月后存档。

但是，有些记录可能会增长到10Mb，这是最大记录，但必须是可能的。

数据必须在磁盘上序列化。

重要

我的第一个优先事项是一种存储，它可以对非常庞大的文件列表（可能是几亿个）提供良好的响应时间。

当然，有了这个数字，我就不必在意我的文件的迭代（我在寻找功能，但不在乎性能，只在调试或维护）。

当然，没有SPOF的解决方案可以更好地扩展。

必须是Linux解决方案，并且不允许云（私有数据）。

我发现了什么

我看着Voldemort，Cassandra和HBase。

恐怕Cassandra和HBase的blob记录效率并不高。
Voldemort看起来仍然不成熟，我找不到有关记录大小和支持的文件数的信息。

我也检查了Luster和Ceph，但它们不是键/值存储。

CouchBase和MongoDB在启用持久性的情况下具有糟糕的性能。

我正在运行一些测试，但还不能真正启动可靠的基准测试。是否有人了解有关此解决方案的信息，或者是否知道用于此类工作负载的其他产品设计？

维克多·斯托宾

您是否看过Infinispan或Hazelcast之类的内存数据网格？它们具有出色的可伸缩性和响应能力，但是如果有一天您会考虑对这些条目进行任何处理，则存储10Mb对象可能会成为一个问题。但是，例如，Hazelcast允许任务在拥有目标条目的群集的同一成员上执行，从而减少了成员间数据流的数量。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-3

我来说两句

0条评论

登录后参与评论

来自分类Dev

Spark的分布式存储

来自分类Dev

Hadoop分布式文件系统与分布式缓存

来自分类Dev

如何从存储在HDFS分布式缓存中的文件的路径中获取文件名

来自分类Dev

如何创建分布式文件系统

来自分类Dev

锁定分布式系统中的文件

来自分类Dev

Hadoop中的分布式文件处理？

来自分类Dev

使用HDFS分布式缓存中存储的python脚本访问文件

来自分类Dev

Java中的分布式Hashmap或分布式信息存储

来自分类Dev

使用Orleans，如何实现分布式数据存储的分布式计算？

来自分类Dev

分布式认证

来自分类Dev

分布式计算

来自分类Dev

Cassandra作为分布式缓存的数据存储

来自分类Dev

Linux的分布式软件包存储库？

来自分类Dev

在MongoDB中存储Spark分布式矩阵

来自分类Dev

比较GeoMesa的分布式云数据存储系统

来自分类Dev

Git分布式修订控制和文件类型

来自分类Dev

如何在分布式环境中发送文件内容？

来自分类Dev

在分布式JMeter测试中写入以变量命名的文件

来自分类Dev

在分布式JMeter测试中写入以变量命名的文件

来自分类Dev

适用于Linux的分布式文件系统

来自分类Dev

OpenBSD中是否有任何分布式文件系统？

来自分类Dev

在Hadoop分布式缓存中创建和放置文件

来自分类Dev

Dropbox是否被视为分布式文件系统？

来自分类Dev

Opensolaris是否提供分布式ZFS文件系统

来自分类Dev

在SOLR中以分布式方式执行大量分面日期查询

来自分类Dev

Julia Parallel分布式

来自分类Dev

分布式电源集

来自分类Dev

什么是分布式缓存？

来自分类Dev

分布式Tensorflow错误/

Related 相关文章

文章