我需要将推送到Kafka的消息存储在深度存储中。我们正在使用Azure云服务,因此我想Azure Blob存储可能是一个更好的选择。我想使用Kafka Connect的接收器连接器API将数据推送到Azure Blob。Kafka文档主要建议HDFS导出数据,但是,在那种情况下,我需要运行Hadoop的Linux VM,我想这会很昂贵。我的问题是,Azure Blob存储是存储JSON对象的合适选择,而构建自定义接收器连接器是这种情况的合理解决方案吗?
自定义接收器连接器肯定可以工作。Kafka Connect是绝对设计的,因此您可以插入连接器。实际上,连接器的开发完全是联邦的。仅仅由于这两个用例的普及,首先实现了Confluent的JDBC和HDFS连接器,但是还有更多(我们在这里保留了我们知道的连接器列表)。
关于Azure Blob存储是否合适,您提到了JSON对象。我认为您唯一需要考虑的是对象的大小以及Azure存储是否可以很好地处理对象的大小和数量。我不确定Azure存储的特性,但是在许多其他对象存储系统中,您可能需要将许多对象聚合到一个Blob中,才能对大量对象获得良好的性能(即,您可能需要支持许多JSON对象的文件格式)。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句