我正在AWS上构建数据管道,该数据管道从Twitter的v1.1 POST状态/过滤器流数据。流媒体应用程序位于ECS(即docker)容器中,从该容器中发送初始POST请求。然后,该应用会将推文发送到AWS Kinesis Firehose流(因此可以将数据从不同的位置/代理发送到同一KF流)。
我正在使用VPC,因此可以在同一网络中运行多个容器。
问题是:是否可以将传入的(Twitter)数据流分发到同一网络(VPC)内的多个容器中?如果是的话,那有什么提示呢?
UPD。我的管道是Twitter API -> [ECS container] streamer app -> S3 -> Lambda (predictions) -> Elasticsearch
,我正在谈论流媒体应用程序部分。
这里的最终目标是能够根据流的强度进行缩放。例如,当来自Twitter的流量较低时,使用一个较小的(内存,CPU)容器,而在数据流更密集时,增加一个容器。
这是可能的(将一个流媒体等同于一个Twitter API连接),但这将为您提供完全相同的流,并在每个流媒体实例中返回相同的Tweet。
如果您要跟踪一组静态的关键字,则一种好的方法是将其自动缩放到一个较大的容器,而不是让其他容器并行摄取完全相同的流。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句