我有一个与外部资源进行通信的数据流作业。问题是这些外部资源比数据流作业慢,这导致外部资源始终处于饱和状态。我需要某种形式来减少从PubSub读取的消息数量,或者某种方式来降低作业的吞吐量,以减少到外部资源的流量。
谢谢。
我们目前不支持节流原语(例如“确保在整个作业中将这个DoFn节流至每秒最多X个调用”),但是我们知道这是一个重要的用例,很可能迟早会得到支持。 。
同时,最好的选择是,如Ryan所说,限制worker和worker线程的数量:指定--numWorkers
(或--maxNumWorkers
使用自动缩放)--numberOfWorkerHarnessThreads
。但是,请注意,这将导致创建输入消息的积压,而不是丢弃它们。很难说出哪种用例更好。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句