Arduino先生
我有一堆压缩为* gz格式的二进制文件。这些是在远程节点上生成的,并且必须传输到位于数据中心服务器之一的HDFS中。
我正在探索使用Flume发送文件的选项;我探索了使用假脱机目录配置执行此操作的选项,但是显然,这仅在文件目录位于本地同一HDFS节点上时才有效。
有什么建议如何解决这个问题?
刻板印象
对于这种情况,没有现成的解决方案。但是您可以尝试以下解决方法:
- 为此,您可以创建自己的源实现(通过使用Flume SDK)。例如,该项目似乎能够通过ssh连接到远程目录并将其用作源。
- 您可以创建一个自定义的计划脚本,以定期将远程文件复制到本地假脱机目录中,然后将其用作flume代理的假脱机目录源。
- 您可以尝试创建另一个脚本来读取远程数据,然后将其写入其输出,并在Exec Source中使用该脚本。
- 您可以在数据所在的机器上找到水槽(和代理)(请参见水槽假脱机目录是否可以在远程计算机中?)。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
编辑于
我来说两句