有人知道需要对培训师进行哪些更改才能在 google cloud ML 的分布式平台上运行作业吗?
如果有人可以分享几篇相同的文章或文档,那将有很大帮助。
总的来说,您的分布式 TensorFlow 程序将完全如此——分布式 TensorFlow,具有最少——甚至没有——特定于云的更改。分布式 TensorFlow 的最佳资源是tensorflow.org 上的本教程。本教程将引导您了解低级的做事方式。
还有一个更高级别的 API,目前在 contrib 中(因此 API 可能会更改并将在未来版本中移出 contrib),它简化了您必须为分布式训练编写的样板代码量。官方教程在这里。
一旦您了解了一般的 TensorFlow 位(无论是高级还是低级 API),您的代码中必须存在一些特定元素才能使其在 CloudML Engine 上运行。对于低级 TensorFlow API,您需要解析 TF_CONFIG 环境变量来设置您的 ClusterSpec。这在例示本实施例中(具体参见本的代码块)。
高级 API 的一个优点是,所有这些解析都已经为您处理好了。您的代码通常应该可以正常工作。请参阅此示例。重要的是,您将需要使用learn_runner.run()(请参阅此行),它将在本地和云端工作以训练您的模型。
当然,还有其他框架,例如TensorFX。
在适当地构建代码后,您只需在启动训练作业时选择具有多台机器的适当规模层。(请参阅Chuck Finley 的回答示例)
希望能帮助到你!
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句