在 Google Cloud ML 上以分布式模式运行 tensorflow 代码

debugcn 发表于 Dev

阿普

有人知道需要对培训师进行哪些更改才能在 google cloud ML 的分布式平台上运行作业吗？

如果有人可以分享几篇相同的文章或文档，那将有很大帮助。

雷电80

总的来说，您的分布式 TensorFlow 程序将完全如此——分布式 TensorFlow，具有最少——甚至没有——特定于云的更改。分布式 TensorFlow 的最佳资源是tensorflow.org 上的本教程。本教程将引导您了解低级的做事方式。

还有一个更高级别的 API，目前在 contrib 中（因此 API 可能会更改并将在未来版本中移出 contrib），它简化了您必须为分布式训练编写的样板代码量。官方教程在这里。

一旦您了解了一般的 TensorFlow 位（无论是高级还是低级 API），您的代码中必须存在一些特定元素才能使其在 CloudML Engine 上运行。对于低级 TensorFlow API，您需要解析 TF_CONFIG 环境变量来设置您的 ClusterSpec。这在例示本实施例中（具体参见本的代码块）。

高级 API 的一个优点是，所有这些解析都已经为您处理好了。您的代码通常应该可以正常工作。请参阅此示例。重要的是，您将需要使用learn_runner.run()（请参阅此行），它将在本地和云端工作以训练您的模型。

当然，还有其他框架，例如TensorFX。

在适当地构建代码后，您只需在启动训练作业时选择具有多台机器的适当规模层。（请参阅Chuck Finley 的回答示例）

希望能帮助到你！

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-9

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

在 Google Cloud ML 上以分布式模式运行 tensorflow 代码

在 Google Cloud ML 上以分布式模式运行 tensorflow 代码

如何修改 TensorFlow 代码以接受在 Google Cloud ML 上进行预测的样本？

用于推荐的 Google Cloud ML

在Google Cloud上的Docker上启动TensorFlow

在Google Cloud上的Docker上启动TensorFlow

示例代码使用Google Cloud ML服务和Cloud Shell对错误进行了重新训练

在Google Cloud Shell上设置环境以使用Cloud ML时出错

Google Cloud：如何在 Cloud Datalab 中使用 Cloud ML

Google Cloud ML Engine GPU 错误

Cloud ML Tensorflow 和 Cudnn 版本兼容性

如何在 Google Cloud ML Engine 上的 config.yaml 文件中添加用户特定的参数

无法删除 Google Cloud 上的 Tensorflow 训练作业

如何运行tensorflow分布式mnist示例

无法运行TensorFlow分布式MNIST测试

分布式Tensorflow错误/

分布式tensorflow源码

使用Python（mpi4py）在Google Cloud Engine上进行分布式编程

Tensorflow + LSF。LSF集群上的分布式张量流

Google Cloud ML控制台用户界面在哪里？

Google Cloud ML，扩展了先前的超参数调整

Google Cloud ML随附的TPU自定义芯片

如何解读 Google Cloud ML 预测结果？

Google Cloud ML Engine：创建模型版本失败

使用 Google Cloud ML Engine 和 XGBoost 调整超参数

如何在 Google Cloud ML 上定期训练和部署新的机器学习模型？如何自动化这个过程？

Python代码中的Google Cloud Datastore API

Google Cloud Functions：监视HTTP状态代码

Python代码中的Google Cloud Datastore API

Google Cloud Platform - 在代码中定义凭据

用于分布式计算的Tensorflow设置