在云中调度GPU以训练深度学习模型

debugcn 发表于 Dev

shivank01

有人拥有自己的云VM实例来执行任务。目前，当我们想训练深度学习模型时，可以附加GPU。但是我一次只能使用1-2个GPU。因此，我想建立一种调度机制，一旦GPU释放，它将开始训练我的模型。我们该怎么做？一种解决方案可能是制作一个带有GPU的VM实例，然后我们从其他实例向该实例发送请求以安排我的工作。可行吗，怎么做？

马布布

如果要基于特定区域中GPU资源的可用性创建GPU实例，则用户没有这种可见性来观察GCP资源是否可用或缺货。

您可以在此处模拟服务帐户，从而在实例上计划cron作业，该实例将在具有GPU资源的实例上执行任务。例如，您可以通过模拟实例的服务帐户，运行以下提到的命令在“ GPU_INSTANCE_NAME”实例上创建新文件。此时，创建一个包含以下提到的命令的脚本，并使用cron job根据您的要求安排任务。

“ gcloud computing ssh GPU_INSTANCE_NAME --project = Project_Name --zone = VM_Zone --impersonate-service-account = Instance_Service_Account --command =“ touch newfile””

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-04-2

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

在云中调度GPU以训练深度学习模型

在云中调度GPU以训练深度学习模型

使用 AMD 训练深度学习模型

在深度学习模型训练的中间修改学习率

如何在深度学习模型中训练不同尺度的特征

我的深度学习模型不是培训。我该如何训练？

Spacy在训练自定义模型时会使用哪种深度学习算法？

我无法在GPU上使用转移学习（VGG16）来训练模型

深度学习训练集的图像增强算法

如何让深度学习训练误差收敛？

如何训练深度学习网络

Numpy- 深度学习、训练示例

姿势网是机器学习模型还是深度学习模型

如何避免重新训练机器学习模型

深度学习模型权重的初始化

确定深度学习模型的最佳分类阈值

如何在云端部署深度学习模型？

人脸识别深度学习有哪些模型？

为什么在处理深度学习时 GPU 比 CPU 更重要？

转移学习：模型给出不变的损失结果。不训练吗？

训练基于个性化的机器学习模型

使用Celery或RESTful API服务深度学习模型？

复杂模式识别的深度学习模型

在两个 GPU 上训练两个模型

如何在本地 rtx gpu 的 tpu 上训练 keras 模型

多处理无法训练超过65536字节训练数据的Scikit学习模型

如何为深度学习训练数据集创建地面真相边界框？

模型的大小、深度和参数数量如何影响训练时间？

如何训练我的 DNNClassifier 模型（在 tensorflow 中），以从新的训练案例中学习？我无权访问初始 CSV 文件

是否有任何技术可以预先知道使深度学习获得良好表现所需的训练示例数量？

如何在机器学习中训练用于从图像中去除背景的模型