Kev*_*vin 5 google-compute-engine google-cloud-platform google-cloud-tpu
我在该us-central1-f地区分配了多个 Google Cloud TPU 。机器类型都是v2-8.
如何利用我所有的 TPU 来训练单个模型?
该us-central1-f地区不支持 pods,因此使用 pods 似乎不是解决方案。即使 pod 可用,我拥有的 v2-8 单元的数量也不匹配任何 pod TPU 切片大小(16、64、128、256),因此我无法在单个 pod 中使用它们。
虽然我找不到明确回答这个问题的文档,但我阅读了多篇文章和问题,并得出结论:如果您正在使用v2-8TPU v3-8,则不可能一次使用多个 TPU。您将必须使用更大的机器,例如v2-32或v3-32来确保您可以访问更多内核,而 TFRC 计划并不免费提供这一点。
参考:
小智 1
我相信你不能轻易做到这一点。如果您想使用多个 TPU 训练单个模型,则需要访问具有 TPU Pod 的区域。否则,您可以做显而易见的事情:在不同的 TPU 上训练相同的模型,但使用不同的超参数作为网格搜索的方式,或者您可以训练多个弱学习器,然后手动组合它们。
| 归档时间: |
|
| 查看次数: |
477 次 |
| 最近记录: |