检查 TPU 工作负载/利用率

cra*_*aft 4 google-compute-engine google-cloud-platform tensorflow google-cloud-tpu

我正在训练一个模型,当我在 Google Cloud Platform 控制台中打开 TPU 时,它会显示 CPU 利用率(我想是在 TPU 上)。它真的,真的,很低(比如 0.07%),所以也许是 VM CPU?我想知道培训是否真的合适,或者 TPU 是否有那么强。

有没有其他方法可以检查 TPU 的使用情况?也许用ctpu命令?

Aub*_*pez 6

我建议使用插入 TensorBoard 的 TPU 分析工具。可以在此处找到有关安装和使用这些工具的很好的教程。

您将在 TPU 训练时运行分析器。它将向您的 TensorBoard 添加一个额外的选项卡,其中包含特定于 TPU 的分析信息。其中最有用的:

  • 平均步进时间
  • 主机空闲时间(CPU空闲多少时间)
  • TPU空闲时间
  • TPU 矩阵单元的使用

根据这些指标,分析器将建议开始优化模型以在 TPU 上进行良好训练的方法。您还可以深入研究更复杂的分析工具,如跟踪查看器或最昂贵的图形操作列表。

有关性能调整的一些指南(除了已链接的 ch_mike 之外),您可以查看TPU 性能指南