本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
附录
通过 HyperPod 食谱监控训练结果
SageMaker HyperPod 食谱提供了 Tensorboard 集成,用于分析训练行为。这些配方还包含了 VizTracer,这是一种用于跟踪和可视化 Python 代码执行的低开销工具。有关更多信息,请参阅 VizTracer
张量板日志生成并存储在中。log_dir要本地访问和分析这些日志,请按以下过程操作:
-
从训练环境中将 Tensorboard 实验文件夹下载到本地计算机上。
-
在本地计算机上打开终端或命令提示符。
-
导航到包含已下载的实验文件夹的目录。
-
通过运行以下命令启动 Tensorboard:
tensorboard --port=<port> --bind_all --logdir experiment. -
打开您的网络浏览器并访问
http://localhost:8008。
现在,您可以在 Tensorboard 界面中查看训练作业的状态和可视化内容。查看状态和可视化内容有助于监控和分析训练过程。监控和分析训练过程有助于了解模型的行为和性能。有关如何使用 Tensorboard 监控和分析训练的更多信息,请参阅 NVIDIA NeMo 框架用户指南
VizTracer
要启用 VizTracer,您可以通过将环境变量设置为ENABLE_VIZTRACER来修改配方1。训练完成后,您的 VizTracer 个人资料将出现在实验文件夹中log_dir/viztracer_xxx.json。要分析您的个人资料,您可以下载并使用以下vizviewer工具将其打开:
vizviewer --port <port> viztracer_xxx.json
此命令在端口 9001 上启动 vizviewer。你可以在<port>浏览器中前往 http://localhost: 来查看你的。 VizTracer 打开后 VizTracer,开始分析训练。有关使用的更多信息 VizTracer,请参阅 VizTracer 文档