附录 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

附录

通过 HyperPod 食谱监控训练结果

SageMaker HyperPod 食谱提供了 Tensorboard 集成,用于分析训练行为。这些配方还包含了 VizTracer,这是一种用于跟踪和可视化 Python 代码执行的低开销工具。有关更多信息,请参阅 VizTracer

张量板日志生成并存储在中。log_dir要本地访问和分析这些日志,请按以下过程操作:

  1. 从训练环境中将 Tensorboard 实验文件夹下载到本地计算机上。

  2. 在本地计算机上打开终端或命令提示符。

  3. 导航到包含已下载的实验文件夹的目录。

  4. 通过运行以下命令启动 Tensorboard:

    tensorboard --port=<port> --bind_all --logdir experiment.
  5. 打开您的网络浏览器并访问http://localhost:8008

现在,您可以在 Tensorboard 界面中查看训练作业的状态和可视化内容。查看状态和可视化内容有助于监控和分析训练过程。监控和分析训练过程有助于了解模型的行为和性能。有关如何使用 Tensorboard 监控和分析训练的更多信息,请参阅 NVIDIA NeMo 框架用户指南

VizTracer

要启用 VizTracer,您可以通过将环境变量设置为ENABLE_VIZTRACER来修改配方1。训练完成后,您的 VizTracer 个人资料将出现在实验文件夹中log_dir/viztracer_xxx.json。要分析您的个人资料,您可以下载并使用以下vizviewer工具将其打开:

vizviewer --port <port> viztracer_xxx.json

此命令在端口 9001 上启动 vizviewer。你可以在<port>浏览器中前往 http://localhost: 来查看你的。 VizTracer 打开后 VizTracer,开始分析训练。有关使用的更多信息 VizTracer,请参阅 VizTracer 文档