

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# TensorBoard 在亚马逊 A SageMaker I 中
<a name="tensorboard-on-sagemaker"></a>

Amazon SageMaker AI TensorBoard with 是 Amazon SageMaker AI 的一项功能，它将[TensorBoard](https://www.tensorflow.org/tensorboard)可视化工具引入 SageMaker 人工智能，并与 SageMaker 训练和域集成。它提供了通过 [SageMaker AI 域管理您的 Amazon 账户和属于该账户的用户的选项，为域](https://docs.amazonaws.cn/sagemaker/latest/dg/sm-domain.html)用户授予对 Amazon S3 的适当权限访问 TensorBoard 数据的权限，并帮助域用户使用 TensorBoard 可视化插件执行模型调试任务。 SageMaker AI w TensorBoard ith 通过 SageMaker AI Data Manager 插件进行了扩展，通过该插件，域用户可以在 TensorBoard应用程序中的一个位置访问多个训练作业。

**注意**  
此功能用于使用 PyTorch 或调试深度学习模型的训练 TensorFlow。

**对于数据科学家**

训练大型模型可能存在科学问题，需要数据科学家进行调试并予以解决，以改善模型收敛性并使梯度下降过程稳定。

当您遇到损失不收敛、权重和梯度消失或迸发等模型训练问题时，需要访问张量数据来深入探究和分析模型参数、标量和任何自定义指标。将 SageMaker AI 与配合使用 TensorBoard，您可以可视化从训练作业中提取的模型输出张量。当你尝试不同的模型、多个训练运行和模型超参数时，你可以在一个地方选择多个训练作业 TensorBoard 并进行比较。

**对于管理员**

如果您是 Amazon 账户或 SageMaker A [SageMaker I 域](https://docs.amazonaws.cn/sagemaker/latest/dg/sm-domain.html)的管理员，则可以通过 AI 控制台或 SageMaker AI 域中的 TensorBoard 登录页面管理 TensorBoard 应用程序用户。只要获得授予的权限，每个域用户都可以访问自己的 TensorBoard 应用程序。作为 A SageMaker I 域管理员和域用户，您可以根据自己的权限级别创建和删除 TensorBoard 应用程序。

**注意**  
您无法出于协作目的共享 TensorBoard 应用程序，因为 SageMaker AI 域不允许在用户之间共享应用程序。如果用户有权访问 S3 存储桶，则可以共享 S3 存储桶中保存的输出张量。

## 支持的框架和 Amazon Web Services 区域
<a name="debugger-htb-support"></a>

 SageMaker 人工智能中的 TensorBoard 应用程序可用于以下机器学习框架和 Amazon Web Services 区域.

**框架**
+ PyTorch
+ TensorFlow
+ Hugging Face Transformers

**Amazon Web Services 区域**
+ 美国东部（弗吉尼亚州北部）(`us-east-1`)
+ 美国东部（俄亥俄州）(`us-east-2`)
+ 美国西部（俄勒冈州）(`us-west-2`)
+ 欧洲地区（法兰克福）(`eu-central-1`)
+ 欧洲地区（爱尔兰）(`eu-west-1`)

**注意**  
Amazon SageMaker AI 在`ml.r5.large`实例上 TensorBoard 运行，在 SageMaker AI 免费套餐或该功能的免费试用期结束后产生费用。有关更多信息，请参阅 [Amazon A SageMaker I 定价](https://www.amazonaws.cn/sagemaker/pricing/)。

**Topics**
+ [支持的框架和 Amazon Web Services 区域](#debugger-htb-support)
+ [准备训练作业以收集 TensorBoard 输出数据](debugger-htb-prepare-training-job.md)
+ [在 SageMaker AI 上访问 TensorBoard 应用程序](debugger-htb-access-tb.md)
+ [使用应用程序加载和可视化输出张量 TensorBoard](debugger-htb-access-tb-data.md)
+ [删除未使用的 TensorBoard 应用程序](debugger-htb-delete-app.md)