使用 Amazon SageMaker 实验管理机器学习 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon SageMaker 实验管理机器学习

Amazon SageMaker 实验是 Amazon SageMaker 的一项功能,用于组织、跟踪、比较和评估机器学习实验。

机器学习是一个迭代过程。您需要试验数据、算法和参数的各种组合,同时观察增量变化对模型准确性的影响。随着时间的推移,这种迭代实验可能会导致成千上万的模型训练运行和产生不同的模型版本,从而难以跟踪性能最佳的模型及其输入配置。您也很难将现行的实验与过去的实验进行比较,以找出进一步改进的机会。

SageMaker 实验会以试验 的形式自动跟踪所有迭代的输入、参数、配置和结果。您可以对这些试验进行分配和分组,并将其组织为实验。SageMaker实验与 Amazon SageMaker Studio 集成在一起,提供了可视化界面,以浏览您的现行实验和过去的实验,比较试验的关键性能指标,并确定性能最佳的模型。

SageMaker 实验附带其自己的实验开发工具包,使分析功能可供在 Amazon SageMaker 笔记本中轻松使用。由于 SageMaker 实验可以跟踪创建模型所需的所有步骤和构件,因此在对生产环境中的问题进行故障排除或审计模型以进行合规性验证时,可以快速重新访问模型的源。

SageMaker 实验功能

以下各节简要概述了 SageMaker 实验提供的功能。

组织实验

Amazon SageMaker 实验提供了一个结构化的组织方案,帮助用户对其机器学习迭代进行分组和组织。顶级实体(实验)是作为一个组进行观察、比较和评估的试验 集合。试验是一组称为试验组件 的步骤。每个试验组件都可以包含数据集、算法和参数等输入的组合,并生成模型、指标、数据集和检查点等特定输出。试验组件示例包括数据预处理作业、训练作业和批量转换作业。

实验目的是确定生成最佳模型的试验。我们将执行多个试验,每个试验都会隔离和衡量更改一个或多个输入而保持其余输入不变的影响。通过分析试验,您可以确定哪些功能对模型的影响最大。

跟踪实验

通过 Amazon SageMaker 实验可以跟踪实验。

自动跟踪

SageMaker实验自动跟踪 Amazon SageMaker Autopilot 作业作为实验,并将其基础训练作业作为试验跟踪。SageMaker此外,无论作业已分配给试验还是未分配,SageMaker 实验还会将 独立执行的训练、批量转换和处理作业作为试验组件自动进行跟踪。未分配的试验组件可以在以后与试验相关联。包括数据集、算法、超参数和模型指标在内的所有实验构件都会予以跟踪和记录。这些数据允许客户跟踪模型的完整谱系,这有助于进行模型管理、审计和合规性验证。

手动跟踪

SageMaker 实验提供跟踪 APIs,用于记录和跟踪在 SageMaker Studio 笔记本(包括经典 SageMaker 笔记本)本地运行的机器学习工作流程。这些实验必须是 SageMaker 训练、批量转换或处理作业的一部分。

比较和评估实验

Amazon SageMaker 实验与 Amazon SageMaker Studio 集成。使用 SageMaker Studio 时,SageMaker 实验会自动跟踪您的实验和试验,并显示跟踪数据的可视化效果和用于搜索数据的界面。

SageMaker实验使用试验排行榜的概念根据所选指标对试验自动进行组织、排名和排序。SageMakerStudio 生成实时数据可视化内容(如指标图表和图表),以快速比较和确定性能最佳的模型。这些内容将随着实验的推进而实时更新。

Amazon SageMaker Autopilot

Amazon SageMaker 实验与 Amazon SageMaker Autopilot 集成。当您执行 Autopilot 作业时,SageMaker 实验会为该作业创建一个实验,并针对可用的试验组件、参数和构件的每个不同组合进行试验。您可以使用 SageMaker Studio 直观地深入了解所有试验和组件。