世系跟踪实体 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

世系跟踪实体

跟踪实体保留端到端机器学习工作流中所有元素的表示形式。您可以使用此表示形式来建立模型治理,重现工作流和维护工作历史记录。

当您创建 SageMaker 作业(如处理作业、训练作业和批量转换作业)时,Amazon SageMaker 会自动为试验组件及其相关的试验和实验创建跟踪实体。除了自动跟踪之外,您还可以手动创建跟踪实体,对工作流中的自定义步骤进行建模。有关更多信息,请参阅 使用 Amazon SageMaker Experiments 管理机器学习

SageMaker 还会自动为工作流中的其他步骤创建跟踪实体,以便您从头到尾跟踪工作流。有关更多信息,请参阅 Amazon SageMaker 创建的跟踪实体

您可以创建其他实体来补充 SageMaker 创建的实体。有关更多信息,请参阅手动创建跟踪实体

SageMaker 会重复使用任何现有实体,而不是创建新实体。例如,只能有一个具有唯一 SourceUri 的构件。

用于查询世系的关键概念
  • 世系 - 跟踪机器学习工作流中各实体之间关系的元数据。

  • QueryLineage - 检查您的世系并发现实体之间关系的操作。

  • 世系实体 - 构成您的世系的元数据元素。

  • 跨账户世系 - 您的机器学习工作流可能跨多个账户。使用跨账户世系,您可以配置多个账户,以便在共享实体资源之间自动创建世系关联。这样,QueryLineage 甚至可以从这些共享账户返回实体。

定义了以下跟踪实体:

实验实体
  • 试验组件 - 机器学习试验的一个阶段。包括处理作业、训练作业和批量转换作业。

  • 试验 - 试验组件组合,通常会生成一个模型。

  • 实验 - 试验分组,通常侧重于解决特定使用案例。

世系实体
  • 试验组件 - 表示世系中的处理、训练和转换作业。也是实验管理的一部分。

  • 上下文 - 提供其他跟踪或实验实体的逻辑分组。从概念上讲,实验和试验都是上下文。示例包括端点和模型包。

  • 操作 - 表示操作或活动。通常,一项操作至少涉及一个输入构件或输出构件。示例包括工作流步骤和模型部署。

  • 构件 - 表示 URI 可寻址的对象或数据。构件通常是试验组件或操作的输入或输出。示例包括数据集(S3 存储桶 URI)或映像(Amazon ECR 注册表路径)。

  • 关联 - 链接其他跟踪或实验实体,如训练数据位置与训练作业之间的关联。

    关联具有可选 AssociationType 属性。下面列出了可用值以及为每种类型建议的用法。SageMaker 对它们的使用没有任何限制:

    • ContributedTo - 源对目标做出了贡献或参与促成了目标。例如,训练数据为训练作业做出了贡献。

    • AssociatedWith - 源已连接到目标。例如,批准工作流与模型部署相关联。

    • DerivedFrom - 目标是对源的修改。例如,处理作业的通道输入的摘要输出派生自原始输入。

    • Produced - 源生成了目标。例如,训练作业生成了一个模型构件。

    • SameAs - 当在不同账户中使用相同的世系实体时。

常用属性

  • 类型属性

    操作、构件和上下文实体的类型 属性分别为 ActionTypeArtifactTypeContextType。此属性是一个自定义字符串,可以将有意义的信息与实体相关联,并可用作 List API 中的筛选条件。

  • 源属性

    操作、构件和上下文实体都有一个 Source 属性。此属性提供了实体所代表的底层 URI。部分示例包括:

    • UpdateEndpoint 操作,其中源为 EndpointArn

    • 用于处理作业的映像构件,其中源为 ImageUri

    • 上下文 Endpoint,其中源为 EndpointArn

  • 元数据属性

    操作和构件实体具有可选 Metadata 属性,可以提供以下信息:

    • ProjectId - 例如,模型所属的 SageMaker MLOps 项目的 ID。

    • GeneratedBy - 例如,注册了模型包版本的 SageMaker 管道执行。

    • Repository - 例如,包含算法的存储库。

    • CommitId - 例如,算法版本的提交 ID。