创建亚马逊 SageMaker Autopilot 实验 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建亚马逊 SageMaker Autopilot 实验

创建 Autopilot 作业作为试点实验时,Autopilot 会分析数据并创建包含候选模型定义的笔记本。如果您选择运行完整实验选项,Autopilot 还会代表您训练和优化这些模型。您可以在实验运行时查看统计信息。运行后,您可以比较试验并深入研究详细信息。

以下说明向您展示了如何创建 Amazon SageMaker Autopilot 实验。您将命名它,提供输入和输出数据的位置,并指定要预测的目标数据。另外,您还可以指定要解决的机器学习问题的类型。

  1. 打开亚马逊 SageMaker 工作室并登录。如果需要有关启动 Studio 的信息,请参阅使用 Amazon SageMaker Studio 启动器.

  2. 选择新 Autopilot 实验选项来自自动构建模型

    
          启动新亚马逊 SageMaker Autopilot 实验页.
  3. 基本设置的 部分创建 Autopilot 实验页:

    • 实验名称— 在当前账户中必须是唯一的Amazon区域且最多包含 63 个字母数字字符。可以包括连字符 (-) 但不能包括空格。

      
              指定实验名称。
    • Connect 你的数据— 提供 S3 存储桶名称和包含输入数据的数据集文件名。

      
              Autopilot 实验页面的 “Connect 数据” 部分中的 S3 存储桶名称和数据集文件名字段。
      注意

      亚马逊必须是 s3://格式的 URL SageMaker 具有写权限。S3 存储桶必须位于当前存储桶Amazon区域和文件必须为 CSV 或拼花格式,并且至少包含 500 行。

      • S3 存储桶名称— 存储桶名称在 Amazon S3 中的所有现有存储桶名称之间必须唯一。

      • S3 对象 key prefix— 存储桶中对象的文件名,包括存储桶内对象的路径。

      • S3 存储桶位置— S3 存储桶名称和 S3 对象 key prefix 的连接。

    • 你的 S3 输入是清单文件吗? — 清单文件包括带有输入数据的元数据。元数据指定数据在 Amazon S3 存储中的位置、数据的格式以及在训练模型时要使用的数据集中的哪些属性。在 Pipe 模式下流式传输标记的数据时,您可以使用清单文件作为预处理的替代方法。

      
              切换以指示 S3 输入数据是否位于清单文件中。
    • 目标— 希望模型针对的数据列名称以进行预测。

      
              Target 字段用于指定要预测的目标变量的名称。
    • 输出数据位置(S3 存储桶)— 要存储输出数据的 S3 存储桶和目录的名称。

      
              指定输出数据的位置。
      注意

      亚马逊必须是 s3://格式的 URL SageMaker 具有写权限。S3 存储桶必须位于当前存储桶Amazon区域。

      • S3 存储桶名称— 存储桶名称在 S3 中的所有现有存储桶名称之间必须唯一。

      • S3 对象 key prefix— 存储桶中对象的文件名,包括存储桶内对象的路径。

      • S3 存储桶位置— S3 存储桶名称和 S3 对象 key prefix 的连接。

  4. 高级设置-可选— Autopilot 提供额外的控件,允许您手动设置实验参数。

    • 机器学习问题类型— AutoPilot 可以自动选择机器学习问题类型。如果你更喜欢手动指定它,请使用选择机器学习问题类型下拉菜单。

      
              指定机器学习问题的类型。
      • 汽车— Autopilot 从要预测的属性值推断出问题类型。在某些情况下, SageMaker 无法准确推断。如果发生这种情况,您必须提供值才能使作业成功。

      • 二进制分类— 二元分类是一种受监督的学习类型,可根据个体的属性将个体分配给两个预定义且互斥的类别之一。例如,基于确定某人是否患有疾病的诊断测试结果进行医疗诊断。

      • 回归— 回归根据一个或多个与其相关的变量或属性来估计因果目标变量的值。例如,房价基于功能,例如平方英尺和浴室数量。

      • 多类别分类— 多类别分类是一种受监督的学习类型,可根据个体的属性将个体分配给多个类别之一。例如,预测与文本文档最相关的主题,如政治、金融或哲学。

    • 选择如何运行实验— 你可以指定如何运行你的实验。

      
              下拉菜单以选择是运行完整的实验还是运行试点。

      如果选择,Autopilot 会生成一个模型和统计数据,您可以在实验运行时实时查看这些数据。在实验完成后,您可以查看试验,按客观指标进行排序,并部署模型以在其他环境中使用。

      如果选择,而不是运行整个工作流程,而是在生成具有候选定义的笔记本之后,Autopilot 会停止运行。候选项是数据预处理器、算法和算法参数设置的组合。您可以将笔记本用作起点来指导您自己的模型训练/调整过程。笔记本的突出显示部分突出显示了解释典型更改,例如更改实例类型和集群大小。

    • 借助其他高级设置,您可以指定运行时限制和用于访问的 IAM 角色。您还可以指定加密密钥,以及是否使用虚拟私有云 (VPC) 来实现安全性、项目标签和标签。

      
              指定其他高级设置。

      工具提示中提供了每个高级设置的信息。

    • 要自动将自动驾驶实验中的最佳模型部署到端点,请接受默认值自动部署在 上创建实验时。

      
              SelectAuto deploy 值设置为开,此值是默认值。.
      注意

      如果默认资源配额或区域中终端节点实例的客户配额太有限,则自动部署将失败。目前,您需要至少有两个 ml.m5.2xlarge 实例。欧洲-北 1 区域(斯德哥尔摩)不符合此要求。此区域支持的实例类型列于欧洲(斯德哥尔摩)中的 SageMaker 实例类型 eu-north-1. 如果遇到此问题,您可以请求提高服务限制 SageMaker 通过遵循 过程在支持的区域和配额. 在案例详细信面板中,选择SageMaker 端节点(对于 )限制类型. 适用于请求 1,请选择:

      • 区域欧洲(斯德哥尔摩)

      • 资源类型SageMaker 托管

      • 限制ml.m5.2xlarge(至少)

      • 新限制值2

  5. Select创建实验. 自动驾驶仪提供了实验过程中的状态。

    
          创建亚马逊的状态 SageMaker Autopilot 实验。
注意

为避免产生不必要的费用:如果部署不再需要的模型,请删除在该部署期间创建的终端节点和资源。有关按区域划分的定价实例的信息,请访亚马逊 SageMaker 定价.