创建 Amazon SageMaker Autopilot 实验 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建 Amazon SageMaker Autopilot 实验

要创建 Amazon SageMaker 自动导航仪实验,您需要命名该实验,提供输入和输出数据的位置,指定要预测的目标数据,以及需要解决的机器学习问题的类型。作为试点实验创建 Amazon SageMaker Autopilot 作业时,SageMaker 会分析您的数据并创建包含候选模型定义的笔记本。如果您选择运行完整实验选项,SageMaker 还会代表您训练和优化这些模型。您可以在实验运行时查看统计信息。之后,您可以比较试验并深入研究细节。

  1. 打开 Amazon SageMaker Studio 并登录。

  2. 选择创建 Autopilot 实验选项自动构建模型

    
          启动创建 Amazon SageMaker Autopilot 实验页.
  3. 输入有关实验的信息,请在任务设置形式:

    • 实验名称— 您账户在当前账户中必须是唯一的Amazon区域和最多包含 63 个字母数字字符。可以包含连字符 (-),但不能包含空格。

      
              指定实验的名称。
    • 输入数据位置(S3 存储桶)— 包含输入数据的 S3 存储桶。

      
              指定输入数据的位置。
      注意

      必须是 Amazon SageMaker 具有写入权限的 s3://格式的 URL。S3 存储桶必须位于当前Amazon区域和必须为 CSV 格式,并且至少包含 500 行。

      • S3 存储桶名称— 存储桶名称在 S3 中的所有现有存储段名称中必须是唯一的。

      • S3 对象 key prefix— 存储桶中对象的文件名,包括存储桶内对象的路径。

      • S3 存储桶位置— S3 存储桶名称和 S3 对象 key prefix 的串联。

    • 您的 S3 是否输入清单文件? — 清单文件包含含输入数据的元数据。元数据指定数据在 Amazon S3 存储中的位置、数据格式化的方式以及在训练模型时要使用的数据集属性。在管道模式下对数据进行流式传输时,可以使用清单文件作为预处理的替代方法。

      
              指示 S3 输入数据是否位于清单文件中。
    • 目标属性名称— 希望模型针对预测的数据列的名称。

      
              指定要预测的目标变量的名称。
    • 输出数据位置(S3 存储桶)— 您希望将输出数据存储到的 S3 存储桶。

      
              指定输出数据的位置。
      注意

      必须是 Amazon SageMaker 具有写入权限的 s3://格式的 URL。S3 存储桶必须位于当前Amazon区域。

      • S3 存储桶名称— 存储桶名称在 S3 中的所有现有存储段名称中必须是唯一的。

      • S3 对象 key prefix— 存储桶中对象的文件名,包括存储桶内对象的路径。

      • S3 存储桶位置— S3 存储桶名称和 S3 对象 key prefix 的串联。

    • 选择机器学习问题类型:

      
              指定机器学习问题的类型。
      • Auto — SageMaker 从要预测的属性值中推断问题类型。在某些情况下,SageMaker 无法准确推断,在此情况下,您必须提供值才能使作业成功。

      • 二元分类 — 二元分类是一种受监督的学习类型,可根据个体的属性将个体分配给两个预定义且互斥的类别之一。例如,根据诊断测试的结果对个体是否患有疾病的医学诊断。

      • 回归 — 回归根据一个或多个与其相关的其他变量或属性来估计从属目标变量的值。例如,房价基于要素,如平方英尺和浴室数量。

      • 多类别分类 — 多类别分类是一种受监督的学习类型,可根据个体的属性将个体分配给多个类别之一。例如,预测与文本文档最相关的主题,例如政治、金融或哲学。

    • 你想运行一个完整的实验吗?

      
              指定试验是要运行到完成还是试点。

      如果选择,SageMaker 会生成模型和统计数据,您可以在实验运行时实时查看这些数据。实验完成后,您可以查看试验,按客观指标进行排序,并右键单击来部署模型以在其他环境中使用。

      如果选择,而不是执行整个工作流,而是在生成包含候选定义的笔记本后停止执行。候选项是数据预处理器、算法和算法参数设置的组合。您可以将笔记本用作起点来指导您自己的模型训练/优化过程。笔记本突出显示的部分都解释了典型的更改类型,例如更改实例类型、集群大小等。

  4. 要自动将最佳模型从自动驾驶仪实验部署到端点,请接受默认Auto 部署在 上创建实验时。

    
          Select决定使用自动部署。。

    选择 Create Experiment (创建实验)

    注意

    如果区域中终端节点实例的默认资源配额或客户配额受到限制,则自动部署将失败。目前的要求是,您需要至少有两个 ml.m5.2xlarge 实例。例如,欧盟北部 1 区域(斯德哥尔摩)不符合这一要求。此区域支持的实例类型列于欧洲(斯德哥尔摩)eu-北1 的 SageMaker 实例类型。如果遇到该问题,您可以请求提高 SageMaker 终端节点实例的服务限制,方法是按照 过程位于支持的区域和配额。在Case 详细信息面板中,选择SageMaker 终端节点(对于 )限制类型。适用于请求 1下,选择:

    • 区域欧洲(斯德哥尔摩)

    • 资源类型SageMaker 托管

    • 限制ml.m5.2xlarge(至少)

    • New 限制值2

    注意

    为避免产生不必要的费用,请在不再需要后删除部署模型时创建的终端节点和资源。有关按地区划分的实例定价的信息,请访问Amazon SageMaker 定价