使用 Studio 创建 Autopilot 实验 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

使用 Studio 创建 Autopilot 实验

使用 Studio 创建 Autopilot 实验
  1. 通过 https://console.aws.amazon.com/sagemaker/ 登录,从左侧导航窗格中选择 Studio,然后选择打开 Studio

  2. 在 Studio 中,从左侧导航窗格选择主页图标 ( 
              Home icon in Studio
            ) 以查看 Studio 的顶级导航菜单。

  3. 主页选项卡上,选择 AutoML 卡片。这将打开新的 AutoML 选项卡。

  4. 选择创建 AutoML 实验。这将打开新的创建实验选项卡。

  5. 实验和数据详细信息部分中,输入以下信息:

    1. 实验名称 – 对于您的账户,在当前 Amazon Web Services 区域 区域中必须唯一,且最多包含 63 个字母数字字符。可以包括连字符 (-),但不能包括空格。

    2. 输入数据 – 提供存储输入数据的 Amazon Simple Storage Service (Amazon S3) 存储桶的位置。此 S3 存储桶必须位于您当前的 Amazon Web Services 区域中。URL 必须为 s3:// 格式,且 Amazon SageMaker 具有其中的写入权限。文件必须采用 CSV 或 Parquet 格式,并且至少包含 500 行。选择浏览可滚动浏览可用路径,选择预览可查看输入数据的样本。

    3. 您的 S3 输入是清单文件吗? – 清单文件包括输入数据的元数据。元数据可指定数据在 Amazon S3 中的位置。它还指定了如何格式化数据以及训练模型时要使用数据集中的哪些属性。在 Pipe 模式下流式传输已标注数据时,您可以使用清单文件作为预处理的替代方法。

    4. 自动拆分数据? – Autopilot 可以将您的数据按照 80%-20% 的比例拆分,用于训练数据和验证数据。如果您偏好自定义拆分,则可以选择指定拆分比例。要为验证使用自定义数据集,请选择提供验证集

    5. 输出数据位置(S3 存储桶)– 存储输出数据的 S3 存储桶位置的名称。此存储桶的 URL 必须为 Amazon S3 格式,且 Amazon SageMaker 具有其中的写入权限。S3 存储桶必须在当前 Amazon Web Services 区域中。Autopilot 还可以在与输入数据相同的位置为您创建此内容。

  6. 选择下一步:目标和特征目标和特征选项卡打开。

  7. 目标和特征部分中:

    • 选择要设置为模型预测目标的列。

    • 或者,您可以在样本权重部分中传递样本权重列的名称,以请求在训练和评估期间对数据集行进行加权。有关可用目标指标的更多信息,请参阅 Autopilot 加权指标

      注意

      只有组合模式支持样本加权。

    • 您还可以选择要训练的特征并更改其数据类型。以下数据类型可用:TextNumericalCategoricalDatetimeSequenceAuto。所有特征均默认选定。

  8. 选择下一步:训练方法训练方法选项卡打开。

  9. 训练方法部分中,选择您的训练选项:组合超参数优化 (HPO),也可以选择自动以便让 Autopilot 根据数据集大小自动选择训练方法。每种训练模式都会在数据集中运行一组预定义的算法来训练候选模型。默认情况下,Autopilot 会预先选择给定训练模式的所有可用算法。您可以使用所有算法进行 Autopilot 训练实验,也可以自行选择算法子集。

    有关训练模式和可用算法的更多信息,请参阅训练模式和算法页面中的 Autopilot 训练模式部分。

  10. 选择下一步:部署和高级设置,打开部署和高级设置选项卡。设置中包括自动显示端点名称、机器学习问题类型以及用于运行实验的其他选项。

    1. 部署设置 – Autopilot 可以为您自动创建端点并部署模型。

      要自动部署到自动生成的端点,或者要提供端点名称以进行自定义部署,请将自动部署?下的切换开关设置为。如果您要从 Amazon SageMaker Data Wrangler 导入数据,则还有其他选项,可以用于选择在自动部署最佳模型时是否使用 Data Wrangler 的转换功能。

      注意

      如果您的 Data Wrangler 流程包含多行操作(例如 groupbyjoinconcatenate),则无法在使用这些转换时进行自动部署。有关更多信息,请参阅根据您的数据流自动训练模型

    2. 高级设置(可选) – Autopilot 提供了额外的控件来手动设置实验参数,例如定义问题类型、Autopilot 作业和试验时间限制、安全以及加密设置。

      1. 机器学习问题类型 – Autopilot 可以从您的数据集中自动推断有监督学习问题的类型。如果您偏好手动选择,则可以使用选择机器学习问题类型下拉菜单。请注意,该项默认为自动。在某些情况下,SageMaker 无法准确推断。出现这种情况时,您必须为作业提供值以使其成功。具体而言,您可以从以下类型中选择:

        • 二元分类 – 二元分类根据输入数据的属性,将输入数据分配到两个预定义的互斥类别之一,例如基于诊断测试结果的医学诊断,确定某人是否患有疾病。

        • 回归 – 回归在输入变量(也称为自变量或特征)与目标变量(也称为因变量)之间建立关系。这种关系是通过将输入变量映射到连续输出的数学函数或模型来捕获的。它通常适用的任务类型包括根据房间面积和浴室数量等特征预测房价,预测股票市场趋势或估算销售数字等。

        • 多元分类 – 多元分类根据输入数据的属性,将输入数据分配到几个类别之一,例如按照政治、金融或哲学等类别,预测与文本文档最相关的话题。

      2. 运行时间 – 您可以定义最大时间限制。达到时间限制后,超过时间限制的试验和作业将自动停止。

      3. 访问权限 – 您可以选择由 Amazon SageMaker Studio 代入的角色,以代表您获得对 Amazon Web Services(具体而言是 SageMaker 和 Amazon S3)的临时访问权限。如果没有明确定义角色,Studio 会自动使用附加到您的用户配置文件的默认 SageMaker 执行角色。

      4. 加密 – 为了增强静态数据的安全性并保护其免受未经授权的访问,您可以指定加密密钥,对您的 Amazon S3 存储桶和连接到 Studio 域的 Amazon Elastic Block Store (Amazon EBS) 卷中的数据进行加密。

      5. 安全 – 您可以选择运行您的 SageMaker 作业的虚拟私有云 (Amazon VPC)。确保 Amazon VPC 可以访问您的输入和输出 Amazon S3 存储桶。

      6. 项目 – 指定要与此 Autopilot 实验和模型输出关联的 SageMaker 项目的名称。当您指定项目时,Autopilot 会将该项目标记为实验。这可以让您知道哪些模型输出与此项目相关联。

      7. 标签 – 标签是键/值对数组。使用标签,按用途、所有者、环境或其他标准对 Amazon Web Services 中的资源进行分类。

    3. 选择下一步:查看并创建,以便在创建 Autopilot 实验之前查看其摘要。

  11. 选择创建实验。SageMaker 中即开始创建 Autopilot 作业。Autopilot 提供实验状态、笔记本中数据探索过程和候选模型的相关信息、生成的模型及其报告的列表以及用于创建这些模型的作业配置文件。

    有关 Autopilot 作业生成的笔记本的信息,请参阅为管理 AutoML 任务生成的 Amazon SageMaker Autopilot 笔记本。有关每个候选模型及其报告的详细信息,请参阅 由 Amazon SageMaker Autopilot 生成的模型

注意

为避免产生不必要的费用:如果您部署的模型不再需要,请删除该部署期间创建的端点和资源。有关按区域划分的定价实例的信息,请查看 Amazon SageMaker 定价