使用 Studio Classic 用户界面为表格数据创建回归或分类 Autopilot 实验

重要

自 2023 年 11 月 30 日起，作为更新后的亚马逊 SageMaker Studio 体验的一部分，Autopilot 的用户界面将迁移到亚马逊 SageMaker Canvas。 SageMaker Canvas 为分析师和公民数据科学家提供了无需代码的功能，可以完成数据准备、特征工程、算法选择、训练和调整、推理等任务。用户可以利用内置的可视化和假设分析功能来探索数据和不同场景，并通过自动预测功能轻松生成模型。Canvas 支持各种使用场景，包括计算机视觉、需求预测、智能搜索和生成式人工智能。

Amazon SageMaker Studio Classic（之前的 Studio 使用体验）的用户可以继续使用 Studio Classic 中的自动驾驶用户界面。有编码经验的用户可以继续使用任何支持的 SDK 中的所有 API 参考进行技术实施。

如果您之前一直在 Studio Classic 中使用 Autopilot 并想迁移到 SageMaker Canvas，则可能需要向您的用户个人资料或 IAM 角色授予额外权限，这样您才能创建和使用 SageMaker Canvas 应用程序。有关更多信息，请参阅（可选）从 Studio 经典版中的自动驾驶仪迁移到 SageMaker Canvas。

在迁移到 Amazon Canvas 之前，本指南中所有与 UI 相关的说明都与 Autopilot 的独立功能有关。 SageMaker 按照这些说明操作的用户应使用 Studio Classic。

您可以使用 Amazon SageMaker Studio Classic 用户界面针对表格数据的分类或回归问题创建自动驾驶实验。用户界面可帮助您指定实验名称，提供输入和输出数据的位置，并指定要预测的目标数据。您还可以选择指定要解决的问题类型（回归、分类、多分类器）、选择建模策略（堆叠集合或超参数优化）、选择 Autopilot 任务用于训练数据的算法列表等。

UI 包含描述、切换开关、下拉菜单、单选按钮等，可引导您浏览如何创建候选模型。实验运行后，您可以比较试验，并深入研究每个模型的预处理步骤、算法和超参数范围的详细信息。您还可以选择下载它们的解释功能和性能报告。使用提供的笔记本查看自动数据探索的结果或候选模型定义。

或者，您也可以使用使用 AutoML API 为表格数据创建回归或分类作业中的 Autopilot AutoML API。

要使用 Studio Classic 用户界面创建 Autopilot 实验

登录 https://console.aws.amazon.com/sagemaker/，从左侧导航窗格中选择 Studio，选择您的域和用户个人资料，然后选择 Ope n Studio。
在 Studio 中，选择左上角导航窗格中的 Studio Classic 图标。这将打开 Studio Classic 应用程序。
从您选择的空间运行或打开 Studio Classic 应用程序，或创建 Studio Classic 空间。在主页选项卡上，选择 AutoML 卡片。这将打开新的 AutoML 选项卡。
选择创建 AutoML 实验。这将打开新的创建实验选项卡。
在实验和数据详细信息部分中，输入以下信息：
1. 实验名称-当前账户必须是唯一的， Amazon Web Services 区域并且最多包含 63 个字母数字字符。可以包括连字符 (-)，但不能包括空格。
2. 输入数据 – 提供存储输入数据的 Amazon Simple Storage Service (Amazon S3) 存储桶的位置。此 S3 存储桶必须位于您当前的 Amazon Web Services 区域中。网址必须采用 Amazon A SageMaker I 具有写入权限的s3://格式。文件必须采用 CSV 或 Parquet 格式，并且至少包含 500 行。选择浏览可滚动浏览可用路径，选择预览可查看输入数据的样本。
3. 您的 S3 输入是清单文件吗？ – 清单文件包括输入数据的元数据。元数据可指定数据在 Amazon S3 中的位置。它还指定了如何格式化数据以及训练模型时要使用数据集中的哪些属性。在 Pipe 模式下流式传输已标注数据时，您可以使用清单文件作为预处理的替代方法。
4. 自动拆分数据？ – Autopilot 可以将您的数据按照 80%-20% 的比例拆分，用于训练数据和验证数据。如果您偏好自定义拆分，则可以选择指定拆分比例。要为验证使用自定义数据集，请选择提供验证集。
5. 输出数据位置（S3 存储桶）– 存储输出数据的 S3 存储桶位置的名称。此存储桶的 URL 必须采用 Amazon A SageMaker I 具有写入权限的 Amazon S3 格式。S3 存储桶必须在当前 Amazon Web Services 区域中。Autopilot 还可以在与输入数据相同的位置为您创建此内容。
选择下一步：目标和特征。目标和特征选项卡打开。
在目标和特征部分中：
- 选择要设置为模型预测目标的列。
- 或者，您可以在样本权重部分中传递样本权重列的名称，以请求在训练和评估期间对数据集行进行加权。有关可用目标指标的更多信息，请参阅 Autopilot 加权指标。
  
  注意
  只有组合模式支持样本加权。
- 您还可以选择要训练的特征并更改其数据类型。以下数据类型可用：Text、Numerical、Categorical、Datetime、Sequence 和 Auto。所有特征均默认选定。
选择下一步：训练方法。训练方法选项卡打开。
在训练方法部分中，选择您的训练选项：组合、超参数优化 (HPO)，也可以选择自动以便让 Autopilot 根据数据集大小自动选择训练方法。每种训练模式都会在数据集中运行一组预定义的算法来训练候选模型。默认情况下，Autopilot 会预先选择给定训练模式的所有可用算法。您可以使用所有算法进行 Autopilot 训练实验，也可以自行选择算法子集。

有关训练模式和可用算法的更多信息，请参阅训练模式和算法页面中的 Autopilot 训练模式部分。
选择下一步：部署和高级设置，打开部署和高级设置选项卡。设置中包括自动显示端点名称、机器学习问题类型以及用于运行实验的其他选项。
1. 部署设置 – Autopilot 可以为您自动创建端点并部署模型。
  
  要自动部署到自动生成的端点，或者要提供端点名称以进行自定义部署，请将自动部署？下的切换开关设置为是。如果您要从 Amazon Data Wrangler 导入 SageMaker 数据，则无论是否使用 Data Wrangler 的转换，您都有其他选项可以自动部署最佳模型。
  
  注意
  如果您的 Data Wrangler 流程包含多行操作（例如 groupby、join 或 concatenate），则无法在使用这些转换时进行自动部署。有关更多信息，请参阅根据您的数据流自动训练模型。
2. 高级设置（可选） – Autopilot 提供了额外的控件来手动设置实验参数，例如定义问题类型、Autopilot 作业和试验时间限制、安全以及加密设置。
  1. 机器学习问题类型 – Autopilot 可以从您的数据集中自动推断有监督学习问题的类型。如果您偏好手动选择，则可以使用选择机器学习问题类型下拉菜单。请注意，该项默认为自动。在某些情况下， SageMaker 人工智能无法准确推断。出现这种情况时，您必须为作业提供值以使其成功。具体而言，您可以从以下类型中选择：
    - 二元分类 – 二元分类根据输入数据的属性，将输入数据分配到两个预定义的互斥类别之一，例如基于诊断测试结果的医学诊断，确定某人是否患有疾病。
    - 回归 – 回归在输入变量（也称为自变量或特征）与目标变量（也称为因变量）之间建立关系。这种关系是通过将输入变量映射到连续输出的数学函数或模型来捕获的。它通常适用的任务类型包括根据房间面积和浴室数量等特征预测房价，预测股票市场趋势或估算销售数字等。
    - 多元分类 – 多元分类根据输入数据的属性，将输入数据分配到几个类别之一，例如按照政治、金融或哲学等类别，预测与文本文档最相关的话题。
  2. 运行时间 – 您可以定义最大时间限制。达到时间限制后，超过时间限制的试验和作业将自动停止。
  3. 访问权限 — 您可以选择由 Amazon SageMaker Studio Classic 担任的角色来代表您获得临时访问权限 Amazon Web Services 服务（特别是 A SageMaker I 和 Amazon S3）。如果没有明确定义角色，Studio Classic 会自动使用附加到您的用户配置文件的默认 SageMaker AI 执行角色。
  4. 加密：为了增强静态数据的安全性并保护其免受未经授权的访问，您可以指定加密密钥，对您的 Amazon S3 存储桶和连接到 Studio Classic 域的 Amazon Elastic Block Store (Amazon EBS) 卷中的数据进行加密。
  5. 安全 — 您可以选择运行 SageMaker 人工智能任务的虚拟私有云 (Amazon VPC)。确保 Amazon VPC 可以访问您的输入和输出 Amazon S3 存储桶。
  6. 项目 — 指定要与此自动驾驶实验和模型输出关联的 A SageMaker I 项目的名称。当您指定项目时，Autopilot 会将该项目标记为实验。这可以让您知道哪些模型输出与此项目相关联。
  7. 标签 – 标签是键/值对数组。使用标签对您的资源进行分类 Amazon Web Services 服务，例如其用途、所有者或环境。
3. 选择下一步：查看并创建，以便在创建 Autopilot 实验之前查看其摘要。
选择创建实验。创建实验会启动 A SageMaker I 中的自动驾驶作业。Autopilot 提供实验状态、笔记本中数据探索过程和候选模型的相关信息、生成的模型及其报告的列表以及用于创建这些模型的作业配置文件。

有关 Autopilot 作业生成的笔记本的信息，请参阅为管理 AutoML 任务生成的 Autopilot 笔记本。有关每个候选模型及其报告的详细信息，请参阅查看模型详细信息和查看 Autopilot 模型性能报告。

注意

为避免产生不必要的费用：如果您部署的模型不再需要，请删除该部署期间创建的端点和资源。有关按地区划分的实例定价信息，请访问 Amazon Pric SageMaker ing。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

模型部署和预测

配置 Autopilot 实验的默认参数（面向管理员）