本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
SageMaker 自动驾驶
重要
自 2023 年 11 月 30 日起,作为更新后的亚马逊 SageMaker Studio 体验的一部分,Autopilot 的用户界面将迁移到亚马逊 SageMaker Canvas。 SageMaker Canvas 为数据科学家提供了无代码功能,可以完成数据准备、特征工程、算法选择、训练和调整、推理、持续模型监控等任务。 SageMaker Canvas 支持各种用例,包括计算机视觉、需求预测、智能搜索和生成式 AI。
Amazon SageMaker Studio Classic(之前的 Studio 使用体验)的用户可以继续使用 Studio Classic 中的自动驾驶用户界面。具有编码经验的用户可以继续使用任何支持的 SDK 中的所有 API 参考文献进行技术实现。
如果您之前一直在 Studio Classic 中使用 Autopilot 并想迁移到 SageMaker Canvas,则可能需要向您的用户个人资料或 IAM 角色授予额外权限,这样您才能创建和使用 SageMaker Canvas 应用程序。有关更多信息,请参阅 从 Studio Classic 中的自动驾驶仪迁移到 SageMaker 。
在迁移到 Amazon Canvas 之前,本指南中所有与 UI 相关的说明都与 Autopilot 的独立功能有关。 SageMaker 遵循这些说明的用户应使用 Studio Classic。
Amazon A SageMaker utopilot 是一款功能集,它通过自动化构建和部署机器学习模型 (AutoML) 的过程,来简化和加速机器学习工作流程的各个阶段。
Autopilot 执行以下关键任务,你可以在自动驾驶仪上使用这些任务,也可以在不同程度的人工指导下使用这些任务:
-
数据分析和预处理:Autopilot 可识别您的特定问题类型,处理缺失值,对数据进行标准化,选择特征,全面准备数据用于模型训练。
-
模型选择:Autopilot 探索了各种算法,并使用交叉验证重采样技术生成指标,以根据预定义的目标指标来评估算法的预测质量。
-
超参数优化:Autopilot 可自动搜索最佳超参数配置。
-
模型训练和评估:Autopilot 可自动执行各种模型候选模型的训练和评估过程。它将数据拆分为训练集和验证集,使用训练数据对选定的候选模型进行训练,并根据验证集中未用于训练的数据来评估其性能。最后,它根据模型的性能对优化候选模型进行排名,并确定性能最佳的模型。
-
模型部署:一旦Autopilot确定了性能最佳的模型,它就会提供通过生成模型工件和暴露API的端点来自动部署模型的选项。外部应用程序可以将数据发送到端点并接收相应的预测或推理。
Autopilot 支持在高达数百 GB 的大型数据集上构建机器学习模型。
下图概述了由 Autopilot 管理的 AutoML 流程的任务。
![Amazon A SageMaker utopilot AutoML 流程概述。](images/Autopilot-process-graphic-1.png)
根据您对机器学习过程和编码体验的接受程度,您可以通过不同的方式使用 Autopilot:
-
使用 Studio Classic 用户界面,用户可以在无代码体验或一定程度的人工输入之间进行选择。
注意
Studio Classic 用户界面仅提供根据回归或分类等问题类型的表格数据创建的实验。
-
使用 AutoML API,具有编码经验的用户可以使用可用的软件开发工具包来创建 AutoML 作业。这种方法提供了更大的灵活性和自定义选项,并且适用于所有问题类型。
Autopilot 目前支持以下问题类型:
注意
对于涉及表格数据的回归或分类问题,用户可以在两个选项之间进行选择:使用 Studio Classic 用户界面或 API 参考。
诸如文本和图像分类、时间序列预测以及大型语言模型的微调等任务仅通过 AutoML REST API 版本 2 提供。如果你选择的语言是 Python,你可以直接参考Amazon SDK for Python (Boto3)
喜欢用户界面便利性的用户可以使用 Amazon SageMaker Canv as 访问预训练模型和生成式 AI 基础模型,或者创建针对特定文本、图像分类、预测需求或生成式 AI 量身定制的自定义模型。
-
回归、二元分类和多元分类,使用 CSV 或 Parquet 文件格式的表格数据,其中每列包含具有特定数据类型的特征,每行包含一个观察数据。接受的列数据类型包括由数字、分类、文本和由逗号分隔数字字符串组成时间序列。
-
要使用 SageMaker API 参考创建自动驾驶任务作为试点实验,请参阅使用 AutoML API 为表格数据创建回归或分类作业。
-
要使用 Studio Classic 用户界面将自动驾驶任务创建为试点实验,请参阅使用 Studio Classic 用户界面为表格数据创建回归或分类自动驾驶实验。
-
-
文本分类,使用 CSV 或 Parquet 文件格式的数据,其中一列提供要分类的句子,而另一列应提供相应的类标签。请参阅 使用 API 创建用于文本分类的 AutoML 作业。
-
使用 PNG、JPEG 等图像格式或两使用 API 创建用于图像分类的 AutoML 作业者的组合进行图像@@ 分类。请参阅。
-
使用格式为 CSV 或 Parquet 文件的时间序列数据进行时间序列@@ 预测。请参阅。使用 API 创建用于时间序列预测的 AutoML 作业
-
微调大型语言模型 (LLM),以便使用格式为 CSV 或 Parq uet 文件格式的数据生成文本。请参阅。使用 API 创建 AutoML 作业以微调文本生成模型
此外,Autopilot 可自动生成显示每个特征重要性的报告,帮助用户了解模型如何进行预测。这有助于透明地了解影响预测的因素,可供风险与合规团队和外部监管机构使用。Autopilot 还提供模型性能报告,其中包括评估指标摘要、混淆矩阵、各种可视化内容,例如接收者操作特征曲线和查准率-查全率曲线等。每份报告的具体内容因 Autopilot 实验的问题类型而异。
自动驾驶实验中最佳候选模型的可解释性和性能报告适用于文本、图像和表格数据分类问题类型。
对于诸如回归或分类之类的表格数据用例,Autopilot 通过生成包含用于浏览数据和寻找性能最佳模型的代码的笔记本来进一步了解数据的处理方式以及模型候选对象是如何选择、训练和调整的。这些笔记本提供了一个交互式的探索性环境,可帮助您了解实验中各种输入的影响或权衡取舍。通过对 Autopilot 提供的数据探索和候选项定义笔记本进行自己的修改,您可以进一步实验更高性能的候选模型。
使用Amazon SageMaker,您只需为实际用量付费。您根据自己的使用情况为 SageMaker 或其他 Amazon 服务中的底层计算和存储资源付费。有关使用费用的更多信息 SageMaker,请参阅 Amazon SageMaker 定价