使用亚马逊自动开发模型 SageMaker Autopilot - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用亚马逊自动开发模型 SageMaker Autopilot

亚马逊 SageMaker Autopilot 是一种功能集,可自动执行自动机器学习 (AutoML) 过程的关键任务。它会探索您的数据,选择与问题类型相关的算法,并准备数据以便于模型训练和调整。Autopilot 在适当时将交叉验证重采样程序自动应用于所有候选算法,以测试其预测未受过训练的数据的能力。它还生成衡量标准来评估其机器学习模型候选项的预测质量。它通过自动化构成 AutoML 流程的这些关键任务来简化机器学习体验。它对所有通过性能测试的优化模型进行了排名。它会找到性能最佳的模型,您可以在通常需要的时间内部署该模型。

您可以通过不同的方式使用 Autopilot:在自动驾驶仪(因此得名)上或在各种程度的人工指导下(无需通过亚马逊进行编码)。 SageMaker Studio,或者使用其中一个代码Amazon开发工具包。Autopilot 目前支持回归以及二进制和多类分类问题类型。它支持格式化为 CSV 或 Paradic 文件的表格数据,其中每列都包含具有特定数据类型的要素,而每行都包含观测值。接受的列数据类型包括由逗号分隔数字字符串组成的数字、分类、文本和时间序列。Autopilot 支持在高达数百 GB 的大型数据集上构建机器学习模型。

Autopilot 还有助于解释模型如何使用为亚马逊开发的功能归因方法进行预测。 SageMaker 澄清。Autopilot 会自动生成一份报告,指示每个功能对于最佳候选人所做预测的重要性。这种可解释性功能可以使机器学习模型更容易理解Amazon客户。生成的模型治理报告可用于向风险和合规团队以及外部监管机构提供信息。

您可以完全了解数据处理方式以及为每个测试候选项选择、训练和调整模型的方式。这是由 Autopilot 为每个试用生成的笔记本提供的,其中包含用于探索数据和查找最佳候选人的代码。这些笔记本还提供教育工具来帮助您了解和进行自己的 ML 实验。您可以通过检查 Autopilot 公开的各种数据探索和候选定义笔记本来了解实验中各种输入和取舍的影响。您还可以通过自己修改笔记本并重新运行笔记本电脑,对表现较高的候选人进行进一步的实验。

下图概述了 Autopilot 管理的 AutoML 流程的主要任务。


      亚马逊使用的 AutoML 流程概述 SageMaker Autopilot.

使用 Amazon SageMaker,您可以按实际用量付费。您为其中的底层计算和存储资源付费 SageMaker 或者其他Amazon服务,取决于您的使用情况。有关 SageMaker 的使用成本的更多信息,请参阅Amazon SageMaker 定价.