Amazon SageMaker 自动驾驶仪示例笔记本 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon SageMaker 自动驾驶仪示例笔记本

以下笔记本可作为实用动手操作示例,用于处理 Autopilot 的各种使用场景。

你可以在 SageMaker GitHub 示例存储库的autopilot目录中找到 Autopilot 的所有笔记本。

我们建议在 Studio Classic 中克隆完整的 Git 存储库,以便直接访问和运行笔记本。有关如何在 Studio Classic 中克隆 Git 存储库的信息,请参阅在 SageMaker Studio 经典版中克隆 Git 存储库

使用案例 描述
无服务器推理

默认情况下,Autopilot 允许将生成的模型部署到实时推理端点。在此存储库中,笔记本说明了如何将在 ENSEMBLINGHYPERPARAMETER OPTIMIZATION (HPO) 模式下训练的 Autopilot 模型部署到无服务器端点。无服务器端点会自动启动计算资源,并根据流量横向扩展和缩减,而无需选择实例类型或管理扩展策略。

自定义特征选择

Autopilot 会检查您的数据集,并运行多个候选模型,以找出数据预处理步骤、机器学习算法和超参数的最佳组合。您可以轻松地将其部署在实时端点,也可用于批量处理。

在某些情况下,您可能希望能够灵活地将自定义数据处理代码引入 Autopilot。例如,您的数据集可能包含大量自变量,您可能希望加入一个自定义特征选择步骤,以便首先移除不相关的变量。这样得到的较小的数据集可用于启动 Autopilot 作业。最终,您可能还希望包括自定义处理代码和来自 Autopilot 的模型,以进行实时或批量处理。

管道示例

虽然 Autopilot 简化了构建机器学习模型的过程,但MLOps工程师仍负责在生产环境中创建、自动化和管理 end-to-end机器学习工作流程。 SageMaker 管道可以帮助自动执行机器学习生命周期的各个步骤,例如数据预处理、模型训练、超参数调整、模型评估和部署。本笔记本演示了如何将 Autopilot 整合到 Pipelines Auto SageMaker M end-to-end L 训练工作流程中。要在 Pipelines 中启动 Autopilot 实验,您必须使用 Pipelines Lambda处理步骤编写自定义集成代码,从而创建模型构建工作流。有关更多信息,请参阅使用 Amazon Pip elines 将 Amazon A SageMaker utopilot 机器学习模型从实验转移到生产。 SageMaker

或者,在 E nsembling 模式下使用 Autopilot 时,你可以参考笔记本示例,该示例演示了如何在 Pipeline 的原生 AutoML 步骤中使用原生 Aut SageMaker o ML 步骤。Pipelines 中支持将自动驾驶作为原生步骤,你现在可以在管道中添加自动训练步骤 (A utoMLStep),并在 Ensembling 模式下调用自动驾驶实验。

使用 Amazon A SageMaker utopilot 进行直销

本笔记本演示了如何使用银行营销数据集来预测客户是否会在银行注册定期存款。您可以对此数据集使用 Autopilot,通过探索各种候选管道中包含的选项来获得最精确的 ML 管道。Autopilot 在一个两步过程中生成每个候选模型。第一步对数据集执行自动实施的特征工程。第二步训练和优化算法以生成模型。此笔记本包含了说明,介绍如何训练模型以及如何部署模型以使用最佳候选模型执行批量推理。

使用 Amazon A SageMaker utopilot 预测客户流失

本笔记本介绍了使用机器学习自动识别不满意的客户,也称为客户流失预测。此示例说明如何分析公开提供的数据集并对其执行特征工程。接下来,它展示如何通过选择性能最佳的管道以及用于训练算法的最佳超参数来优化模型。最后,它演示如何将模型部署到托管端点,以及如何根据基本事实评估其预测结果。但是,ML 模型很少能给出完美的预测。因此,此笔记本还演示了在确定使用 ML 的财务结果时,如何考虑预测错误的相对成本。

使用 Amazon SageMaker 自动驾驶仪和批量转换 (Python) 预测最佳候选客户流失 SDK

本笔记本还介绍了使用机器学习自动识别不满意的客户,也称为客户流失预测。此笔记本演示了如何配置模型以获取推理概率、选择前 N 个模型以及在留存测试集上进行批量转换以进行评估。

注意

这款笔记本适用于 2020 年 6 月 19 日发布SDK的 >= 1.65.1 的 SageMaker Python。

将自己的数据处理代码带到 Amazon A SageMaker utopilot

本笔记本演示了在使用 Amazon A SageMaker utopilot 时如何合并和部署自定义数据处理代码。它添加了自定义特征选择步骤,以删除 Autopilot 作业中不相关的变量。然后,它展示了如何在实时端点上部署自定义处理代码和 Autopilot 生成的模型,或者用于批处理。

更多笔记本

在根目录中,您可以找到更多说明其他使用场景的笔记本,例如批量转换时间序列预测等。