使用笔记本实例构建模型 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

使用笔记本实例构建模型

机器学习 (ML) 从业人员使用 Amazon SageMaker 的最佳方式之一是使用 SageMaker 笔记本实例训练和部署 ML 模型。SageMaker 笔记本实例通过在 Amazon Elastic Compute Cloud (Amazon EC2) 上启动 Jupyter 服务器并通过以下软件包提供预配置的内核来帮助创建环境:Amazon SageMaker Python SDK、Amazon SDK for Python (Boto3)、Amazon Command Line Interface (Amazon CLI)、Conda、Pandas、深度学习框架库以及其他用于数据科学和机器学习的库。

使用 SageMaker Python SDK 进行机器学习

要在 SageMaker 笔记本实例中训练、验证、部署和评估 ML 模型,请使用 SageMaker Python SDK。SageMaker Python SDK 抽象 Amazon SDK for Python (Boto3) 和 SageMaker API 操作。该工具包使您能够集成和编排其他 Amazon 服务,例如用于保存数据和模型构件的 Amazon Simple Storage Service (Amazon S3),用于导入和服务 ML 模型的 Amazon Elastic Container Registry (ECR),用于训练和推理的 Amazon Elastic Compute Cloud (Amazon EC2)。

您还可以利用 SageMaker 的功能,帮助您处理完整 ML 周期的每个阶段:数据标注、数据预处理、模型训练、模型部署、预测性能评估,以及监控生产中的模型质量。

如果您是第一次使用 SageMaker,我们建议您按照端到端 ML 教程使用 SageMaker Python SDK。要查找开源文档,请参阅 Amazon SageMaker Python SDK

教程概述

本入门教程将引导您了解如何创建 SageMaker 笔记本实例,如何使用 Conda 环境打开带有预配置内核的 Jupyter 笔记本以进行机器学习,以及如何启动 SageMaker 会话以运行端到端 ML 周期。您将学习如何将数据集保存到与 SageMaker 会话自动配对的默认 Amazon S3 桶中,将 ML 模型的训练作业提交到 Amazon EC2,并通过托管或通过 Amazon EC2 进行批量推理来部署训练好的模型进行预测。

本教程明确展示了从 SageMaker 内置模型池中训练 XGBoost 模型的完整 ML 流程。您使用 US Adult Census 数据集,并评估经过训练的 SageMaker XGBoost 模型在预测个人收入方面的表现。