本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用笔记本实例构建模型
机器学习 (ML) 从业者使用 Amazon 的最佳方式之一 SageMaker 是使用 SageMaker 笔记本实例训练和部署 ML 模型。 SageMaker 笔记本实例通过在亚马逊弹性计算云 (Amazon EC2) 上启动 Jupyter 服务器并为预配置的内核提供以下软件包来帮助创建环境:亚马逊 Pyth SageMaker on SDK、、 Amazon Command Line Interface (Amazon CLI)、Conda Amazon SDK for Python (Boto3)、Pandas、深度学习框架库以及其他用于数据科学和机器学习的库。
使用 SageMaker Python 软件开发工具包进行机器学习
要在 SageMaker 笔记本实例中训练、验证、部署和评估机器学习模型,请使用 SageMaker Python SDK。 SageMaker Python 开发工具包包含摘要 Amazon SDK for Python (Boto3) 和 SageMaker API 操作。它使您能够与其他 Amazon 服务集成和编排,例如用于保存数据和模型工件的亚马逊简单存储服务 (Amazon S3)、用于导入和服务机器学习模型的亚马逊弹性容器注册表 (ECR)、用于训练和推理的亚马逊弹性计算云 (Amazon EC2)、用于训练和推理的亚马逊弹性计算云 (Amazon EC2)。
您还可以利用一些 SageMaker 功能来帮助您处理完整机器学习周期的每个阶段:数据标注、数据预处理、模型训练、模型部署、预测性能评估以及监控生产中模型的质量。
如果您是初次使用的 SageMaker 用户,我们建议您按照 end-to-end 机器学习教程使用 SageMaker Python SDK。要查找开源文档,请参阅亚马逊 SageMaker Python 软件开发工具包
教程概述
本入门教程将引导你了解如何创建 SageMaker 笔记本实例,使用预先配置的内核打开 Jupyter 笔记本并使用 Conda 环境进行机器学习,以及如何启动运行机器学习周期的 SageMaker 会话。 end-to-end 您将学习如何将数据集保存到与会 SageMaker话自动配对的默认 Amazon S3 存储桶中,如何向 Amazon EC2 提交机器学习模型的训练作业,以及如何通过 Amazon EC2 托管或批量推理来部署经过训练的模型进行预测。
本教程明确展示了从 SageMaker 内置模型池训练 XGBoost 模型的完整机器学习流程。您使用美国成人人口普查数据集
-
SageMakerxgBoost — XGBoost
模型已适应 SageMaker 环境并预配置为 Docker 容器。 SageMaker提供了一套为使用 SageMaker 功能做好准备的内置算法。要详细了解机器学习算法适用于什么 SageMaker,请参阅选择算法并使用 Amazon SageMaker 内置算法。有关 SageMaker 内置算法 API 的操作,请参阅 Amaz SageMaker on Python 软件开发工具包 中的第一方算法 。 -
Adult Census 数据集
– 由 Ronny Kohavi 和 Barry Becker 创作的 1994 Census bureau 数据库 中的数据集(数据挖掘和可视化,Silicon Graphics)。 SageMaker XGBoost 模型使用此数据集进行训练,以预测个人年收入是否超过 50,000 美元或更少。