使用 Amazon 进行机器学习概述 SageMaker - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon 进行机器学习概述 SageMaker

本节介绍典型的机器学习 (ML) 工作流程,并总结了如何使用 Amazon 完成这些任务 SageMaker。

在机器学习中,你计算机做出预测或推断。首先,您使用一种算法和示例数据来训练模型。然后,您将模型集成到应用程序中,以实时且大规模地生成推理。

下图说明了创建机器学习模型的典型工作流程。它包括循环流程中的三个阶段,我们将在下面详细介绍:生成示例数据、训练模型和部署模型。

该图说明了在大多数典型场景中如何执行以下活动:

  1. 生成示例数据-要训练模型,您需要示例数据。所需数据的类型取决于您希望模型解决的业务问题 (您希望模型生成的推理)。例如,假设您要创建一个模型来预测手写数字的输入图像中的数字。要训练此类模型,您需要手写体数字的示例图像。

    数据科学家通常会花时间探索和预处理示例数据,然后再将其用于模型训练。要对数据进行预处理,您通常执行以下操作:

    1. 获取数据-您可能有内部示例数据存储库,或者可能使用公开的数据集。通常,您将一个或多个数据集提取到单个存储库中。

    2. 清理数据-要改进模型训练,请根据需要检查数据并对其进行清理。例如,如果您的数据具有值为的country name属性 United StatesUS,则可以编辑数据以保持一致。

    3. 准备或转换数据-为了提高性能,您可以执行其他数据转换。例如,您可以选择合并属性。如果您的模型预测了需要飞机除冰的情况,则可以将这些属性组合成一个新属性以获得更好的模型,而不是单独使用温度和湿度属性。

    在中 SageMaker,您可以在集成开发环境 (IDE) 中使用 SageMaker Python SDK 使用 SageMaker API 对示例数据进行预处理。使用适用于 Python 的 SDK (Boto3),您可以获取、浏览和准备数据以进行模型训练。有关数据准备、处理和转换数据的信息,请参阅准备数据使用处理作业来运行数据转换工作负载、和通过功能商店创建、存储和共享功能

  2. 训练模型-模型训练包括训练和评估模型,如下所示:

    • 训练模型-要训练模型,需要算法或预训练的基础模型。您选择的算法取决于许多因素。对于内置解决方案,您可以使用 SageMaker 提供的算法之一。有关提供的算法列表 SageMaker 和相关注意事项,请参阅使用 Amazon SageMaker 内置算法或预训练模型。有关提供算法和模型的基于 UI 的训练解决方案,请参阅 SageMaker JumpStart

      您还需要适用于训练的计算资源。根据训练数据集的大小以及需要获得结果的速度,您可以使用从单个通用实例到 GPU 实例的分布式集群等各种资源。有关更多信息,请参阅使用 Amazon 训练模型 SageMaker

    • 评估模型-训练模型后,对其进行评估以确定推断的准确性是否可接受。要训练和评估您的模型,您可以使用 SageMaker Python SDK 通过其中一个可用的 IDE 向模型发送推断请求。有关评估模型的更多信息,请参阅监控数据和模型质量

  3. 部署模型 — 传统上,您需要先重新设计模型,然后再将其与应用程序集成并进行部署。借助 SageMaker 托管服务,您可以独立部署模型,从而将其与应用程序代码分离。有关更多信息,请参阅部署模型用于推理

机器学习是连续的周期。部署模型后,您可以监控推论,收集更多高质量数据,并评估模型以识别偏差。然后,您可以更新训练数据以包含新收集的高质量数据,从而提高推断的准确性。随着更多示例数据可用,您可以继续重新训练模型以提高准确性。