使用 Amazon 进行机器学习概述 SageMaker - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon 进行机器学习概述 SageMaker

本节介绍典型的机器学习 (ML) 工作流程,并介绍如何使用 Amazon 完成这些任务 SageMaker。

在机器学习中,你计算机做出预测或推断。首先,您使用一种算法和示例数据来训练模型。然后,您将模型集成到应用程序中,以实时和大规模地生成推论。

下图显示了创建 ML 模型的典型工作流程。它包括循环流程中的三个阶段,我们将在下图中详细介绍这些阶段:

  • 生成示例数据

  • 训练模型

  • 部署模型

机器学习模型创建的三个阶段,包括生成示例数据、训练模型和部署模型。

该图显示了在大多数典型场景中如何执行以下任务:

  1. 生成示例数据-要训练模型,您需要示例数据。您需要的数据类型取决于您希望模型解决的业务问题。这与您希望模型生成的推论有关。例如,如果要创建一个模型来预测手写数字的输入图像中的数字。要训练这个模型,你需要手写数字的示例图像。

    数据科学家通常会花时间探索和预处理示例数据,然后再将其用于模型训练。要对数据进行预处理,您通常执行以下操作:

    1. 获取数据-您可能有内部示例数据存储库,或者可能使用公开可用的数据集。通常,您将一个或多个数据集提取到单个存储库中。

    2. 清理数据-要改进模型训练,请根据需要检查数据并对其进行清理。例如,如果您的数据具有值为的country name属性 United StatesUS,则可以编辑数据以保持一致。

    3. 准备或转换数据-为了提高性能,您可以执行其他数据转换。例如,您可以选择组合模型的属性,以预测飞机需要除冰的情况。您可以将这些属性组合成一个新属性以获得更好的模型,而不必单独使用温度和湿度属性。

    在中 SageMaker,您可以在集成开发环境 (IDE) 中使用 SageMaker Python SDK 使用 SageMaker API 对示例数据进行预处理。使用适用于 Python 的 SDK (Boto3),您可以获取、浏览和准备数据以进行模型训练。有关数据准备、处理和转换数据的信息,请参阅关于选择正确的数据准备工具的建议 SageMaker使用处理作业来运行数据转换工作负载、和通过功能商店创建、存储和共享功能

  2. 训练模型-模型训练包括训练和评估模型,如下所示:

  3. 部署模型 — 传统上,您需要先重新设计模型,然后再将其与应用程序集成并进行部署。借助 SageMaker 托管服务,您可以独立部署模型,从而将其与应用程序代码分离。有关更多信息,请参阅 部署模型用于推理

机器学习是连续的周期。部署模型后,您可以监控推论,收集更多高质量数据,并评估模型以识别偏差。然后,您可以更新训练数据以包含新收集的高质量数据,从而提高推断的准确性。随着更多示例数据可用,您可以继续重新训练模型以提高准确性。