自定义模型的工作原理 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

自定义模型的工作原理

使用 Amazon SageMaker Canvas 在您导入的数据集上构建自定义模型。使用您构建的模型对新数据进行预测。 SageMaker Canvas 使用数据集中的信息构建多达 250 个模型,然后选择性能最好的模型。

当您开始构建模型时,Canvas 会自动推荐一种或多种模型类型。模型类型可分为以下几类:

  • 数值预测 – 这在机器学习中被称为回归。要对数值数据进行预测时,请使用数值预测模型类型。例如,您可能想根据房屋面积等特征预测房屋价格。

  • 分类预测 – 这在机器学习中被称为分类。当您希望将数据分类成组时,请使用分类预测模型类型:

    • 2 类别预测 – 当您要对数据进行两个类别的预测时,请使用 2 类别预测模型类型(在机器学习中也称为二元分类)。例如,您可能希望确定客户是否可能流失。

    • 3+ 类别预测 – 当您要对数据进行三个或更多类别的预测时,请使用 3+ 类别预测模型类型(在机器学习中也称为多元分类)。例如,您可能希望根据以往的付款情况等特征来预测客户的贷款状态。

  • 时间序列预测 - 当您要对一段时间进行预测时,可使用时间序列预测。例如,您可能想要预测下一季度将销售的商品数量。有关时间序列预测的信息,请参阅 Amazon SageMaker Canvas 中的时间序列预测

  • 图像预测 – 要为图像分配标签时,请使用单标签图像预测模型类型(在机器学习中也称为单标签图像分类)。例如,您可能希望对产品图片中不同类型的制造缺陷进行分类。

  • 文本预测 – 要为文本段落分配标签时,请使用多元文本预测模型类型(在机器学习中也称为多元文本分类)。例如,您可能有一个产品买家评论数据集,您想确定买家是喜欢还是不喜欢该产品。您可以让模型预测给定的文本段落是PositiveNegative还是Neutral

有关每种模型类型支持的输入数据类型的表,请参阅自定义模型

对于您构建的每个表格数据模型(包括数值、分类、时间序列预测和文本预测模型),您可以选择目标列目标列是包含要预测的信息的列。例如,如果您要构建一个模型来预测人们是否取消了订阅,则目标列包含的数据点为 yesno,都与某人的取消状态有关。

对于图像预测模型,您可以使用已分配标签的图像数据集来构建模型。对于您提供的未标注图像,模型会预测一个标签。例如,如果您要构建模型来预测图像是猫还是狗,则在构建模型时需要提供标注为猫或狗的图像。然后,模型可以接受未标注的图像并将其预测为猫或狗。

在构建模型时发生的情况

要构建模型,您可以选择快速构建标准构建快速构建的构建时间较短,但标准构建的精度通常更高。

对于表格预测模型和时间序列预测模型,Canvas 使用缩减采样来分别减小超过 5 GB 或 30 GB 的数据集的大小。Canvas 采用分层采样方法进行缩减采样。下表列出了按模型类型列出的缩减采样的大小。要控制采样过程,您可以使用 Canvas 中的 Data Wrangler,使用自己喜欢的采样技术进行采样。对于时间序列数据,您可以通过重新采样来汇总数据点。有关采样的更多信息,请参阅 采样。有关对时间序列数据进行重新采样的更多信息,请参阅 重新采样时间序列数据

如果您选择在超过 50000 行的数据集上进行快速构建,则 Canvas 会将数据采样到 50000 行,从而缩短模型训练时间。

下表总结了模型构建过程的主要特征,包括每个模型和构建类型的平均构建时间、使用大型数据集构建模型时的缩减采样大小,以及每个构建类型所需的最少和最多数据点数量。

限制 数值预测和分类预测 时间序列预测 图像预测 文本预测

快速构建时间

2‐20 分钟

2‐20 分钟

15‐30 分钟

15‐30 分钟

标准构建时间

2‐4 小时

2‐4 小时

2‐5 小时

2‐5 小时

缩减采样大小(Canvas 缩减采样后大型数据集的大小减小)

5 GB

30 GB

不适用

不适用

快速构建的最小条目(行)数

2 类别:500 行

3+ 类别、数值、时间序列:不适用

不适用

不适用

不适用

标准构建的最小条目数(行、图像或文档)

250

50

50

不适用

快速构建的最大条目数(行、图像或文档)

不适用

不适用

5000

7500

标准构建的最大条目数(行、图像或文档)

不适用

15万

180,000

不适用

最大列数

1000

1000

不适用

不适用

Canvas 使用数据集其余部分中的信息来预测值,具体取决于模型类型:

  • 对于分类预测,Canvas 将每行归入目标列中列出的类别之一。

  • 对于数值预测,Canvas 使用数据集中的信息来预测目标列中的数值。

  • 对于时间序列预测,Canvas 使用历史数据来预测未来目标列的值。

  • 对于图像预测,Canvas 使用已分配标签的图像来预测未标注图像的标签。

  • 对于文本预测,Canvas 会分析已分配标签的文本数据,以预测未标注文本段落的标签。

有助于您构建模型的其他功能

在构建模型之前,您可以使用 Canvas 中的 Data Wrangler,使用 300 多种内置转换和运算符准备数据。Data Wrangler 支持表格数据集和映像数据集的转换。此外,您还可以连接到 Canvas 以外的数据来源,创建作业对整个数据集进行转换,并导出经过充分准备和清理的数据,以用于 Canvas 之外的 ML 工作流程。有关更多信息,请参阅 数据准备

要查看可视化和分析结果以了解数据并确定在模型中包含哪些功能,您可以使用 Data Wrangler 的内置分析功能。您还可以访问数据质量和见解报告,此报告重点介绍了数据集的潜在问题,并提供了如何解决这些问题的建议。有关更多信息,请参阅 进行探索性数据分析 (EDA)

除了 Data Wrangler 提供的高级数据准备和探索功能外,Canvas 还提供了一些可供您使用的基本功能:

  • 要过筛选数据并访问一组基本数据转换,请参阅 为模型构建准备数据

  • 要访问用于功能探索的简单可视化和分析,请参阅 数据探索和分析

  • 要进一步了解其他功能,例如预览模型、验证数据集以及更改用于构建模型的随机样本的大小,请参阅预览模型

对于包含多列的表格数据集(例如用于构建分类、数值或时间序列预测模型类型的数据集),可能存在缺少数据点的行。当 Canvas 构建模型时,它会自动添加缺失值。Canvas 使用数据集中的值对缺失值进行数学近似计算。为了获得最高的模型精度,我们建议您在能找到缺失数据的情况下将其添加进来。请注意,文本预测或图像预测模型不支持缺失数据特征。

开始使用

要开始构建自定义模型,请参阅构建模型,按照要构建的模型类型的相应步骤进行操作。