构建自定义模型 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

构建自定义模型

使用 Amazon SageMaker Canvas 基于您导入的数据集构建自定义模型。使用您构建的模型对新数据进行预测。SageMaker Canvas 使用数据集中的信息构建多达 250 个模型,并选择性能最佳的模型。

当您开始构建模型时,Canvas 会自动推荐一种或多种模型类型。模型类型可分为以下几类:

  • 数值预测 – 这在机器学习中被称为回归。要对数值数据进行预测时,请使用数值预测模型类型。例如,您可能想根据房屋面积等特征预测房屋价格。

  • 分类预测 – 这在机器学习中被称为分类。当您希望将数据分类成组时,请使用分类预测模型类型:

    • 2 类别预测 – 当您要对数据进行两个类别的预测时,请使用 2 类别预测模型类型(在机器学习中也称为二元分类)。例如,您可能希望确定客户是否可能流失。

    • 3+ 类别预测 – 当您要对数据进行三个或更多类别的预测时,请使用 3+ 类别预测模型类型(在机器学习中也称为多元分类)。例如,您可能希望根据以往的付款情况等特征来预测客户的贷款状态。

  • 时间序列预测 - 当您要对一段时间进行预测时,可使用时间序列预测。例如,您可能想要预测下一季度将销售的商品数量。有关时间序列预测的信息,请参阅 Amazon SageMaker Canvas 中的时间序列预测

  • 图像预测 – 要为图像分配标签时,请使用单标签图像预测模型类型(在机器学习中也称为单标签图像分类)。例如,您可能希望对产品图片中不同类型的制造缺陷进行分类。

  • 文本预测 – 要为文本段落分配标签时,请使用多元文本预测模型类型(在机器学习中也称为多元文本分类)。例如,您可能有一个产品买家评论数据集,您想确定买家是喜欢还是不喜欢该产品。您可以让模型预测给定的文本段落是PositiveNegative还是Neutral

有关每种模型类型支持的输入数据类型的表,请参阅使用自定义模型

对于您构建的每个表格数据模型(包括数值、分类、时间序列预测和文本预测模型),您可以选择目标列目标列是包含要预测的信息的列。例如,如果您要构建一个模型来预测人们是否取消了订阅,则目标列包含的数据点为 yesno,都与某人的取消状态有关。

对于图像预测模型,您可以使用已分配标签的图像数据集来构建模型。对于您提供的未标注图像,模型会预测一个标签。例如,如果您要构建模型来预测图像是猫还是狗,则在构建模型时需要提供标注为猫或狗的图像。然后,模型可以接受未标注的图像并将其预测为猫或狗。

在构建模型时发生的情况

要构建模型,您可以选择快速构建标准构建快速构建的构建时间较短,但标准构建的精度通常更高。下表概述了每种模型和构建类型的平均构建时间,以及每种构建类型应具有的最小和最大数据点数量。

限制 数值预测和分类预测 时间序列预测 图像预测 文本预测

快速构建时间

2‐20 分钟

2‐20 分钟

15‐30 分钟

15‐30 分钟

标准构建时间

2‐4 小时

2‐4 小时

2‐5 小时

2‐5 小时

快速构建的最大条目数(行或图像)

50000

50000

5000

7500

如果您在运行快速构建时注销,则构建过程可能会中断,直到您再次登录。当您再次登录时,Canvas 会恢复快速构建

Canvas 使用数据集其余部分中的信息来预测值,具体取决于模型类型:

  • 对于分类预测,Canvas 将每行归入目标列中列出的类别之一。

  • 对于数值预测,Canvas 使用数据集中的信息来预测目标列中的数值。

  • 对于时间序列预测,Canvas 使用历史数据来预测未来目标列的值。

  • 对于图像预测,Canvas 使用已分配标签的图像来预测未标注图像的标签。

  • 对于文本预测,Canvas 会分析已分配标签的文本数据,以预测未标注文本段落的标签。

有助于您构建模型的其他功能

注意

以下功能可用于数值和分类预测以及时间序列预测模型。

在构建模型之前,您可以筛选数据或使用高级转换功能准备数据。有关为模型构建准备数据的更多信息,请参阅通过高级转换准备数据

您还可以使用可视化和分析功能来探索数据,并确定哪些特征最适合包含在模型中。有关更多信息,请参阅探索和分析数据

要进一步了解其他功能,例如预览模型、验证数据集以及更改用于构建模型的随机样本的大小,请参阅预览模型

对于包含多列的表格数据集(例如用于构建分类、数值或时间序列预测模型类型的数据集),可能存在缺少数据点的行。当 Canvas 构建模型时,它会自动添加缺失值。Canvas 使用数据集中的值对缺失值进行数学近似计算。为了获得最高的模型精度,我们建议您在能找到缺失数据的情况下将其添加进来。请注意,文本预测或图像预测模型不支持缺失数据特征。

开始使用

要开始构建自定义模型,请参阅构建模型,按照要构建的模型类型的相应步骤进行操作。