构建模型 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

构建模型

以下几节介绍如何为每种主要类型的自定义模型构建模型。

注意

如果您在构建后分析期间遇到错误,提示您增加 ml.m5.2xlarge 实例限额,请参阅申请增加限额

构建自定义的数值或分类预测模型

数值和分类预测模型同时支持快速构建标准构建

要构建数值或分类预测模型,请按以下步骤操作:

  1. 打开 SageMaker 画布应用程序。

  2. 在左侧导航窗格中,选择我的模型

  3. 选择新建模型

  4. 创建新模型对话框中,执行以下操作:

    1. 模型名称字段中输入名称。

    2. 选择预测分析问题类型。

    3. 选择创建

  5. 对于选择数据集,从数据集列表中选择您的数据集。如果您尚未导入数据,请选择导入以指导您完成导入数据工作流。

  6. 如果您已准备好开始构建模型,请选定选择数据集

  7. 构建选项卡的目标列下拉列表中,为模型选择要预测的目标。

  8. 对于模型类型,Canvas 会自动为您检测问题类型。如果要更改类型或配置高级模型设置,请选择配置模型

    配置模型对话框打开后,执行以下操作:

    1. 对于模型类型,选择要构建的模型类型。

    2. 选择模型类型后,还有其他高级设置。有关每项高级设置的更多信息,请参阅高级模型构建配置。要配置高级设置,请执行以下操作:

      1. (可选)在目标指标下拉菜单中,选择您希望 Canvas 在构建模型时优化的指标。如果您没有选择指标,Canvas 会默认为您选择一个指标。有关可用指标的描述,请参阅指标参考

      2. 对于训练方法,选择自动合奏超参数优化 (HPO) 模式

      3. 在 “算法” 中,选择要包含的用于构建候选模型的算法。

      4. 对于数据拆分,请按百分比指定在训练集和验证集之间如何拆分数据。训练集用于构建模型,而验证集用于测试模型候选模型的准确性。

      5. 对于 Max 候选值和运行时间,请执行以下操作:

        1. 设置 Canv as 可以生成的最大候选模型值或 Canvas 可以生成的最大候选模型数量。请注意,最大候选值仅在 HPO 模式下可用。

        2. 最大作业运行时间设置小时和分钟值,或者 Canvas 可以花在构建模型上花费的最大时间。在最长时间之后,Canvas 停止构建并选择最佳候选模型。

    3. 配置高级设置后,选择保存

  9. 选择或取消选择数据中的列,以便在构建时包含或删除这些列。

    注意

    如果您在构建模型后使用模型进行批量预测,Canvas 会将删除的列添加到您的预测结果中。但是,Canvas 不会将删除的列添加到时间序列模型的批量预测中。

  10. (可选)使用 Canvas 提供的可视化和分析工具将数据可视化,并确定您可能希望在模型中包含哪些特征。有关更多信息,请参阅探索和分析数据

  11. (可选)使用数据转换功能来清理、转换和准备用于构建模型的数据。有关更多信息,请参阅使用高级转换准备数据。您可以通过选择模型配方打开模型配方侧面板来查看和移除转换。

  12. (可选)有关其他功能,如预览模型的准确性、验证数据集以及更改 Canvas 从数据集中抽取的随机样本的大小,请参阅预览模型

  13. 查看数据并对数据集进行任何更改后,选择快速构建标准构建,开始构建模型。以下屏幕截图显示了构建页面以及快速构建标准构建选项。

    2 类别模型的构建页面,显示了快速构建和标准构建选项。

模型开始构建后,您可以离开此页面。当模型在我的模型页面上显示为就绪时,即可进行分析和预测。

构建自定义图像预测模型

单标签图像预测模型同时支持快速构建标准构建

要构建单标签图像预测模型,请按以下步骤操作:

  1. 打开 SageMaker 画布应用程序。

  2. 在左侧导航窗格中,选择我的模型

  3. 选择新建模型

  4. 创建新模型对话框中,执行以下操作:

    1. 模型名称字段中输入名称。

    2. 选择图像分析问题类型。

    3. 选择创建

  5. 对于选择数据集,从数据集列表中选择您的数据集。如果您尚未导入数据,请选择导入以指导您完成导入数据工作流。

  6. 如果您已准备好开始构建模型,请选定选择数据集

  7. 构建选项卡上,您可以看到数据集中图像的标签分布模型类型设置为单标签图像预测

  8. 在此页面上,您可以预览图像并编辑数据集。如果您有任何未标注的图像,请选择编辑数据集向未标注的图像分配标签。您还可以在编辑图像数据集时执行其他任务,例如重命名标签和向数据集添加图像。

  9. 查看数据并对数据集进行任何更改后,选择快速构建标准构建,开始构建模型。以下屏幕截图显示了准备构建的图像预测模型的构建页面。

    单标签图像预测模型的构建页面。

模型开始构建后,您可以离开此页面。当模型在我的模型页面上显示为就绪时,即可进行分析和预测。

构建自定义文本预测模型

多元文本预测模型同时支持快速构建标准构建

要构建文本预测模型,请按以下步骤操作:

  1. 打开 SageMaker 画布应用程序。

  2. 在左侧导航窗格中,选择我的模型

  3. 选择新建模型

  4. 创建新模型对话框中,执行以下操作:

    1. 模型名称字段中输入名称。

    2. 选择文本分析问题类型。

    3. 选择创建

  5. 对于选择数据集,从数据集列表中选择您的数据集。如果您尚未导入数据,请选择导入以指导您完成导入数据工作流。

  6. 如果您已准备好开始构建模型,请选定选择数据集

  7. 构建选项卡的目标列下拉列表中,为模型选择要预测的目标。目标列必须具有二进制或分类数据类型,并且目标列中的每个唯一标签必须至少有 25 个条目(或数据行)。

  8. 对于模型类型,确认模型类型自动设置为多元文本预测

  9. 对于训练列,选择文本数据的源列。这应该是包含要分析的文本的列。

  10. 选择快速构建标准构建,开始构建模型。以下屏幕截图显示了准备构建的文本预测模型的构建页面。

    多元文本预测模型的构建页面。

模型开始构建后,您可以离开此页面。当模型在我的模型页面上显示为就绪时,即可进行分析和预测。

构建时间序列预测模型

时间序列预测模型同时支持快速构建标准版本

要构建时间序列预测模型,请按以下步骤操作:

  1. 打开 SageMaker 画布应用程序。

  2. 在左侧导航窗格中,选择我的模型

  3. 选择新建模型

  4. 创建新模型对话框中,执行以下操作:

    1. 模型名称字段中输入名称。

    2. 选择时间序列预测问题类型。

    3. 选择创建

  5. 对于选择数据集,从数据集列表中选择您的数据集。如果您尚未导入数据,请选择导入以指导您完成导入数据工作流。

  6. 如果您已准备好开始构建模型,请选定选择数据集

  7. 构建选项卡的目标列下拉列表中,为模型选择要预测的目标。

  8. 模型类型部分,选择配置模型

  9. 将打开 “配置模型” 框。在时间序列配置部分,填写以下字段:

    1. 项目 ID 列中,选择数据集中唯一标识每行的列。

    2. (可选)在 “分组” 列中,选择要用于对预测值进行分组的一个或多个类别列。

    3. 对于时间戳列,选择带有时间戳的列(采用日期时间格式)。有关可接受的日期时间格式的更多信息,请参阅Amazon C SageMaker anvas 中的时间序列预测

    4. 在 F orecast length 字段中,输入要预测值的时间段。Canvas 会自动检测数据中的时间单位。

    5. (可选)打开 “使用假日时间表” 开关,从各个国家/地区选择假日时间表,并使用假日数据进行更准确的预测。

  10. 在 “配置模型” 框中,“高级” 部分还有其他设置。有关每项高级设置的更多信息,请参阅高级模型构建配置。要配置高级设置,请执行以下操作:

    1. 在 “目标指标” 下拉菜单中,选择您希望 Canvas 在构建模型时优化的指标。如果您没有选择指标,Canvas 会默认为您选择一个指标。有关可用指标的描述,请参阅指标参考

    2. 如果您运行的是标准版本,则会看到 “算法” 部分。本节用于选择要用于构建模型的时间序列预测算法。您可以选择可用算法的子集,或者如果您不确定要尝试哪些算法,则可以选择所有算法。

      当你运行标准版本时,Canvas 会生成一个将所有算法组合在一起的集成模型,以优化预测精度。

      注意

      如果你正在运行快速构建,Canvas 会使用单一的基于树的学习算法来训练你的模型,而且你不必选择任何算法。

    3. 对于 Forec ast 分位数,最多输入 5 个以逗号分隔的分位数值来指定预测的上限和下限。

    4. 配置高级设置后,选择保存

  11. 选择或取消选择数据中的列,以便在构建时包含或删除这些列。

    注意

    如果您在构建模型后使用模型进行批量预测,Canvas 会将删除的列添加到您的预测结果中。但是,Canvas 不会将删除的列添加到时间序列模型的批量预测中。

  12. (可选)使用 Canvas 提供的可视化和分析工具将数据可视化,并确定您可能希望在模型中包含哪些特征。有关更多信息,请参阅探索和分析数据

  13. (可选)使用数据转换功能来清理、转换和准备用于构建模型的数据。有关更多信息,请参阅使用高级转换准备数据。您可以通过选择模型配方打开模型配方侧面板来查看和移除转换。

  14. (可选)有关其他功能,如预览模型的准确性、验证数据集以及更改 Canvas 从数据集中抽取的随机样本的大小,请参阅预览模型

  15. 查看数据并对数据集进行任何更改后,选择快速构建标准构建,开始构建模型。

模型开始构建后,您可以离开此页面。当模型在我的模型页面上显示为就绪时,即可进行分析和预测。