预览模型 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

预览模型

注意

以下功能仅适用于使用表格数据集构建的自定义模型。多元文本预测模型也排除在外。

SageMaker Canvas 为您提供了在开始构建之前预览模型和验证数据的工具。以下功能包括预览模型的准确性、验证数据集以防止在构建模型时出现问题,以及更改模型的随机样本的大小。

预览模型

借助 Amazon SageMaker Canvas,您可以选择预览模型,在构建模型之前从数据中获取见解。例如,您可以看到每列中的数据是如何分布的。对于使用分类数据构建的模型,您也可以选择预览模型,以生成模型对数据分析效果的估计精度预测。快速构建标准构建的精度代表模型在实际数据上的表现,通常高于估计精度

Amazon SageMaker Canvas 在构建模型时会自动处理数据集中的缺失值。它通过使用数据集中存在的相邻值来推断缺失值。

Canvas 中模型的构建选项卡的屏幕截图。

验证数据

在构建模型之前, SageMaker Canvas 会检查您的数据集中是否存在可能导致构建失败的问题。如果 SageMaker Canvas 发现任何问题,它会在您尝试构建模型之前在 “构建” 页面上向您发出警告。

您可以选择验证数据以查看数据集问题列表。然后,您可以使用 SageMaker Canvas 数据准备功能或您自己的工具在开始构建之前修复数据集。如果您不修复数据集的问题,那么您的构建就会失败。

如果您为了修复问题而对数据集进行了更改,则可以选择在尝试构建之前重新验证数据集。我们建议您在构建模型之前重新验证数据集。

下表显示了 SageMaker Canvas 在您的数据集中检查的问题以及如何解决这些问题。

问题 解决方案

数据的模型类型错误

尝试其他模型类型或使用不同的数据集。

目标列中缺少值

替换缺失值,删除有缺失值的行,或使用不同的数据集。

目标列中的唯一标签太多

验证您是否为目标列使用了正确的列,或者使用不同的数据集。

目标列中的非数字值太多

选择不同的目标列,选择其他模型类型或使用不同的数据集。

一个或多个列名包含双下划线

重命名这些列以删除所有双下划线,然后重试。

数据集中没有一行是完整的

替换缺失值,或使用不同的数据集。

对于数据中的行数来说,唯一标签太多

检查您使用的目标列是否正确,增加数据集中的行数,合并相似的标签或使用不同的数据集。

随机抽样

SageMaker Canvas 使用随机采样方法对您的数据集进行采样。随机抽样方法意味着每行被选取为样本的几率相等。您可以在预览中选择一列以获取随机样本的汇总统计数据,例如均值和模式。

默认情况下,对于行数超过 20,000 的数据集, SageMaker Canvas 使用数据集中随机抽样大小为 20,000 行。对于小于 2 万行的数据集,默认样本大小为数据集中的行数。您可以通过在 C SageMaker anvas 应用程序的 “构建” 选项卡中选择 “随机样本” 来增加或减少样本量。您可以使用滑块选择所需的样本量,然后选择更新来更改样本量。您可以为数据集选择的最大样本量为 4 万行,最小样本量为 500 行。如果您选择较大的样本量,则数据集预览和汇总统计数据可能需要一些时间才能重新加载。

构建页面显示数据集中 100 行数据的预览。如果样本量与数据集大小相同,那么预览将使用数据集的前 100 行数据。否则,预览将使用随机样本的前 100 行数据。