数据验证 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

数据验证

在构建模型之前, SageMaker Canvas 会检查您的数据集中是否存在可能导致构建失败的问题。如果 SageMaker Canvas 发现任何问题,它会在您尝试构建模型之前在 “构建” 页面上向您发出警告。

您可以选择验证数据以查看数据集问题列表。然后,您可以使用 Can SageMaker vas Data Wrangler 数据准备功能或您自己的工具在开始构建之前修复数据集。如果您不修复数据集的问题,那么您的构建就会失败。

如果您为了修复问题而对数据集进行了更改,则可以选择在尝试构建之前重新验证数据集。我们建议您在构建模型之前重新验证数据集。

下表显示了 SageMaker Canvas 在您的数据集中检查的问题以及如何解决这些问题。

问题 解决方案

数据的模型类型错误

尝试其他模型类型或使用不同的数据集。

目标列中缺少值

替换缺失值,删除有缺失值的行,或使用不同的数据集。

目标列中的唯一标签太多

验证您是否为目标列使用了正确的列,或者使用不同的数据集。

目标列中的非数字值太多

选择不同的目标列,选择其他模型类型或使用不同的数据集。

一个或多个列名包含双下划线

重命名这些列以删除所有双下划线,然后重试。

数据集中没有一行是完整的

替换缺失值,或使用不同的数据集。

对于数据中的行数来说,唯一标签太多

检查您使用的目标列是否正确,增加数据集中的行数,合并相似的标签或使用不同的数据集。