亚马逊 SageMaker 自动驾驶仪数据集和问题类型 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

亚马逊 SageMaker 自动驾驶仪数据集和问题类型

亚马逊 SageMaker 您可以在 Studio 中或使用 AutoML API 提供选项,指定问题类型(例如二元分类或回归),或根据您提供的数据代表您检测问题类型。Autopilot 支持表格数据,其中每列都包含具有特定数据类型的要素,而每行都包含观测值。

Autopilot 数据集、数据类型和格式

Autopilot 支持格式化为 CSV 文件或拼花文件的表格数据。对于表格数据,每列都包含一个具有特定数据类型的要素,每行都包含一个观测值。这两种文件格式的属性差异很大。

  • CSV(逗号分隔值)是一种基于行的文件格式,它以人类可读的纯文本存储数据,这是数据交换的普遍选择,因为它们受到各种应用程序的支持。

  • Parquet是一种基于列的文件格式,其中存储和处理数据比基于行的文件格式更有效率。这使得它们成为解决大数据问题的更好选择。

这些区域有:数据类型接受列包括由逗号分隔数字字符串组成的数字、分类、文本和时间序列。如果自动驾驶仪检测到它正在处理时间序列序列,它通过由tsfresh库. 该库将时间序列作为输入,并输出一个功能,例如时间序列的最高绝对值或关于自相关的描述性统计数据。然后,这些输出的功能将用作三种问题类型之一的输入。

Autopilot 支持在高达数百 GB 的大型数据集上构建机器学习模型。有关输入数据集的默认资源限制以及如何提高此限制的详细信息,请参阅。亚马逊 SageMaker Autopilot 配额

如何指定训练和验证数据集

使用时CreateAutoMLJob要创建 AutoML 作业,您必须使用InputDataConfig参数来指定AutoMLChannel提供输入数据源的对象。ELECTAutoMLChannelChannelType,可以将其设置为training要么validation指定构建机器学习模型时如何使用数据的值。必须至少提供一个数据源,最多允许两个数据源:一个用于训练数据,另一个用于验证数据。

如何将数据拆分为训练和验证数据集取决于您是有一个还是两个数据源。

  • 如果你只有一个数据源ChannelType设置为training默认情况下,必须具有此值。

    • 如果ValidationFraction中的值AutoMLDataSplitConfig未设置,默认情况下,该源的 0.2 (20%) 数据用于验证。

    • 如果ValidationFraction设置为介于 0 和 1 之间的值,则根据指定的值拆分数据集,其中值指定用于验证的数据集的分数。

  • 如果您两个数据源ChannelType其中一个AutoMLChannel必须将对象设置为training,默认值。这些区域有:ChannelType的另一个数据源必须设置为validation. 这两个数据源必须具有相同的格式,CSV 或 Picar,以及相同的架构。你不能为ValidationFraction在这种情况下,因为来自每个来源的所有数据都用于培训或验证。设置此值会导致错误。

亚马逊 SageMaker Autopilot 问题类型

您可以使用 CreateAutoPilot.ProblemType 参数设置问题类型。这限制了 Autopilot 尝试的预处理和算法种类。作业完成后,如果您设置了CreateAutoPilot.ProblemType,然后ResolvedAttribute.ProblemType匹配ProblemType你设置了。如果你把它保留空白(或者null),ProblemType这将是 Autopilot 代表您决定的任何内容。

注意

在某些情况下,自动驾驶仪无法推断ProblemType在这种情况下,您必须提供值才能使作业成功。

您的问题类型选项如下所示:

回归

回归根据一个或多个与其相关的其他变量或属性来估计因果目标变量的值。一个例子是预测房屋价格所使用的特征,如浴室和卧室的数量、房屋和花园的平方英尺数。回归分析可以创建一个模型,该模型将其中一个或多个特征作为输入并预测房屋价格。

二进制分类

二元分类是一种受监督的学习类型,可根据个体的属性将个体分配给两个预定义且互斥的类别之一。它受到监督,因为模型是使用示例进行训练的,其中为属性提供了正确标记的对象。基于诊断测试的结果对个人是否患有疾病的医学诊断是二元分类的一个示例。

多类别分类

多类别分类是一种受监督的学习类型,可根据个体的属性将个体分配给多个类别之一。它受到监督,因为模型是使用示例进行训练的,其中为属性提供了正确标记的对象。一个例子是预测与文本文档最相关的主题。文档可以分类为如宗教、政治或金融,或者是其他若干个预定义的主题类别之一。