Autopilot 数据集和问题类型 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

Autopilot 数据集和问题类型

对于表格数据(即数据的每列包含具有特定数据类型的特征,每行包含一个观察数据),Autopilot 让您可以选择选项,以指定用于 AutoML 作业的候选模型的有监督学习问题类型,例如二元分类或回归,或者根据您提供的数据代表您进行检测。

Autopilot 数据集、数据类型和格式

Autopilot 支持格式化为 CSV 或 Parquet 文件的表格数据:其中每列都包含具有特定数据类型的特征,而每行都包含观察数据。这两种文件格式的属性差异很大。

  • CSV(逗号分隔值)是一种基于行的文件格式,它以人类可读的纯文本格式存储数据,这是用于数据交换的流行选择,因为广泛的应用程序支持这种格式。

  • Parquet 是一种基于列的文件格式,相比基于行的文件格式,数据的存储和处理更高效。这使它们成为解决大数据问题的更好选择。

列接受的数据类型包括数值、分类、文本和时间序列,由逗号分隔数字字符串组成。如果 Autopilot 检测到所处理的是时间序列,则它会通过 tsfresh 库提供的专用特征转换器对其进行处理。该库将时间序列作为输入,并输出特征,例如时间序列的最高绝对值或自相关性的描述性统计数据。然后,这些输出特征将用作三种问题类型之一的输入。

Autopilot 支持在高达数百 GB 的大型数据集上构建机器学习模型。有关输入数据集的默认资源限制以及如何增加这些限制的详细信息,请参阅 Autopilot 限额

Autopilot 问题类型

对于表格数据,您可以进一步指定可供候选模型使用的有监督学习问题类型,如下所示:

回归

回归根据一个或多个与其相关的其他变量或属性来估计因果目标变量的值。一个例子是预测房屋价格所使用的特征,如浴室和卧室的数量、房屋和花园的平方英尺数。回归分析可以创建一个模型,该模型将其中一个或多个特征作为输入并预测房屋价格。

二元分类

二元分类是一种受监督的学习类型,可根据个体的属性将个体分配给两个预定义且互斥的类别之一。它受到监督,因为模型是使用样本进行训练的,其中为属性提供了正确标注的对象。基于诊断测试的结果对个人是否患有疾病的医学诊断是二元分类的一个示例。

多元分类

多元分类是一种受监督的学习类型,可根据个体的属性将个体分配给多个类别之一。它受到监督,因为模型是使用示例进行训练的,其中为属性提供了正确标记的对象。一个例子是预测与文本文档最相关的主题。文档可以分类为如宗教、政治或金融,或者是其他若干个预定义的主题类别之一。