本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Autopilot 数据集和问题类型
对于表格数据(即数据的每列包含具有特定数据类型的特征,每行包含一个观察数据),Autopilot 让您可以选择选项,以指定用于 AutoML 作业的候选模型的有监督学习问题类型,例如二元分类或回归,或者根据您提供的数据代表您进行检测。自动驾驶仪还支持多种数据格式和数据类型。
Autopilot 数据集、数据类型和格式
Autopilot 支持格式化为CSV文件或 Parquet 文件的表格数据:每列包含一个具有特定数据类型的要素,每行包含一个观测值。这两种文件格式的属性差异很大。
-
CSV(comma-separated-values) 是一种基于行的文件格式,它以人类可读的纯文本存储数据,这是数据交换的常用选择,因为它们受到各种应用程序的支持。
-
Parquet 是一种基于列的文件格式,相比基于行的文件格式,数据的存储和处理更高效。这使它们成为解决大数据问题的更好选择。
列接受的数据类型包括数值、分类、文本和时间序列,由逗号分隔数字字符串组成。如果 Autopilot 检测到所处理的是时间序列,则它会通过 tsfresh
Autopilot 支持在多达数百个的大型数据集上构建机器学习模型。GBs有关输入数据集的默认资源限制以及如何增加这些限制的详细信息,请参阅 Autopilot 限额。
Autopilot 问题类型
对于表格数据,您可以进一步指定可供候选模型使用的有监督学习问题类型,如下所示:
回归
回归根据一个或多个与其相关的其他变量或属性来估计因果目标变量的值。一个例子是预测房屋价格所使用的特征,如浴室和卧室的数量、房屋和花园的平方英尺数。回归分析可以创建一个模型,该模型将其中一个或多个特征作为输入并预测房屋价格。
二元分类
二元分类是一种受监督的学习类型,可根据个体的属性将个体分配给两个预定义且互斥的类别之一。它受到监督,因为模型是使用样本进行训练的,其中为属性提供了正确标注的对象。基于诊断测试的结果对个人是否患有疾病的医学诊断是二元分类的一个示例。
多元分类
多元分类是一种受监督的学习类型,可根据个体的属性将个体分配给多个类别之一。它受到监督,因为模型是使用示例进行训练的,其中为属性提供了正确标记的对象。一个例子是预测与文本文档最相关的主题。文档可以分类为如宗教、政治或金融,或者是其他若干个预定义的主题类别之一。