文本分类的数据集格式和目标指标 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

文本分类的数据集格式和目标指标

在此部分中,我们将了解文本分类中可以使用的数据集格式,以及用于评估机器学习候选模型预测质量的指标。使用 MetricDatum 类型的数组指定为候选项计算的指标。

数据集格式

Autopilot 支持格式化为 CSV 文件或 Parquet 文件的表格数据。对于表格数据,每列都包含一个具有特定数据类型的特征,每行都包含一个观察数据。这两种文件格式的属性差异很大。

  • CSV(逗号分隔值)是一种基于行的文件格式,它以人类可读的纯文本格式存储数据,这是用于数据交换的流行选择,因为广泛的应用程序支持这种格式。

  • Parquet 是一种基于列的文件格式,相比基于行的文件格式,数据的存储和处理更高效。这使它们成为解决大数据问题的更好选择。

列接受的数据类型包括数字、分类、文本。

Autopilot 支持在高达数百 GB 的大型数据集上构建机器学习模型。有关输入数据集的默认资源限制以及如何增加这些限制的详细信息,请参阅 Amazon SageMaker Autopilot 限额

目标指标

以下列表包含当前可用于衡量文本分类模型性能的指标名称。

Accuracy

正确分类的项目数,相比所分类项目总数(正确和错误)的比率。准确性衡量预测类值与实际值的接近程度。准确性指标的值在零 (0) 和壹 (1) 之间变化。值为 1 表示完全准确,0 表示完全不准确。