获取有关数据和数据质量的见解 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

获取有关数据和数据质量的见解

使用数据质量和见解报告以便对已导入数据 Wrangler 的数据进行分析。我们建议您在导入数据集后创建报告。您可以使用报告来帮助清理和处理数据。它为您提供了缺失值的数量和异常值数等信息。如果您的数据存在问题,例如目标泄漏或不平衡,见解报告可以引起您注意这些问题。

注意

如果您对导入的数据进行了采样,Data Wrangler 将根据抽样数据创建报告。有关关闭采样的信息,请参阅导入.

以下主题介绍了报告的部分:

您可以下载报告,也可以在线查看。如需下载报告,请选择屏幕右上角的下载按钮。下图显示了按钮。

摘要

洞察报告对数据进行了简要摘要,其中包括缺少值、无效值、要素类型、异常值计数等一般信息。它还可能包括高严重性警告,这些警告指出数据可能存在问题。我们建议您调查警告。

以下是报告摘要示例。

“目标” 栏

当您创建数据质量和见解报告时,Data Wrangler 为您提供了选择目标列的选项。目标专栏是你试图预测的一列。当您选择目标列时,Data Wrangler 会自动创建目标列分析。它还按照其预测能力的顺序对这些要素进行排名。选择目标列时,必须指定是试图解决回归还是分类问题。

对于分类,Data Wrangler 显示了一个表格和最常见类的直方图。课是一个类别。它还显示目标值缺失或无效的观测值或行。

下图显示了分类问题的目标列分析示例。

对于回归,Data Wrangler 将显示目标列中所有值的直方图。它还会显示具有缺失、无效或异常值目标值的观测值或行。

下图显示了回归问题的目标列分析示例。

快速模型

这些区域有:快速模型提供了对您根据数据训练的模型的预期预测质量的估计值。

Data Wrangler 将您的数据拆分为训练和验证折叠。它使用 80% 的样本进行训练,20% 的值用于验证。对于分类,样品被分层分割。对于分层拆分,每个数据分区的标签比例相同。对于分类问题,训练和分类折叠之间的标签比例相同非常重要。Data Wrangler 使用默认超参数训练 XGBoost 模型。它对验证数据应用提前停止并执行最少的功能预处理。

对于分类模型,Data Wrangler 会返回模型摘要和混淆矩阵。

以下是分类模型摘要示例。如需了解有关返回的信息的详细信息,请参阅定义.

以下是快速模型返回的混淆矩阵示例。

混淆矩阵提供以下信息:

  • 预测的标签与真实标签匹配的次数。

  • 预测的标签与真实标签不匹配的次数。

真正的标签代表了数据中的实际观察。例如,如果您使用模型来检测欺诈性交易,那么真实的标签代表实际上是欺诈性或非欺诈性的交易。预测的标签表示模型为数据分配的标签。

你可以使用混淆矩阵来查看模型对存在或不存在条件的预测程度如何。如果你预测欺诈性交易,你可以使用混淆矩阵来了解模型的敏感性和特殊性。敏感性是指模型检测欺诈性交易的能力。特殊性是指模型避免将非欺诈性交易检测为欺诈性交易的能力。

下面是回归问题快速模型输出示例。

功能摘要

当您指定目标列时,Data Wrangler 会按照其预测能力对要素进行排序。预测能力是在以分层方式拆分为 80%/20% 的训练和验证折叠后,是根据数据来衡量的。Data Wrangler 针对训练组上的每个功能单独拟合一个模型。它应用最小的要素预处理并衡量验证数据的预测性能。

它将分数标准化为范围为 [0,1]。更高的预测分数表示对于自己预测目标更有用的列。分数较低表示不能预测目标列的列。

在与其他列同时使用时,本身并非预测性的列具有预测性,这种情况很少见。您可以放心地使用预测分数来确定数据集中的要素是否具有预测性。

分数较低通常表示该功能是多余的。分数为 1 意味着完美的预测能力,这通常表示目标泄漏。当数据集包含在预测时不可用的列时,通常会发生目标泄漏。例如,它可能是目标列的副本。

以下是显示每个要素的预测值的表格和直方图的示例。

示例

Data Wrangler 会提供有关您的样本是否异常或数据集中是否有重复的信息。

Data Wrangler 使用隔离林算法检测异常样本。隔离林将异常分数与数据集的每个样本(行)关联起来。低异常分数表示样本异常。高分与非异常样本有关。具有负异常分数的样本通常被视为异常,异常分数为正的样本被视为非异常。

当你查看可能异常的样本时,我们建议你注意异常值。例如,您可能有异常值,这些值可能是由于收集和处理数据的错误而导致的。以下是根据 Data Wrangler 实施隔离林算法的最异常样本的示例。我们建议您在检查异常样本时使用领域知识和业务逻辑。

Data Wrangler 会检测重复行并计算数据中重复行的比率。某些数据源可能包含有效的重复项。其他数据源可能存在重复项,指出数据收集方面的问题。由于数据收集错误而导致的重复样本可能会干扰依赖将数据拆分为独立训练和验证折叠的机器学习过程。

以下是见解报告中可能受到重复样本影响的元素:

  • 快速模型

  • 预测功率估计

  • 自动超级参数调整

您可以使用从数据集中删除重复的样本删除重复项转换管理行. Data Wrangler 向您展示最频繁的重复行。

定义

以下是数据见解报告中使用的技术术语的定义。

Feature types

以下是每种要素类型的定义:

  • 数字 — 数字值,可以是浮点数或整数。例如:年龄、收入。机器学习模型假定数字值是有序的,并定义了它们的距离。例如,3 接近 4 而不是 10,3 < 4 < 10。

  • 类别 — 列条目属于一组唯一值,通常比列中的条目数小得多。例如,长度为 100 的列,其中包含唯一值 “狗”、“猫” 和 “鼠标”。这些值可以是数字,如 “马”、“房子”、8、“爱” 和 3.1 两者的组合的文本都是有效值,可以在同一类别列中找到。与数字要素相反,机器学习模型不假定分类要素值的顺序或距离(即使所有值都是数字)。

  • 二进制 — 分类要素的一种特殊情况,其中唯一值集的基数为 2。

  • 文本 — 文本列包含许多非数字唯一值。在极端情况下,该列的所有元素都是唯一的。在极端情况下,没有两个条目是相同的。

  • 日期时间 — 包含有关日期或时间的信息的列。它可以包含有关于日期和时间的信息。

Feature statistics

以下是每个要素统计信息的定义:

  • 预测力量 — 衡量该列在预测目标方面的用处。

  • 异常值(在数字列中)— Data Wrangler 使用对异常值强大的两个统计数据检测异常值:中位值和稳健标准差 (RSTD)。RSTD 是通过将要素值裁剪到范围 [5 百分位数,95 百分位数] 并计算剪切向量的标准差来得出的。所有大于中位数 + 5 * RSTD 或小于中位数的所有值-5 * RSTD 被视为异常值。

  • 倾斜(在数字列中)— 斜度测量分布的对称性,定义为分布的第三个时刻除以标准差的第三个幂。正态分布或任何其他对称分布的偏度为零。正值表示分布的右尾比左尾部长。负值表示分布的左尾比右尾长。作为经验法则,当倾斜的绝对值大于 3 时,分布被认为是偏斜的。

  • Kurtosis(在数字列中)— 皮尔逊的峰度衡量了分布尾部的沉重程度。它被定义为分布的第四个时刻除以第二个时刻的平方。正态分布的峰度为 3。Kurtosis 值低于 3 意味着分布集中在平均值周围,尾部比正态分布的尾部要轻。Kurtosis 值高于 3 意味着尾部或异常值较重。

  • 缺少值 — 类 Null 的对象、空字符串和仅由空格组成的字符串被视为缺失。

  • 数值要素或回归目标的有效值 — 您可以转换为有限浮点数的所有值均有效。缺少的值无效。

  • 分类、二进制、文本要素或分类目标的有效值 — 所有未丢失的值都是有效的。

  • 日期时间功能 — 您可以转换为 datetime 对象的所有值都有效。缺少的值无效

  • 无效值 — 缺少或无法正确转换的值。例如,在数字列中,不能转换字符串 “六” 或空值。

Quick model metrics for regression

以下是快速模型指标的定义:

  • R2 或确定系数)— R2 是模型预测的目标变化的比例。R2 在 [-infty, 1] 的范围内。1 是完美预测目标的模型的分数,0 是总是预测目标均值的微不足道模型的分数。

  • MSE 或均方误差 — MSE 处于 [0, inty] 范围内。0 是完美预测目标的模型的分数。

  • MAE 或平均绝对误差 — MAE 在 [0, infty] 范围内,其中 0 是完美预测目标的模型的分数。

  • RMSE 或均方根误差 — RMSE 处于 [0, inty] 范围内,其中 0 是完美预测目标的模型的分数。

  • 最大错误 — 错误与数据集相比的最大绝对值。最大误差在 [0, infty] 范围内。0 是完美预测目标的模型的分数。

  • 中位数绝对误差 — 中位数绝对误差在 [0, infty] 范围内。0 是完美预测目标的模型的分数。

Quick model metrics for classification

以下是快速模型指标的定义:

  • 准确性 — 准确预测的样本比率。准确度在 [0, 1] 范围内。0 是预测所有样本错误的模型的分数,1 是完美模型的分数。

  • 平衡准确度 — 调整班级权重以平衡数据时准确预测的样本比率。所有课程都得到同样的重视,无论其频率如何。平衡精度在 [0, 1] 范围内。0 是预测所有样本错误的模型的分数。1 是完美模型的分数。

  • AUC(二进制分类)— 受试者操作特征曲线下的面积。AUC 在 [0, 1] 范围内,随机模型返回 0.5 分,完美模型返回 1 分。

  • AUC (OVR) — 对于多类分类,接收器操作特征曲线下的面积使用一个与休息单独计算每个标签。数据 Wrangler 报告了面积的平均值。AUC 在 [0, 1] 范围内,随机模型返回 0.5 分,完美模型返回 1 分。

  • 精度 — 精度是针对特定类别定义的。精度是模型归类为该类的所有实例中真正阳性的一部分。精度在 [0, 1] 范围内。1 是模型的分数,对于班级没有误报。对于二进制分类,Data Wrangler 报告了积极类别的精确度。

  • 召回 — 召回是针对特定课程定义的。召回是成功检索的相关类实例的一小部分。召回在 [0, 1] 范围内。1 是正确分类该班级的所有实例的模型的分数。对于二进制分类,Data Wrangler 报告了正面阶级的召回情况。

  • F1 — F1 是针对特定类定义的。这是精度和调用率的调和平均数。F1 在范围为 [0, 1]。1 是完美模型的分数。对于二进制分类,Data Wrangler 报告具有正值的类的 F1。