Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅
中国的 Amazon Web Services 服务入门
(PDF)。
本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
获取有关数据和数据质量的见解
使用数据质量和洞察报告对您导入到 Data Wrangler 的数据进行分析。建议您在导入数据集后创建报告。您可以使用该报告来帮助您清理和处理数据。它为您提供诸如缺失值数量和异常值数量之类的信息。如果您的数据存在问题,例如目标泄漏或不平衡,洞察报告可以提请您注意这些问题。
如果您对导入的数据进行了采样,Data Wrangler 会根据抽样数据创建报告。有关关闭采样的信息,请参见导入.
以下主题显示了报告的各个部分:
您可以下载报告或在线查看。要下载报告,请选择屏幕右上角的下载按钮。下图显示了该按钮。
摘要
Insights 报告包含数据的简短摘要,其中包括缺失值、无效值、要素类型、异常值计数等一般信息。它还可能包括指向数据可能存在问题的高严重性警告。建议您调查警告。
以下为报告摘要的示例。
目标列
当您创建数据质量和洞察报告时,Data Wrangler 为您提供了选择目标列的选项。目标列是你想要预测的列。当您选择目标列时,Data Wrangler 会自动创建目标列分析。它还按功能的预测能力对它们进行排名。选择目标列时,必须指定要解决回归问题还是分类问题。
为了进行分类,Data Wrangler 显示了最常见类别的表格和直方图。一个类别就是一个类别。它还显示目标值缺失或无效的观测值或行。
下图显示了一个分类问题的目标列分析示例。
对于回归,Data Wrangler 显示目标列中所有值的直方图。它还显示目标值缺失、无效或异常值的观测值或行。
下图显示了一个回归问题的目标列分析示例。
Quick 模型
这些区域有:Quick 模型提供您根据数据训练的模型的预期预测质量的估计值。
Data Wrangler 将您的数据拆分为训练和验证折叠。它使用80%的样本进行训练,使用20%的值进行验证。为了进行分类,对样本进行分层分割。对于分层拆分,每个数据分区的标签比例相同。对于分类问题,训练折叠和分类折叠之间的标签比例必须相同。Data Wrangler 使用默认的超参数训练 XGBoost 模型。它会提前停止验证数据,并执行最少的功能预处理。
对于分类模型,Data Wrangler 会返回模型摘要和混淆矩阵。
下面是分类模型摘要的示例。要了解有关返回信息的更多信息,请参阅定义.
以下是快速模型返回的混淆矩阵的示例。
混淆矩阵提供以下信息:
-
预测的标签与真实标签匹配的次数。
-
预测的标签与真实标签不匹配的次数。
真实标签表示数据中的实际观测值。例如,如果您使用模型来检测欺诈性交易,则真实标签表示实际上是欺诈性或非欺诈性的交易。预测标签代表模型分配给数据的标签。
您可以使用混淆矩阵来查看模型预测条件的存在或不存在的程度。如果你预测的是欺诈性交易,你可以使用混淆矩阵来了解模型的敏感性和特异性。敏感度是指模型检测欺诈交易的能力。特异性是指模型能够避免将非欺诈性交易检测为欺诈交易。
下面是回归问题的快速模型输出的示例。
功能摘要
当您指定目标列时,Data Wrangler 会根据要素的预测能力对要素进行排序。预测能力是在数据分为 80% 的训练和 20% 的验证折叠之后根据数据进行衡量的。Data Wrangler 在训练折叠上分别为每个特征拟合一个模型。它采用最少的特征预处理,并测量验证数据的预测性能。
它将分数归一化为 [0,1] 范围。预测分数越高表示列对于自行预测目标更有用。分数较低表示无法预测目标列的列。
当与其他列一起使用时,本身无法预测的专栏不具有预测性的情况并不常见。您可以放心地使用预测分数来确定数据集中的某个要素是否具有预测性。
分数低通常表示该功能是多余的。1分意味着完美的预测能力,这通常表示目标泄漏。目标泄漏通常发生在数据集包含预测时不可用的列时。例如,它可能是目标列的副本。
以下是显示每个要素预测值的表和直方图的示例。
示例
Data Wrangler 提供有关您的样本是否异常或数据集中是否存在重复样本的信息。
Data Wrangler 使用以下方法检测异常样本隔离林算法. 隔离林将异常分数与数据集的每个样本(行)关联起来。低异常分数表示样本异常。高分与非异常样本有关。异常分数为负的样本通常被视为异常,而异常分数为正的样本被视为非异常。
当您查看可能异常的样本时,我们建议您注意异常值。例如,您可能有异常值,这些值是由于收集和处理数据时出现错误而导致的。以下是根据Data Wrangler实现的隔离林算法得出的最异常样本的示例。我们建议您在检查异常样本时使用领域知识和业务逻辑。
Data Wrangler 会检测重复行并计算数据中重复行的比例。一些数据源可能包含有效的重复项。其他数据源可能有重复数据,这表明数据收集存在问题。由于错误的数据收集而产生的重复样本可能会干扰依赖于将数据拆分为独立的训练和验证折叠的机器学习过程。
以下是洞察报告中可能受到重复样本影响的元素:
您可以使用以下方法从数据集中移除重复的样本删除重复项转换管理行. Data Wrangler 会显示最常重复的行。
定义
以下是数据洞察报告中使用的技术术语的定义。
- Feature types
-
以下是每种要素类型的定义:
-
数值— 数值可以是浮点数或整数,例如年龄或收入。机器学习模型假设数值是有序的,并在数值上定义了距离。例如,3 比 10 更接近 4,3 < 4 < 10。
-
类别-列条目属于一组唯一值,通常比列中的条目数小得多。例如,长度为 100 的列可以包含唯一值Dog
,Cat
,以及Mouse
. 值可能为数字、文本或二者的组合。Horse
,House
,8
,Love
,以及3.1
都将是有效值,可以在同一个类别列中找到。机器学习模型不假定分类特征值的顺序或距离,而不是数值特征,即使所有值都是数字也是如此。
-
Binary— 二进制要素是一种特殊的分类特征类型,其中一组唯一值的基数为 2。
-
文本— 文本列包含许多非数字唯一值。在极端情况下,该列的所有元素都是唯一的。在极端情况下,没有两个条目是相同的。
-
DATETIME— 日期时间列包含有关日期或时间的信息。它可能包含有关日期和时间的信息。
- Feature statistics
-
以下是每项要素统计数据的定义:
-
预测能力— 预测能力衡量该列在预测目标方面的用处。
-
异常字符(在数字列中)— Data Wrangler 使用两个对异常值具有可靠性的统计数据来检测异常值:中位数和稳健标准差 (RSTD)。RSTD 是通过将特征值剪切到 [5 百分位数,95 百分位数] 范围并计算剪切向量的标准差来得出的。所有大于中位数 + 5 * RSTD 或小于中位数-5 * RSTD 的值都被视为异常值。
-
Skefe(在数字列中)— Skew 测量分布的对称性,定义为分布的第三矩除以标准差的第三次乘方。正态分布或任何其他对称分布的偏度为零。正值表示分布的右尾比左尾长。负值表示分布的左尾比右尾长。根据经验,当倾斜的绝对值大于 3 时,分布被视为倾斜。
-
峰度(在数字列中)— Pearson 的峰度用于衡量分布尾部的沉重程度。它被定义为分布的第四个时刻除以第二个时刻的平方。正态分布的峰度为 3。峰度值低于 3 表示分布集中在均值周围,尾部比正态分布的尾部轻。峰度值高于 3 表示尾部或异常值较重。
-
缺少值— 类空对象、空字符串和仅由空格组成的字符串被视为缺失。
-
数值要素或回归目标的有效值— 所有可以转换为有限浮点数的值都是有效的。缺少的值无效。
-
分类要素、二进制要素或文本要素的有效值,或者分类目标的有效值— 所有未缺少的值均有效。
-
日期时间功能— 您可以转换为日期时间对象的所有值都是有效的。缺少的值无效。
-
值无效— 缺少或无法正确转换的值。例如,在数字列中,你不能转换字符串"six"
或空值。
- Quick model metrics for regression
-
以下是快速模型指标的定义:
-
R2 或确定系数)— R2 是模型预测的目标变异的比例。R2 在 [-infty, 1] 的范围内。1 是完美预测目标的模型的分数,0 是始终预测目标均值的平凡模型的分数。
-
MSE 或均方误差 — MSE 在 [0, infty] 范围内。0 是完美预测目标的模型的分数。
-
MAE 或平均绝对误差 — MAE 在 [0, infty] 范围内,其中 0 是完美预测目标的模型的分数。
-
RMSE 或均方根误差 — RMSE 在 [0, infty] 范围内,其中 0 是完美预测目标的模型的分数。
-
最大误差-数据集上误差的最大绝对值。最大误差在 [0,infty] 范围内。0 是完美预测目标的模型的分数。
-
绝对误差中位数 — 绝对误差中位数在 [0, infty] 范围内。0 是完美预测目标的模型的分数。
- Quick model metrics for classification
-
以下是快速模型指标的定义:
-
准确性— 精度是准确预测的样本的比率。精度在 [0, 1] 范围内。0 是错误预测所有样本的模型得分,1 是完美模型的分数。
-
平衡准确度— 平衡精度是调整类别权重以平衡数据时准确预测的样本比率。无论频率如何,所有课程都具有相同的重要性。平衡精度在 [0, 1] 范围内。0 是预测所有样本错误的模型的分数。1 是完美模型的分数。
-
AUC(二进制分类)— 这是接收器工作特性曲线下的区域。AUC 在 [0, 1] 范围内,其中随机模型返回的分数为 0.5,完美模型返回的分数为 1。
-
AUC (OVR)— 对于多类别分类,这是接收器工作特性曲线下的面积,使用一个与剩余部分分别计算每个标签。Data Wrangler 报告了这些区域的平均值。AUC 在 [0, 1] 范围内,其中随机模型返回的分数为 0.5,完美模型返回的分数为 1。
-
精度— 精度是为特定类定义的。精度是模型归类为该类别的所有实例中真正值的比例。精度在 [0, 1] 范围内。1 是该类没有误报的模型得分。对于二进制分类,Data Wrangler 会报告正值类的精度。
-
调用— 召回是针对特定类别定义的。召回是成功检索到的相关类实例的比例。Recall 在 [0, 1] 范围内。1 是正确分类该类所有实例的模型的分数。对于二进制分类,Data Wrangler 报告了正值类别的召回。
-
F1— F1 是为特定类定义的。这是精度和召回率的谐波平均值。F1 在 [0, 1] 范围内。1 是完美模型的分数。对于二进制分类,Data Wrangler 会报告具有正值的类的 F1。
- Textual patterns
-
Patter使用易于阅读的格式描述字符串的文本格式。以下是文本模式的示例:
Data Wrangler 通过查看数据中的非空字符串样本来推断模式。它可以描述许多常用的模式。这些区域有:信心以百分比表示估计的数据中有多少与模式相匹配。使用文本模式,您可以查看需要更正或删除数据中的哪些行。
以下内容描述了 Data Wrangler 可以识别的模式:
Pattern |
文字格式 |
{alnum}
|
字母数字字符串
|
{任意}
|
任何字符串的单词字符
|
{数字}
|
数字序列
|
{降低}
|
小写单词
|
{mixed}
|
大小写混合的单词
|
{名称}
|
以大写字母开头的单词
|
{上方}
|
大写单词
|
{空格}
|
空格字符
|
单词字符要么是下划线,要么是可能出现在任何语言的单词中的字符。例如,字符串 “Hello_Word” 和 “écoute” 都由单词字符组成。'H'和'é'都是单词字符的示例。