使用分析功能来探索数据 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用分析功能来探索数据

注意

您只能对基于表格数据集构建的模型使用 SageMaker Canvas 分析。多元文本预测模型也排除在外。

借助 Amazon SageMaker Canvas 中的分析,您可以在构建模型之前探索数据集并深入了解所有变量。您可以使用相关矩阵确定数据集中特征之间的关系。您可以使用此技术将数据集汇总到一个矩阵中,该矩阵显示两个或多个值之间的相关性。这有助于您识别和可视化给定数据集中的模式,以进行高级数据分析。

该矩阵显示每个特征之间的正相关、负相关或中性相关。在构建模型时,您可能希望包含彼此高度相关的特征。几乎没有相关性的特征可能与您的模型无关,您可以在构建模型时删除这些特征。

要开始在 C SageMaker anvas 中使用相关矩阵,请参阅以下部分。

创建相关矩阵

准备在 C SageMaker anvas 应用程序的 “构建” 选项卡中构建模型时,可以创建关联矩阵。

有关如何开始创建模型的说明,请参阅构建模型

在 C SageMaker anvas 应用程序中开始准备模型后,请执行以下操作:

  1. 构建选项卡中,选择数据可视化工具

  2. 选择分析

  3. 选择相关矩阵

您应该会看到一个类似于以下屏幕截图的可视化效果,该屏幕截图显示了最多 15 列的数据集,这些列被组织成一个相关矩阵。

Canvas 应用程序中相关矩阵的屏幕截图。

创建相关矩阵后,您可以通过以下操作对其进行自定义:

1. 选择列

对于,您可以选择要包含在矩阵中的列。您最多可以比较数据集中的 15 列数据。

注意

您可以为相关矩阵使用数值、分类或二进制列类型。相关矩阵不支持日期时间或文本数据列类型。

要在相关矩阵中添加或删除列,请从面板中选择和取消选择列。您还可以将面板上的列直接拖放到矩阵上。如果您的数据集包含很多列,则可以在搜索列栏中搜索所需的列。

要按数据类型筛选列,请选择下拉列表并选择 “全部”、“数值” 或 “类别”。选择全部将显示数据集中的所有列,而数值分类筛选条件仅显示数据集中的数值列或分类列。请注意,二进制列类型包含在数值或分类筛选条件中。

为了获得最佳的数据洞察力,请在相关性矩阵中包含目标列。当您将目标列包含在相关矩阵中时,它将显示为矩阵上带有目标符号的最后一个特征。

2. 选择相关类型

SageMaker Canvas 支持不同的关联类型或计算列间相关性的方法。

要更改相关类型,请使用上一节中提到的筛选条件来筛选所需的列类型和列。您应该可以在侧面板中看到相关类型。对于数值比较,您可以选择 PearsonSpearman。对于分类比较,相关类型设置为 MI。对于分类比较和混合比较,相关类型设置为 Spearman & MI

对于仅比较数值列的矩阵,相关类型为 Pearson 或 Spearman。Pearson 度量用于评估两个连续变量之间的线性关系。Spearman 度量用于评估两个变量之间的单调关系。对于 Pearson 和 Spearman 来说,相关度的范围从 -1 到 1,两端表示完全相关(1:1 的直接关系),0 表示不相关。如果您的数据具有更多的线性关系(如散点图可视化所示),那么您可能需要选择 Pearson。如果您的数据不是线性的,或者混合包含线性关系和单调关系,那么您可能需要选择 Spearman。

对于仅比较分类列的矩阵,相关类型设置为互信息分类 (MI)。MI 值是衡量两个随机变量之间相互依赖性的指标。MI 测量值的范围为 0 到 1,其中 0 表示无相关性,1 表示完全相关。

对于数值列和分类列混合比较的矩阵,相关类型 Spearman & MI 是 Spearman 和 MI 相关类型的组合。对于两个数值列之间的相关性,矩阵显示 Spearman 值。对于数值列和分类列或两个分类列之间的相关性,矩阵显示 MI 值。

最后,请记住,相关性并不一定表示因果关系。强相关值只表明两个变量之间存在关系,但变量之间可能没有因果关系。请仔细检查感兴趣的列,以免在构建模型时出现偏差。

3. 筛选相关性

在侧面板中,您可以使用筛选相关性功能筛选要包含在矩阵中的相关值范围。例如,如果要筛选仅具有正相关性或中性相关性的特征,可以将最小值设为 0,将最大值设为 1(有效值为 -1 至 1)。

对于 Spearman 和 Pearson 比较,可以将筛选相关性范围设置在 -1 到 1 之间,0 表示没有相关性。-1 和 1 分别表示变量之间有很强的负相关性或正相关性。

对于 MI 比较,相关性范围仅从 0 到 1,0 表示没有相关性,1 表示变量之间有很强的相关性,无论是正相关性还是负相关性。

每个特征都与自身具有完美的相关性 (1)。因此,您可能会注意到相关矩阵的顶行始终为 1。如果要排除这些值,可以使用筛选器将最大值设置为小于 1。

请记住,如果您的矩阵比较的是数值列和分类列的组合,并使用 Spearman & MI 相关类型,那么分类 x 数值分类 x 分类相关性(使用 MI 测量)的范围是 0 到 1,而数值 x 数值相关性(使用 Spearman 测量)的范围是 -1 到 1。仔细查看您感兴趣的相关性,确保您知道用于计算每个值的相关类型。

4. 选择可视化方法

在侧面板中,您可以使用可视化依据来更改矩阵的可视化方法。选择数值可视化方法以显示相关性(Pearson、Spearman 或 MI)值,或者选择大小可视化方法以不同大小和颜色的点可视化相关性。如果选择大小,则可以将鼠标悬停在矩阵上的特定点上以查看实际的相关值。

5. 选择调色板

在侧面板中,您可以使用颜色选择来更改矩阵中负相关与正相关比例所使用的调色板。选择一个备用调色板来更改矩阵中使用的颜色。