

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 使用分析功能来探索数据
<a name="canvas-explore-data-analytics"></a>

**注意**  
您只能对基于表格数据集构建的模型使用 SageMaker Canvas 分析。多元文本预测模型也排除在外。

借助 Amazon SageMaker Canvas 中的分析，您可以在构建模型之前探索数据集并深入了解所有变量。您可以使用相关矩阵确定数据集中特征之间的关系。您可以使用此技术将数据集汇总到一个矩阵中，该矩阵显示两个或多个值之间的相关性。这有助于您识别和可视化给定数据集中的模式，以进行高级数据分析。

该矩阵显示每个特征之间的正相关、负相关或中性相关。在构建模型时，您可能希望包含彼此高度相关的特征。几乎没有相关性的特征可能与您的模型无关，您可以在构建模型时删除这些特征。

要开始在 C SageMaker anvas 中使用相关矩阵，请参阅以下部分。

## 创建相关矩阵
<a name="canvas-explore-data-analytics-correlation-matrix"></a>

准备在 C SageMaker anvas 应用程序的 “构建” 选项卡中**构建**模型时，可以创建关联矩阵。

有关如何开始创建模型的说明，请参阅[构建模型](canvas-build-model-how-to.md)。

在 C SageMaker anvas 应用程序中开始准备模型后，请执行以下操作：

1. 在**构建**选项卡中，选择**数据可视化工具**。

1. 选择**分析**。

1. 选择**相关矩阵**。

您应该会看到一个类似于以下屏幕截图的可视化效果，该屏幕截图显示了最多 15 列的数据集，这些列被组织成一个相关矩阵。

![Canvas 应用程序中相关矩阵的屏幕截图。](http://docs.amazonaws.cn/sagemaker/latest/dg/images/studio/canvas/canvas-correlation-matrix-2.png)


创建相关矩阵后，您可以通过以下操作对其进行自定义：

### 1. 选择列
<a name="canvas-explore-data-analytics-correlation-matrix-columns"></a>

对于**列**，您可以选择要包含在矩阵中的列。您最多可以比较数据集中的 15 列数据。

**注意**  
您可以为相关矩阵使用数值、分类或二进制列类型。相关矩阵不支持日期时间或文本数据列类型。

要在相关矩阵中添加或删除列，请从**列**面板中选择和取消选择列。您还可以将面板上的列直接拖放到矩阵上。如果您的数据集包含很多列，则可以在**搜索列**栏中搜索所需的列。

要按数据类型筛选列，请选择下拉列表并选择**全部**、**数值**或**分类**。选择**全部**将显示数据集中的所有列，而**数值**和**分类**筛选条件仅显示数据集中的数值列或分类列。请注意，二进制列类型包含在数值或分类筛选条件中。

为了获得最佳的数据洞察力，请在相关性矩阵中包含目标列。当您将目标列包含在相关矩阵中时，它将显示为矩阵上带有目标符号的最后一个特征。

### 2. 选择相关类型
<a name="canvas-explore-data-analytics-correlation-matrix-cor-type"></a>

SageMaker Canvas 支持不同的*关联类型*或计算列间相关性的方法。

要更改相关类型，请使用上一节中提到的**列**筛选条件来筛选所需的列类型和列。您应该可以在侧面板中看到**相关类型**。对于数值比较，您可以选择 **Pearson** 或 **Spearman**。对于分类比较，相关类型设置为 **MI**。对于分类比较和混合比较，相关类型设置为 **Spearman & MI**。

对于仅比较数值列的矩阵，相关类型为 Pearson 或 Spearman。Pearson 度量用于评估两个连续变量之间的线性关系。Spearman 度量用于评估两个变量之间的单调关系。对于 Pearson 和 Spearman 来说，相关度的范围从 -1 到 1，两端表示完全相关（1:1 的直接关系），0 表示不相关。如果您的数据具有更多的线性关系（如[散点图可视化](https://docs.amazonaws.cn/sagemaker/latest/dg/canvas-explore-data.html#canvas-explore-data-scatterplot)所示），那么您可能需要选择 Pearson。如果您的数据不是线性的，或者混合包含线性关系和单调关系，那么您可能需要选择 Spearman。

对于仅比较分类列的矩阵，相关类型设置为互信息分类 (MI)。MI 值是衡量两个随机变量之间相互依赖性的指标。MI 测量值的范围为 0 到 1，其中 0 表示无相关性，1 表示完全相关。

对于数值列和分类列混合比较的矩阵，相关类型 **Spearman & MI** 是 Spearman 和 MI 相关类型的组合。对于两个数值列之间的相关性，矩阵显示 Spearman 值。对于数值列和分类列或两个分类列之间的相关性，矩阵显示 MI 值。

最后，请记住，相关性并不一定表示因果关系。强相关值只表明两个变量之间存在关系，但变量之间可能没有因果关系。请仔细检查感兴趣的列，以免在构建模型时出现偏差。

### 3. 筛选相关性
<a name="canvas-explore-data-analytics-correlation-matrix-filter"></a>

在侧面板中，您可以使用**筛选相关性**功能筛选要包含在矩阵中的相关值范围。例如，如果要筛选仅具有正相关性或中性相关性的特征，可以将**最小值**设为 0，将**最大值**设为 1（有效值为 -1 至 1）。

对于 Spearman 和 Pearson 比较，可以将**筛选相关性**范围设置在 -1 到 1 之间，0 表示没有相关性。-1 和 1 分别表示变量之间有很强的负相关性或正相关性。

对于 MI 比较，相关性范围仅从 0 到 1，0 表示没有相关性，1 表示变量之间有很强的相关性，无论是正相关性还是负相关性。

每个特征都与自身具有完美的相关性 (1)。因此，您可能会注意到相关矩阵的顶行始终为 1。如果要排除这些值，可以使用筛选器将**最大值**设置为小于 1。

请记住，如果您的矩阵比较的是数值列和分类列的组合，并使用 **Spearman & MI** 相关类型，那么*分类 x 数值*和*分类 x 分类*相关性（使用 MI 测量）的范围是 0 到 1，而*数值 x 数值*相关性（使用 Spearman 测量）的范围是 -1 到 1。仔细查看您感兴趣的相关性，确保您知道用于计算每个值的相关类型。

### 4. 选择可视化方法
<a name="canvas-explore-data-analytics-correlation-matrix-viz-method"></a>

在侧面板中，您可以使用**可视化依据**来更改矩阵的可视化方法。选择**数值**可视化方法可显示相关性（Pearson、Spearman 或 MI）值，或选择**大小**可视化方法则可通过不同大小和颜色的点显示相关性。如果选择**大小**，则可以将鼠标悬停在矩阵上的特定点上以查看实际的相关值。

### 5. 选择调色板
<a name="canvas-explore-data-analytics-correlation-matrix-color"></a>

在侧面板中，您可以使用**颜色选择**来更改矩阵中负相关与正相关比例所使用的调色板。选择一个备用调色板来更改矩阵中使用的颜色。