使用可视化技术探索数据 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用可视化技术探索数据

注意

只能对基于表格数据集构建的模型使用 SageMaker Canvas 可视化。多元文本预测模型也排除在外。

借助 Amazon SageMaker Canvas,您可以探索和可视化数据,以便在构建机器学习模型之前获得对数据的高级见解。您可以使用散点图、条形图和方框图进行可视化,这有助于您了解数据,并发现可能影响模型准确性的特征之间的关系。

在 SageMaker Canvas 应用程序的 “构建” 选项卡中,选择数据可视化工具开始创建您的可视化效果。

您可以更改可视化样本大小,以调整从数据集中抽取的随机样本的大小。样本量过大可能会影响数据可视化的性能,因此我们建议您选择适当的样本量。要更改样本量,请按照下列过程操作。

  1. 选择可视化样本

  2. 使用滑块选择所需的样本量。

  3. 选择更新以确认对样本量的更改。

注意

某些可视化技术需要特定数据类型的列。例如,对于散点图的 x 轴和 y 轴,只能使用数值列。

散点图

要使用您的数据集创建散点图,请在可视化面板中选择散点图。从 “” 部分中选择要在 x 和 y 轴上绘制的特征。您可以将列拖放到轴上,或者拖放轴后,可以从支持的列列表中选择一列。

您可以使用着色依据根据第三个特征为绘图上的数据点着色。您也可以使用分组依据根据第四个特征将数据分组到单独的绘图中。

下图显示了使用着色依据分组依据的散点图。在此示例中,每个数据点都按 MaritalStatus 特征着色,按 Department 特征分组会生成每个部门的数据点的散点图。

Canvas 应用程序的数据可视化工具视图中散点图的屏幕截图。

条形图

要使用您的数据集创建条形图,请在可视化面板中选择条形图。从 “” 部分中选择要在 x 和 y 轴上绘制的特征。您可以将列拖放到轴上,或者拖放轴后,可以从支持的列列表中选择一列。

您可以使用分组依据按第三个特征对条形图进行分组。您可以使用堆叠依据,根据第四个特征的唯一值对每个条形图进行垂直阴影处理。

下图显示了使用分组依据堆叠依据的条形图。在此示例中,条形图按 MaritalStatus 特征分组,并按 JobLevel 特征堆叠。对于 x 轴上的每个 JobRoleMaritalStatus 特征中的独特类别都有一个单独的条形图,每个条形图都按 JobLevel 特征垂直堆叠。

Canvas 应用程序的数据可视化工具视图中条形图的屏幕截图。

方框图

要使用您的数据集创建方框图,请在可视化面板中选择方框图。从 “” 部分中选择要在 x 和 y 轴上绘制的特征。您可以将列拖放到轴上,或者拖放轴后,可以从支持的列列表中选择一列。

您可以使用分组依据按第三个特征对方框图进行分组。

下图显示了使用分组依据的方框图。在此示例中,x 轴和 y 轴分别显示 JobLevelJobSatisfaction,彩色方框图按 Department 特征分组。

Canvas 应用程序的数据可视化工具视图中方框图的屏幕截图。