本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用可视化技术探索数据
注意
只能对基于表格数据集构建的模型使用 SageMaker Canvas 可视化。多元文本预测模型也排除在外。
借助 Amazon SageMaker Canvas,您可以探索和可视化数据,以便在构建机器学习模型之前获得对数据的高级见解。您可以使用散点图、条形图和方框图进行可视化,这有助于您了解数据,并发现可能影响模型准确性的特征之间的关系。
在 SageMaker Canvas 应用程序的 “构建” 选项卡中,选择数据可视化工具开始创建您的可视化效果。
您可以更改可视化样本大小,以调整从数据集中抽取的随机样本的大小。样本量过大可能会影响数据可视化的性能,因此我们建议您选择适当的样本量。要更改样本量,请按照下列过程操作。
-
选择可视化样本。
-
使用滑块选择所需的样本量。
-
选择更新以确认对样本量的更改。
注意
某些可视化技术需要特定数据类型的列。例如,对于散点图的 x 轴和 y 轴,只能使用数值列。
散点图
要使用您的数据集创建散点图,请在可视化面板中选择散点图。从 “列” 部分中选择要在 x 和 y 轴上绘制的特征。您可以将列拖放到轴上,或者拖放轴后,可以从支持的列列表中选择一列。
您可以使用着色依据根据第三个特征为绘图上的数据点着色。您也可以使用分组依据根据第四个特征将数据分组到单独的绘图中。
下图显示了使用着色依据和分组依据的散点图。在此示例中,每个数据点都按 MaritalStatus
特征着色,按 Department
特征分组会生成每个部门的数据点的散点图。
条形图
要使用您的数据集创建条形图,请在可视化面板中选择条形图。从 “列” 部分中选择要在 x 和 y 轴上绘制的特征。您可以将列拖放到轴上,或者拖放轴后,可以从支持的列列表中选择一列。
您可以使用分组依据按第三个特征对条形图进行分组。您可以使用堆叠依据,根据第四个特征的唯一值对每个条形图进行垂直阴影处理。
下图显示了使用分组依据和堆叠依据的条形图。在此示例中,条形图按 MaritalStatus
特征分组,并按 JobLevel
特征堆叠。对于 x 轴上的每个 JobRole
,MaritalStatus
特征中的独特类别都有一个单独的条形图,每个条形图都按 JobLevel
特征垂直堆叠。
方框图
要使用您的数据集创建方框图,请在可视化面板中选择方框图。从 “列” 部分中选择要在 x 和 y 轴上绘制的特征。您可以将列拖放到轴上,或者拖放轴后,可以从支持的列列表中选择一列。
您可以使用分组依据按第三个特征对方框图进行分组。
下图显示了使用分组依据的方框图。在此示例中,x 轴和 y 轴分别显示 JobLevel
和 JobSatisfaction
,彩色方框图按 Department
特征分组。