主成分分析 (PCA) 算法 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

主成分分析 (PCA) 算法

PCA 是一种自主型机器学习算法,它试图在数据集内减少维数 (特征个数),同时仍保留尽可能多的信息。这是通过查找称为成分的新特征集完成的,这些功能是原始特征的复合体,它们彼此不相关。它们还受到约束,因此第一个成分在数据中可能存在最大的可变性,第二个成分是第二个最易变的,以此类推。

在 Amazon SageMaker 中,PCA 以两种模式运行,具体取决于场景:

  • 常规:适用于包含稀疏数据的数据集以及中等数量的观察和特征。

  • 随机:对于具有大量观察和功能的数据集。此模式使用近似算法。

PCA 使用表格数据。

这些行表示您想要嵌入到较低维度空间中的观察。这些列表示您想要为其查找的缩小近似的特征。该算法计算协方差矩阵 (或在分布方式下的近似),然后对此摘要执行单值分解以产生主成分。

PCA 算法的输入/输出接口

在训练时,PCA 期望在训练通道上提供数据,并(可选)支持一个传递到测试数据集的数据集,该数据集由最终算法进行评分。recordIO-wrapped-protobufCSV 格式均支持用于训练。您可以使用文件模式或管道模式,针对格式为 recordIO-wrapped-protobufCSV 的数据训练模型。

对于推理,PCA 支持 text/csvapplication/jsonapplication/x-recordio-protobuf。 结果以 application/jsonapplication/x-recordio-protobuf 格式返回,向量为“投影”。

有关输入和输出文件格式的更多信息,请参阅PCA 响应格式(对于推理)和PCA 示例笔记本

PCA 算法的 EC2 实例建议

PCA 支持 GPU 和 CPU 计算。哪个实例类型具有最高性能取决于输入数据的具体程度。

PCA 示例笔记本

有关演示如何使用 SageMaker 主成分分析算法来分析 MNIST 数据集中从 0 到 9 的手写数字图像的示例笔记本,请参阅 将 PCA 与 MNIST 结合使用简介。有关如何创建和访问可用于在 SageMaker 中运行示例的 Jupyter 笔记本实例的说明,请参阅使用 Amazon SageMaker 笔记本实例。创建笔记本实例并打开该实例后,选择 SageMaker Examples (AWS 示例) 选项卡以查看所有 SageMaker 示例的列表。使用 NTM 算法的主题建模示例笔记本位于 Amazon 算法简介部分中。要打开笔记本,请单击其 Use (使用) 选项卡,然后选择 Create copy (创建副本)