PCA 工作原理 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

PCA 工作原理

主成分分析 (PCA) 是一种自主型机器学习算法,它在数据集内减少维数 (特征个数),同时仍保留尽可能多的信息。

PCA 通过查找称为成分的新特征集减少维数,这些功能是原始特征的复合体,但彼此不相关。第一个成分在数据中可能存在最大的可变性,第二个成分是第二个最易变的,以此类推。

它是一种自主型维数减少算法。在自主学习中,不使用可能与训练数据集中的对象相关联的标签。

假定具有行 的矩阵的输入 
                    x_1,...,x_n
                每个维度 1 * d,数据被分成小批量的行,并分布到训练节点(工作线程)中。然后,每个工作线程计算其数据的摘要。然后在计算结束时,不同工作线程的摘要统一为一个解决方案。

Modes

Amazon SageMaker PCA 算法使用两种模式之一来计算这些摘要,具体取决于情况:

  • 常规:针对具有稀疏数据以及适度数量的观察和特征的数据集。

  • 随机:针对具有大量观察和特征的数据集。此模式使用近似算法。

作为算法的最后一步,它在统一解决方案上执行单值分解,然后将会从中导出主成分。

模式 1:定期

工作线程联合计算 
                        \\sum x_i^T x_i
                    
                        \\sum x_i
                    .

注意

由于 
                            x_i
                        1 * d 行向量, 
                            x_i^T x_i
                        是一个矩阵(非标量)。在代码中使用行向量可以使我们获得高效的缓存。

协方差矩阵计算为 
                        \\sum x_i^T x_i - (1/n) (\\sum x_i)^T \\sum x_i
                    ,其顶部 num_components 个单向量构成模型。

注意

如果 subtract_meanFalse,我们会避免计算并减去 
                            \\sum x_i
                        .

当向量的维度 d 足够小以使 
                        d^2
                    可以放入内存中。

模式 2:随机

当输入数据集中的特征数量较大时,我们使用一个方法来近似计算协方差指标。对于每个小批量 
                        X_t
                    维度的 b * d,我们随机初始化我们与每个小批量相乘的 (num_components + extra_components) * b 矩阵,从而创建一个 (num_components + extra_components) * d 矩阵。这些矩阵的总和由工作线程计算,服务器在最终 (num_components + extra_components) * d 矩阵上执行 SVD。其右上方的 num_components 单向量是输入矩阵的顶部单向量的近似值。


                        \\ell
                    = num_components + extra_components。 假定一个小批量 
                        X_t
                    维度 b * d 的 ,工作线程将绘制一个随机矩阵 
                        H_t
                    维度 
                        \\ell * b
                    , 根据环境是使用 GPU 还是 CPU 以及维度大小,矩阵是随机签名矩阵,其中每个条目为 +-1FJLT(快速 Johnson Lindenstrauss 转换;有关信息,请参阅 FJLT 转换和后续文章)。然后工作线程计算 
                        H_t X_t
                    和维护 
                        B = \\sum H_t X_t
                    , 工作线程还维护 
                        h^T
                    
                        H_1...,H_T
                    T 是小批量的总数)和 s,所有输入行的总和。在处理完整个数据碎片后,工作线程会向服务器发送 Bhsn (输入行的数量)。

表示服务器的不同输入,如 
                        B^1、h^1、s^1、n^1、...
                    服务器计算 Bhsn 各自输入的总和。然后,它计算 
                        C = B – (1/n) h^T
                    和 查找其奇异值分解。C 的右上单向量和单值被用作解决问题的近似方法。