无人监督的内置算法 SageMaker - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

无人监督的内置算法 SageMaker

Amazon SageMaker 提供了多种内置算法,可用于各种无监督学习任务,例如聚类、降维、模式识别和异常检测。

  • IP 洞察 – 了解 IPv4 地址的使用模式。它旨在捕获 IPv4 地址与各种实体(例如用户 ID 或账号)之间的关联。

  • K-Means 算法 – 查找数据中的离散组,其中一个组的成员尽可能彼此相似,而与其他组的成员尽可能互不相同。

  • 主成分分析 (PCA) 算法 – 通过将数据点投影到前几个主成份上来减少数据集中的维度(特征数量)。目标是尽可能保留尽可能多的信息或变体。对于数学家来说,主要成分是数据协方差矩阵的特征向量。

  • Random Cut Forest (RCF) 算法 – 检测数据集中偏离了其他结构良好或模式化的数据的异常数据点。

算法名称 渠道名称 训练输入模式 文件类型 实例类 可并行化
IP 见解 训练和 (可选) 验证 文件 CSV CPU 或 GPU 支持
K-Means 训练和 (可选) 测试 文件或管道 recordIO-protobuf 或 CSV CPU 或 GPUCommon(一个或多个实例上的单个 GPU 设备) 不支持
PCA 训练和 (可选) 测试 文件或管道 recordIO-protobuf 或 CSV GPU 或 CPU 支持
Random Cut Forest 训练和 (可选) 测试 文件或管道 recordIO-protobuf 或 CSV CPU 支持