使用 Amazon SageMaker 内置算法 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon SageMaker 内置算法

Amazon SageMaker 提供了一套内置算法,以帮助数据科学家和机器学习从业者快速开始训练和部署机器学习模型。对于首次接触 的用户SageMaker,为特定使用案例选择正确的算法可能是一项具有挑战性的任务。下表提供了一个快速备忘单,其中显示如何从示例问题或使用案例开始,并查找 提供的SageMaker对此问题类型有效的适当内置算法。该表后面的部分提供了学习范例(监督和自主)和重要数据域(文本和图像)组织的其他指南。

表:将使用案例映射到内置算法
问题和使用案例示例 学习范例或域 问题类型 数据输入格式 内置算法

预测项目是否属于类别:电子邮件垃圾邮件筛选条件

指导式学习

二进制/多类分类

表格

因子分解机算法, K 最近邻 (k-NN) 算法, 线性学习器算法, XGBoost 算法

预测数字/连续值:估计房屋的值

回归

表格

因子分解机算法, K 最近邻 (k-NN) 算法, 线性学习器算法, XGBoost 算法

根据行为的历史数据,预测未来的行为:根据以前的销售数据预测新产品的销售额。

时间序列预测

表格

DeepAR 预测算法

从与标签/目标变量关系弱的数据集中删除这些列:预测车辆的行驶环境时的颜色。

非自主学习

特征工程:维度缩减

表格

主成分分析 (PCA) 算法

检测应用程序中的异常行为:当 IoT 传感器发送异常读数时的 Spot

异常检测

表格

随机森林砍伐 (RCF) 算法

保护您的应用程序免受可疑用户的影响:检测访问服务的 IP 地址是否可能来自不良行为者

IP 异常检测

表格

IP 见解

改进高维对象的数据嵌入:确定重复的支持票证或根据票证中的文本相似性找到正确的路由

嵌入:将高维对象转换为低维空间。

表格

Object2Vec 算法

将类似的对象/数据分组在一起:从其交易历史记录中查找高、中和低消费客户

集群化或分组

表格

K-Means 算法

将一组文档组织为主题(事先不知道):根据文档中使用的术语将文档标记为属于医学类别。

主题建模

文本

潜在狄利克雷分配 (LDA) 算法, 神经主题模型 (NTM) 算法

为语料库中的文档分配预定义的类别:将库中的图书分类为专业

文本分析

文本分类

文本

BlazingText 算法

将文本从一种语言转换为另一种语言:西班牙语转换为英语

机器翻译

算法
文本

序列到序列算法

总结长文本语料库:研究文章的摘要

文本摘要

文本

序列到序列算法

将音频文件转换为文本:转录呼叫中心对话以进行进一步分析

语音到文本

文本

序列到序列算法

根据图像内容标记/标记图像:有关图像中成人内容的警报

图像处理

图像和多标签分类

映像

图像分类算法

检测图像中的人员和对象:警方会审核一个大型照片库中是否有人员缺失

对象检测和分类

映像

对象检测算法

使用类别分别标记图像的每个像素:自动驾驶汽车准备在车辆方式中识别对象

计算机视觉

映像

语义分割算法

有关 Docker 注册表路径、数据格式、建议Amazon EC2的实例类型和 提供的所有内置算法共有的CloudWatch日志的重要信息SageMaker,请参阅有关内置算法的常见信息

以下部分为Amazon SageMaker内置算法提供了额外的指南,按照这些算法所属的指导式和自主式学习范例分组。有关这些学习范例及其关联的问题类型的说明,请参阅选择算法。还提供了用于SageMaker内置算法的部分,这些算法可用于处理两个重要的机器学习域:文本分析和图像处理。

指导式学习

Amazon SageMaker 提供了多种内置的通用算法,可用于分类或回归问题。

  • 线性学习器算法—学习用于回归的线性函数或用于分类的线性阈值函数。

  • 因子分解机算法—线性模型的扩展,旨在经济地捕获高维稀疏数据集中的特征之间的交互。

  • XGBoost 算法—梯度启动树算法的 实施,该算法结合了一组较简单且较弱的模型的一系列估计值。

  • K 最近邻 (k-NN) 算法—非参数化方法,使用 k 最近位置的标记点为新数据点分配标签以进行分类,或者使用 k 最近点的平均值进行预测目标值进行回归。

Amazon SageMaker 还提供了多种内置的监管式学习算法,这些算法用于在特征工程和从时间序列数据进行预测期间执行更专业的任务。

  • Object2Vec 算法—一种高度可自定义的新多用途算法,用于特征工程。它可以学习高维对象的低维密集嵌入,以生成可提高下游模型的训练效率的功能。虽然这是指导式算法,因为它需要标记数据进行训练,但在许多情况下,关系标签可以完全从数据中的自然聚类中获取,而无需任何明确的人工注释。

  • DeepAR 预测算法—一种指导式学习算法,用于使用递归神经网络 (RNN) 预测标量(一维)时间序列。

非自主学习

Amazon SageMaker 提供了多种内置算法,可用于各种自主学习任务,例如聚类、维度缩减、模式识别和异常检测。

  • 主成分分析 (PCA) 算法—通过将数据点投影到前几个主成分上, 可以减少数据集内的维数 (特征数)。目标是保留尽可能多的信息或变化。对于数学运算,主成分是数据协方差矩阵的基元向量。

  • K-Means 算法—在数据中查找离散分组,其中组的成员尽可能彼此相似,并且尽可能与其他组的成员不同。

  • IP 见解—了解 IPv4 地址的使用模式。它设计用于捕获 IPv4 地址与各种实体之间的关联,例如用户 IDs 或账号。

  • 随机森林砍伐 (RCF) 算法—在数据集中检测到与结构良好或模式化数据不同的异常数据点。

文本分析

SageMaker 提供针对自然语言处理中使用的文本文档分析、文档分类或摘要、主题建模或分类以及语言转录或翻译而定制的算法。

  • BlazingText 算法—Word2vec 和文本分类算法的高度优化实施,可轻松扩展到大型数据集。它对于许多下游自然语言处理 (NLP) 任务非常有用。

  • 序列到序列算法—一种通常用于神经网络机器翻译的受监管算法。

  • 潜在狄利克雷分配 (LDA) 算法—一个适合在一组文档中确定主题的算法。它是一种自主算法,这意味着在训练期间不适用包含答案的示例数据。

  • 神经主题模型 (NTM) 算法—另一种自主技术,使用神经网络方法确定一组文档中的主题。

图像处理

SageMaker 还提供了用于图像分类、对象检测和计算机视觉的图像处理算法。

  • 图像分类算法—将示例数据与答案结合使用 (称为指导式算法)。 使用此算法为图像分类。

  • 语义分割算法—提供了用于开发计算机视觉应用程序的精细像素级方法。

  • 对象检测算法—使用单个深度神经网络检测和分类图像中的对象。它是一种指导式学习算法,将图像作为输入并识别图像场景中的所有对象实例。