Use Amazon SageMaker Built-in Algorithms - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Use Amazon SageMaker Built-in Algorithms

Amazon SageMaker provides a suite of built-in algorithms to help data scientists and machine learning practitioners get started on training and deploying machine learning models quickly. For someone that is new to SageMaker, choosing the right algorithm for your particular use case can be a challenging task. The following table provides a quick cheat sheet that shows how you can start with an example problem or use case and find an appropriate built-in algorithm offered by SageMaker that is valid for that problem type. Additional guidance organized by learning paradigms (supervised and unsupervised) and important data domains (text and images) is provided in the sections following the table.

Table: Mapping use cases to built-in algorithms
Example problems and use cases Learning paradigm or domain Problem types Data input format Built-in algorithms

Predict if an item belongs to a category: an email spam filter

监督学习

Binary/multi-class classification

Tabular

因子分解机算法, K 最近邻 (k-NN) 算法, 线性学习器算法, XGBoost 算法

Predict a numeric/continuous value: estimate the value of a house

回归

Tabular

因子分解机算法, K 最近邻 (k-NN) 算法, 线性学习器算法, XGBoost 算法

Based on historical data for a behavior, predict future behavior: predict sales on a new product based on previous sales data.

Time-series forecasting

Tabular

DeepAR 预测算法

Improve the data embeddings of the high-dimensional objects: identify duplicate support tickets or find the correct routing based on similarity of text in the tickets

Embeddings: convert high-dimensional objects into low-dimensional space. Tabular Object2Vec 算法

Drop those columns from a dataset that have a weak relation with the label/target variable: the color of a car when predicting its mileage.

无监督学习

Feature engineering: dimensionality reduction

Tabular

主成分分析 (PCA) 算法

Detect abnormal behavior in application: spot when an IoT sensor is sending abnormal readings

异常检测

Tabular

随机森林砍伐 (RCF) 算法

Protect your application from suspicious users: detect if an IP address accessing a service might be from a bad actor

IP anomaly detection

Tabular

IP 见解

Group similar objects/data together: find high-, medium-, and low-spending customers from their transaction histories

聚类或分组

表格

K-Means 算法

将一组文档组织为主题(事先未知):根据文档中使用的术语将文档标记为属于医疗类别。

主题建模

文本

潜在狄利克雷分配 (LDA) 算法, 神经主题模型 (NTM) 算法

为语料库中的文档分配预定义的类别:将图书馆中的书籍分类为学术学科

文本分析

文本分类

文本

BlazingText 算法

将文本从一种语言转换为另一种语言:从西班牙语到英语

机器翻译

算法
文本

序列到序列算法

总结一个长文本语料库:研究论文的摘要

文本摘要

文本

序列到序列算法

将音频文件转换为文本:转录呼叫中心对话以供进一步分析

语音转换文本

文本

序列到序列算法

根据图像内容标记/标记图像:有关图像中成人内容的警报

图像处理

图像和多标签分类

映像

图像分类算法

检测图像中的人物和物体:警方检查一个大型照片库中的失踪人员

对象检测和分类

映像

对象检测算法

用一个类别标记图像的每个像素:自动驾驶汽车准备识别他们的方式对象

计算机视觉

映像

语义分割算法

有关 SageMaker 提供的所有内置算法通用的 Docker 注册表路径、数据格式、重新推荐的 Amazon EC2 实例类型以及 CloudWatch 日志的重要信息,请参阅有关内置算法的常见信息.

以下部分为 Amazon SageMaker 内置算法提供了其他指导,这些算法按其所属的受监督和无监督学习范式分组。有关这些学习范例及其相关问题类型的说明,请参阅选择算法. 还提供了 SageMaker 内置算法的部分,用于解决两个重要的机器学习领域:文本分析和图像处理。

监督学习

Amazon SageMaker 提供了多种内置的通用算法,可用于分类或回归问题。

  • 线性学习器算法-学习回归的线性函数或用于分类的线性阈值函数。

  • 因子分解机算法-线性模型的扩展,旨在经济地捕获高维稀疏数据集中的各功能之间的交互。

  • XGBoost 算法-实施梯度提升树算法,该算法将一组较简单且较弱模型的一系列估计值结合在一起。

  • K 最近邻 (k-NN) 算法-一种非参数化方法,它使用 k 个最近的标注点将标注分配给新数据点以进行分类,或根据 k 个最近点的平均值为回归分配一个预测的目标值。

Amazon SageMaker 还提供了几种内置的监督学习算法,这些算法在要素工程和根据时间序列数据进行预测期间用于更专业的任务。

  • Object2Vec 算法— 一种新的高度可定制的多用途算法,用于特征工程。它可以学习高维对象的低维密集嵌入,以生成可提高下游模型训练效率的特征。虽然这是一种受监督的算法,因为它需要标记数据进行训练,但在许多情况下,可以纯粹从数据中的自然聚类获取关系标签,而无需任何明确的人类注释。

  • DeepAR 预测算法— 一种监督学习算法,使用递归神经网络 (RNN) 来预测标量(一维)时间序列。

无监督学习

Amazon SageMaker 提供了多种内置算法,可用于各种无监督学习任务,如聚类、尺寸缩减、模式识别和异常检测。

  • 主成分分析 (PCA) 算法-通过将数据点投影到前几个主组件上来减少数据集中的维数(特征数)。目标是尽可能保留更多的信息或变体。对于数学家来说,主分量是数据协方差矩阵的特征向量。

  • K-Means 算法-查找数据中的离散组,其中一个组的成员尽可能彼此相似,并与其他组的成员尽可能互不相同。

  • IP 见解— 学习 IPv4 地址的使用模式。它旨在捕获 IPv4 地址和各种实体之间的关联,例如用户 ID 或帐号。

  • 随机森林砍伐 (RCF) 算法— 检测数据集中与良好结构或模式化数据存在偏差的异常数据点。

文本分析

SageMaker 提供针对自然语言处理、文档分类或汇总、主题建模或分类以及语言转录或翻译中使用的文本文档的分析量身定制的算法。

  • BlazingText 算法— Word2vec 和文本分类算法的高度优化的实现,可轻松扩展到大型数据集。它对于许多下游自然语言处理 (NLP) 任务非常有用。

  • 序列到序列算法— 一种通常用于神经网络机器翻译的监督算法。

  • 潜在狄利克雷分配 (LDA) 算法— 一种适合确定一组文档中主题的算法。它是一种自主算法,这意味着在训练期间不适用包含答案的示例数据。

  • 神经主题模型 (NTM) 算法— 另一种自主技术,它通过一种神经网络方法来确定一组文档中的主题。

图像处理

SageMaker 还提供用于图像分类、物体检测和计算机视觉的图像处理算法。

  • 图像分类算法— 使用带有答案的示例数据(称为监督算法)。 使用此算法为图像分类。

  • 语义分割算法— 提供了一种细粒度的像素级方法来开发计算机视觉应用程序。

  • 对象检测算法-使用单个深度神经网络检测和分类图像中的对象。它是一种指导式学习算法,将图像作为输入并识别图像场景中的所有对象实例。