使用 Amazon SageMaker 内置算法或预训练模型 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon SageMaker 内置算法或预训练模型

亚马逊 SageMaker 提供了一套内置算法、预训练模型和预构建的解决方案模板,帮助数据科学家和机器学习从业人员快速开始培训和部署机器学习模型。对于 SageMaker 不熟悉的人来说,为您的特定用例选择正确的算法可能是一项具有挑战性的任务。下表提供了一份快速备忘单,其中显示了如何从示例问题或使用案例开始,以及如何找到适当的内置算法 SageMaker 这对于该问题类型有效。下表的章节提供了按学习范式(受监督和无监督)和重要数据域(文本和图像)组织的其他指导。

表:将用例映射到内置算法
示例问题和使用案例 学习范式或领域 问题类型 数据输入格式 内置算法

以下是 15 种问题类型中的几个示例,这些问题类型可以通过提供的预训练模型和预构建的解决方案模板来解决。 SageMaker JumpStart:

问题回答:输出给定问题答案的聊天机器人。

文本分析:分析特定于财务等行业领域的模型中的文本。

预训练模型和预构建的解决方案模板

图像分类

表格分类

表格回归

文本分类

对象检测

嵌入文本

解答问题

句子对分类

映像嵌入

命名实体识别

实例分段

文本生成

文本总结

语义分割

机器翻译

图片、文本、表格

热门机型,包括 Mobilenet、YOLO、更快的 R-CNN、BERT、LightGBM 和 catBoost

有关可用的预训练模型的列表,请参阅JumpStart 模型.

有关可用的预构建解决方案模板的列表,请参阅JumpStart Solutions.

预测商品是否属于某个类别:电子邮件垃圾邮件过滤器

监督学习

二进制/多类别分类

表格

因子分解机算法, K 最近邻 (k-NN) 算法, 线性学习器算法, XGBoost 算法

预测数字/连续值:估计房屋的价值

回归

表格

因子分解机算法, K 最近邻 (k-NN) 算法, 线性学习器算法, XGBoost 算法

根据行为的历史数据,预测 future 行为:根据以前的销售数据预测新产品的销售额。

时间序列预测

表格

DeepAR 预测算法

改进高维对象的数据嵌入:识别重复的支持票证或根据票证中文本的相似性找到正确的路线

嵌入:将高维物体转换为低维空间。 表格 Object2Vec 算法

从与标签/目标变量关系薄弱的数据集中删除那些列:预测其里程时汽车的颜色。

无监督学习

功能工程:减少维度

表格

主成分分析 (PCA) 算法

检测应用中的异常行为:发现 IoT 传感器何时发送异常读数

异常检测

表格

随机森林砍伐 (RCF) 算法

保护您的应用程序免受可疑用户的侵害:检测访问服务的 IP 地址是否来自坏参与者

IP 异常检测

表格

IP 见解

将类似的对象/数据组合在一起:从交易历史中找到高、中和低支出客户

群集或分组

表格

K-Means 算法

将一组文档组织成主题(事先未知):根据文档中使用的术语将文档标记为属于医疗类别。

主题建模

文本

潜在狄利克雷分配 (LDA) 算法, 神经主题模型 (NTM) 算法

为语料库中的文档分配预定义的类别:将图书馆中的图书分类为学术学科

文本分析

文本分类

文本

BlazingText 算法

将文本从一种语言转换为其他语言:西班牙语到英语

机器翻译

算法
文本

序列到序列算法

总结一篇长文本语料库:研究 paper 摘要

文本总结

文本

序列到序列算法

将音频文件转换为文本:转录呼叫中心对话以进一步分析

语音到文本转换

文本

序列到序列算法

根据图片的内容为图片添加标签/标记:关于图片中成人内容的警报

图像处理

图片和多标签分类

映像

图像分类算法

检测图像中的人和物体:警方查看失踪人员的大型照片库

对象检测和分类

映像

对象检测算法

使用类别单独标记图像的每个像素:自动驾驶汽车准备识别其方式的物体

计算机视觉

映像

语义分割算法

有关 Docker 注册表路径、数据格式、重新推出的 Amazon EC2 实例类型以及 CloudWatch SageMaker 提供的所有内置算法的常见日志,请参阅有关内置算法的常见信息.

以下各节为亚马逊提供了更多指导。 SageMaker 内置算法按它们所属的监督和无监督学习范式分组。有关这些学习范式及其相关问题类型的描述,请参阅选择算法. 还提供了部分用于 SageMaker 内置算法可用于解决两个重要的机器学习领域:文本分析和图像处理。

预训练的模型和解决方案模板

SageMaker JumpStart 提供了广泛的预训练模型、预构建的解决方案模板以及使用 SageMaker SDK 以及工作室。有关这些模型、解决方案和示例笔记本的更多信息 SageMaker JumpStart,请参阅SageMaker JumpStart.

监督学习

亚马逊 SageMaker 提供了几种内置的通用算法,可用于分类或回归问题。

  • 线性学习器算法— 学习用于回归的线性函数或为分类学习线性阈值函数。

  • 因子分解机算法— 线性模型的扩展,旨在经济地捕获高维稀疏数据集中的各特征之间的交互。

  • XGBoost 算法— 梯度提升树算法的实现,它将一组较简单且较弱的模型的一系列估计值结合在一起。

  • K 最近邻 (k-NN) 算法— 一种非参数化方法,该方法使用 k 个最近标注点将标注分配给新的数据点进行分类,或者使用用于回归的 k 个最近点的平均值分配一个预测目标值。

亚马逊 SageMaker 还提供了几种内置的监督学习算法,用于在特征工程和根据时间序列数据进行预测期间执行更专业的任务

  • Object2Vec 算法— 用于特征工程的新型高度可定制的多用途算法。它可以学习高维对象的低维密集嵌入,从而提高下游模型的训练效率的特性。虽然这是一种监督算法,因为它需要标记数据进行训练,但在许多情况下,在许多情况下,可以纯粹从数据中的自然聚类中获取关系标签,而无需任何明确的人类注释。

  • DeepAR 预测算法一种指导式学习算法,用于使用递归神经网络 (RNN) 来预测标量(一维)时间序列。

无监督学习

亚马逊 SageMaker 提供了几种内置算法,可用于各种无监督学习任务,例如聚类、维度缩减、模式识别和异常检测。

  • 主成分分析 (PCA) 算法— 通过将数据点投影到前几个主组件,从而减少数据集中的维数(要素数)。目的是尽可能保留尽可能多的信息或变体。对于数学家来说,主要成分是数据协方差矩阵的特征向量。

  • K-Means 算法— 在数据中寻找离散组,其中一个组的成员尽可能彼此相似,而与其他组的成员尽可能互不相同。

  • IP 见解— 了解 IPv4 地址的使用模式。它旨在捕获 IPv4 地址与各种实体(例如用户 ID 或帐号)之间的关联。

  • 随机森林砍伐 (RCF) 算法— 检测数据集中与良好结构或模式化数据存在偏差的异常数据点。

文本分析

SageMaker 提供的算法专为自然语言处理、文档分类或总结、主题建模或分类以及语言转录或翻译中使用的文本文档进行分析而定制。

  • BlazingText 算法— 高度优化的 Word2vec 和文本分类算法的实现,可轻松扩展到大型数据集。它对于许多下游自然语言处理 (NLP) 任务是有用的。

  • 序列到序列算法通常用于神经网络机器翻译的监督算法。

  • 潜在狄利克雷分配 (LDA) 算法— 一种适用于确定一组文档中的主题的算法。它是一种自主算法,这意味着在训练期间不适用包含答案的示例数据。

  • 神经主题模型 (NTM) 算法— 另一种自主技术,它通过一种神经网络方法来确定一组文档中的主题。

图像处理

SageMaker 还提供了用于图像分类、对象检测和计算机视觉的图像处理算法。

  • 图像分类算法将示例数据与答案结合使用(称为监督算法)。 使用此算法为图像分类。

  • 语义分割算法— 提供了一种细粒度的像素级方法来开发计算机视觉应用程序。

  • 对象检测算法— 使用单个深度神经网络检测和分类图像中的对象。它是一种指导式学习算法,将图像作为输入并识别图像场景中的所有对象实例。