使用 Amazon SageMaker 内置算法或预训练模型 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon SageMaker 内置算法或预训练模型

Amazon SageMaker 提供了一套内置算法、预训练模型和预先构建的解决方案模板,以帮助数据科学家和机器学习从业者快速开始训练和部署机器学习模型。对于新手来说 SageMaker,为你的特定用例选择正确的算法可能是一项艰巨的任务。下表提供了一个简短的备忘单,显示了如何从示例问题或用例入手,找到适用于 SageMaker 该问题类型的适当内置算法。该表后面的部分提供了按学习范式(有监督和无监督)和重要数据域(文本和图像)整理的更多指导。

表:将使用场景映射到内置算法
示例问题和使用场景 学习范式或域 问题类型 数据输入格式 内置算法

以下是通过提供的预训练模型和预先构建的解决方案模板可以解决的 15 种问题类型中的几个示例: SageMaker JumpStart

问题回答:对给定问题输出答案的聊天机器人。

文本分析:分析特定于金融等行业领域的模型中的文本。

预先训练的模型和预先构建的解决方案模板

图像分类

表格分类

表格回归

文本分类

对象检测

文本嵌入

问题回答

句子对分类

图像嵌入

命名实体识别

实例分段

文本生成

文本摘要

语义分割

机器翻译

图片、文本、表格

热门机型,包括 Mobilenet、YOLO、Faster R-CNN、BERT、LightGBM 和 CatBoost

有关可用预训练模型的列表,请参阅JumpStart 模型

有关可用的预建解决方案模板的列表,请参阅JumpStart 解决方案

预测项目是否属于某个类别:垃圾电子邮件过滤器

有监督学习

二元/多元分类

表格

AutoGluon-表格, CatBoost, 因子分解机算法, K 最近邻 (k-NN) 算法, LightGBM, 线性学习器算法, TabTransformer, XGBoost 算法

预测数字/连续值:估计房屋的价值

回归

表格

AutoGluon-表格, CatBoost, 因子分解机算法, K 最近邻 (k-NN) 算法, LightGBM, 线性学习器算法, TabTransformer, XGBoost 算法

根据行为的历史数据,预测未来的行为:根据以前的销售数据预测新产品的销售额。

时间序列预测

表格

DeepAR 预测算法

改进高维度对象的数据嵌入:根据支持工单中的文本相似性,识别重复的支持工单或者查找正确的路线

嵌入:将高维度物体转换到低维度空间中。 表格 Object2Vec 算法

从数据集中删除与标签/目标变量的关系较弱的列:预测汽车里程时汽车的颜色。

无监督学习

特征工程:减少维度

表格

主成分分析 (PCA) 算法

检测应用中的异常行为:发现 IoT 传感器何时发送异常读数

异常检测

表格

Random Cut Forest (RCF) 算法

保护您的应用程序免受可疑用户的侵害:检测访问服务的 IP 地址是否来自恶意行为者

IP 异常检测

表格

IP 洞察

将类似的对象/数据组合在一起:通过客户的交易历史,查找高、中和低支出的客户

聚类或分组

表格

K-Means 算法

将一组文档按照主题(事先未知)进行整理:根据文档中使用的词语,将文档标记为属于医疗类别。

主题建模

文本

潜在狄利克雷分配 (LDA) 算法, 神经主题模型 (NTM) 算法

为文集中的文档分配预定义的类别:将图书馆中的图书按学术学科分类

文本分析

文本分类

文本

BlazingText 算法, 文本分类- TensorFlow

将文本从一种语言转换为其他语言:西班牙语到英

机器翻译

算法
文本

序列到序列算法

总结一篇长文本集:研究论文的摘要

文本摘要

文本

序列到序列算法

将音频文件转换为文本:转录呼叫中心对话供进一步分析

S peech-to-text

文本

序列到序列算法

根据图像的内容为图像添加标签/标记:对图像中的成人内容发出警报

图像处理

图像和多标签分类

图像

图像分类 – MXNet

使用迁移学习对图像中的某些内容进行分类。

图像分类 图像

图像分类- TensorFlow

检测图像中的人员和物体:警方在大型照片库中查找失踪人员

对象检测和分类

图像

对象检测 – MXNet, 物体检测- TensorFlow

使用类别单独标记图像的每个像素:自动驾驶汽车准备识别道路中的物体

计算机视觉

图像

语义分割算法

有关 Docker 注册表路径、数据格式、推荐的 Amazon EC2 实例类型以及所提供的所有内置算法通用的 CloudWatch 日志的重要信息 SageMaker,请参阅。有关内置算法的常见信息

以下各节为按其所属的监督和无监督学习范式分组的 Amazon SageMaker 内置算法提供了更多指导。有关这些学习范式及其相关问题类型的描述,请参阅选择算法。还提供了用于解决两个重要机器学习领域的 SageMaker 内置算法的章节:文本分析和图像处理。

预先训练的模型和解决方案模板

SageMaker JumpStart 提供了各种预训练模型、预建的解决方案模板以及使用 SageMaker SDK 和 Studio Classic 的常见问题类型的示例。有关这些型号、解决方案和提供的笔记本示例的更多信息 SageMaker JumpStart,请参阅SageMaker JumpStart

有监督学习

Amazon SageMaker 提供了几种内置的通用算法,可用于处理分类或回归问题。

  • AutoGluon-表格 – 开源 AutoML 框架,其成功之处在于组合模型并将模型堆叠成多个层。

  • CatBoost – 梯度增强树算法的实施,该算法引入了有序提升以及用于处理类别特征的创新算法。

  • 因子分解机算法 – 线性模型的扩展,旨在经济地捕获高维度稀疏数据集中的各特征之间的交互。

  • K 最近邻 (k-NN) 算法 – 一种非参数化方法,该方法使用 k 个最近标记点将标签分配给新的数据点以进行分类,或者使用回归的 k 个最近点的平均值来预测目标值。

  • LightGBM – 梯度增强树算法的实施,它增加了两种新技术来提高效率和可扩展性:基于梯度的单边采样 (GOSS) 和互斥特征捆绑 (EFB)。

  • 线性学习器算法 – 学习用于回归的线性函数或者用于分类的线性阈值函数。

  • TabTransformer一种基于《变形 self-attention-based金刚》的新型深度表格数据建模架构。

  • XGBoost 算法 – 梯度增强树算法的实施,该算法结合了来自一组更简单和较弱模型的估计数组合。

Amazon SageMaker 还提供了几种内置的监督学习算法,用于在特征工程和根据时间序列数据进行预测期间执行更专业的任务。

  • Object2Vec 算法 – 用于特征工程的高度可定制的新型多用途算法。它可以学习高维度对象的低维度密集型嵌入,以生成能够提高下游模型训练效率的特征。这种算法需要标记用于训练的数据,因此是一种有监督算法,但在许多情况下,可以纯粹从数据中的自然聚类中获取关系标签,而无需任何明确的人工标注。

  • DeepAR 预测算法 – 一种有监督学习算法,可使用递归神经网络 (RNN) 来预测标量(一维)时间序列。

无监督学习

Amazon SageMaker 提供了多种内置算法,可用于各种无监督学习任务,例如聚类、降维、模式识别和异常检测。

  • 主成分分析 (PCA) 算法 – 通过将数据点投影到前几个主成份上来减少数据集中的维度(特征数量)。目标是尽可能保留尽可能多的信息或变体。对于数学家来说,主要成分是数据协方差矩阵的特征向量。

  • K-Means 算法 – 查找数据中的离散组,其中一个组的成员尽可能彼此相似,而与其他组的成员尽可能互不相同。

  • IP 洞察 – 了解 IPv4 地址的使用模式。它旨在捕获 IPv4 地址与各种实体(例如用户 ID 或账号)之间的关联。

  • Random Cut Forest (RCF) 算法 – 检测数据集中偏离了其他结构良好或模式化的数据的异常数据点。

文本分析

SageMaker 提供专为分析自然语言处理、文档分类或摘要、主题建模或分类以及语言转录或翻译中使用的文本文档而量身定制的算法。

  • BlazingText 算法 – Word2vec 和文本分类算法的高度优化的实施,可轻松扩展到大型数据集。它对于许多下游自然语言处理 (NLP) 任务都很有用。

  • 序列到序列算法 – 此有监督算法通常用于神经网络机器翻译。

  • 潜在狄利克雷分配 (LDA) 算法 – 此算法适用于确定一组文档中的主题。它是一种自主算法,这意味着在训练期间不适用包含答案的示例数据。

  • 神经主题模型 (NTM) 算法 – 另一种无监督技术,它使用神经网络方法来确定一组文档中的主题。

  • 文本分类- TensorFlow –一种支持迁移学习的有监督算法,通过所提供的预训练模型进行文本分类。

图像处理

SageMaker 还提供了用于图像分类、物体检测和计算机视觉的图像处理算法。

  • 图像分类 – MXNet – 使用包含答案的示例数据(称为有监督算法)。 使用此算法为图像分类。

  • 图像分类- TensorFlow— 使用预训练的 TensorFlow Hub 模型针对特定任务进行微调(称为监督算法)。 使用此算法为图像分类。

  • 语义分割算法 – 提供一种细粒度的像素级方法来开发计算机视觉应用程序。

  • 对象检测 – MXNet – 使用单个深度神经网络检测和分类图像中的对象。它是一种指导式学习算法,将图像作为输入并识别图像场景中的所有对象实例。

  • 物体检测- TensorFlow – 检测图像中的边界框和对象标签。它是一种监督学习算法,支持使用可用的预训练 TensorFlow 模型进行迁移学习。