使用亚马逊SageMaker内置算法或预先训练的模型 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用亚马逊SageMaker内置算法或预先训练的模型

亚马逊SageMaker提供了一套内置算法、预训练模型和预建解决方案模板,以帮助数据科学家和机器学习从业者快速开始训练和部署机器学习模型。对于新手来说SageMaker,为你的特定用例选择正确的算法可能是一项艰巨的任务。下表提供了一份简短的备忘表,显示了如何从示例问题或用例开始,找到由此提供的适用于SageMaker该问题类型的适当内置算法。下表的部分提供了按学习范例(监督和非监督)和重要数据域(文本和图像)整理的其他指导。

表:将用例映射到内置算法
示例问题和用例 学习范式或领域 问题类型 数据输入格式 内置算法

以下是预训练模型和预先构建的解决方案模板可以解决的 15 种问题类型中的几个示例:SageMakerJumpStart

问题解答:为给定问题输出答案的聊天机器人。

文本分析:分析来自特定行业领域(例如金融)的模型的文本。

预先训练的模型和预先构建的解决方案模板

图像分类

表格分类

表格回归

文本分类

对象检测

文本嵌入

问题回答

句子对分类

图像嵌入

命名实体识别

实例分段

文本生成

文本摘要

语义分割

机器翻译

图片、文本、表格

热门型号,包括 Mobilenet、YOLO、Faster R-CNN、BERT、LightGBM 和 CatBoost

有关可用预训练模型的列表,请参阅JumpStart模型

有关可用预建解决方案模板的列表,请参阅JumpStart解决方案

预测某件商品是否属于某个类别:电子邮件垃圾邮件过滤器

监督学习

二元/多类别分类

表格式的

AutoGluon-表格, CatBoost, 因子分解机算法, K 最近邻 (k-NN) 算法, LightGBM, 线性学习器算法, TabTransformer, XGBoost 算法

预测数字/连续值:估计房屋的价值

回归

表格式的

AutoGluon-表格, CatBoost, 因子分解机算法, K 最近邻 (k-NN) 算法, LightGBM, 线性学习器算法, TabTransformer, XGBoost 算法

根据行为的历史数据,预测future 行为:根据以前的销售数据预测新产品的销售额。

时间序列预测

表格式的

DeepAR 预测算法

改进高维对象的数据嵌入:识别重复的支持票证或根据票证中文本的相似度找到正确的路由

嵌入:将高维物体转换为低维空间。 表格式的 Object2Vec 算法

从数据集中删除那些与标签/目标变量关系较弱的列:预测里程时的汽车颜色。

无监督学习

特征工程:降维

表格式的

主成分分析 (PCA) 算法

检测应用程序中的异常行为:发现IoT 传感器何时发送异常读数

异常检测

表格式的

随机森林砍伐 (RCF) 算法

保护您的应用程序免受可疑用户的攻击:检测访问服务的 IP 地址是否可能来自恶意行为者

IP 异常检测

表格式的

IP 见解

将相似的对象/数据分组在一起:从交易历史中找到高、中、低支出客户

聚类或分组

表格式的

K-Means 算法

将一组文档组织成主题(事先未知):根据文档中使用的术语将文档标记为属于医学类别。

主题建模

文本

潜在狄利克雷分配 (LDA) 算法, 神经主题模型 (NTM) 算法

为语料库中的文档分配预定义的类别:将图书馆中的书籍分为学术学科

文本分析

文本分类

文本

BlazingText 算法, 文本分类- TensorFlow

将文本从一种语言转换为另一种语言:西班牙语到英语

机器翻译

算法
文本

序列到序列算法

总结长文本语料库:研究paper 文摘要

文本摘要

文本

序列到序列算法

将音频文件转换为文本:转录呼叫中心对话以进行进一步分析

S peech-to-text

文本

序列到序列算法

根据图像内容对图像进行标记/标记:有关图像中成人内容的警报

图像处理

图像和多标签分类

映像

图像分类-MXNet

使用迁移学习对图像中的某物进行分类。

图像分类 映像

图像分类- TensorFlow

检测图像中的人物和物体:警方审查了失踪人员的大型照片库

物体检测和分类

映像

物体检测-MXNet, 物体检测- TensorFlow

用类别单独标记图像的每个像素:自动驾驶汽车准备识别挡路的物体

计算机视觉

映像

语义分割算法

有关 Docker 注册表路径、数据格式、推荐的 Amazon EC2 实例类型以及提供的所有内置算法通用的CloudWatch日志的重要信息SageMaker,请参阅。有关内置算法的常见信息

以下各节为 Amazon SageMaker 内置算法提供了更多指导,这些算法按其所属的监督和非监督学习范例分组。有关这些学习范例及其相关问题类型的描述,请参见选择算法。还提供了可用于解决两个重要机器学习领域的SageMaker内置算法的章节:文本分析和图像处理。

预先训练的模型和解决方案模板

SageMakerJumpStart提供各种预训练模型、预建解决方案模板以及使用 SageMaker SDK 和 Studio 的常见问题类型的示例。有关这些型号、解决方案和提供的示例笔记本的更多信息 SageMakerJumpStart,请参阅SageMaker JumpStart

监督学习

亚马逊SageMaker提供了几种内置的通用算法,可用于解决分类或回归问题。

  • AutoGluon-表格—一种开源 AutoML 框架,通过组合模型并将其堆叠在多层中来取得成功。

  • CatBoost—引入有序提升的梯度增强树算法的实现和用于处理分类特征的创新算法。

  • 因子分解机算法—线性模型的扩展,该模型旨在经济地捕获高维稀疏数据集内要素之间的交互作用。

  • K 最近邻 (k-NN) 算法—一种非参数方法,该方法使用最近的 k 个标注点为新数据点分配标签以进行分类,或使用 k 个最近点的平均值为回归分配预测的目标值。

  • LightGBM—梯度增强树算法的实现,该算法添加了两种新技术以提高效率和可扩展性:基于梯度的单侧采样(GOSS)和独家特征捆绑化(EFB)。

  • 线性学习器算法—学习用于回归的线性函数或用于分类的线性阈值函数。

  • TabTransformer—基于self-attention-based变形金刚的新型深度表格数据建模架构。

  • XGBoost 算法—一种梯度增强树算法的实现,该算法将来自一组更简单和更弱模型的估计值集合起来进行估计。

亚马逊SageMaker还提供多种内置的监督学习算法,用于特征工程和根据时间序列数据进行预测期间的更专业的任务。

  • Object2Vec 算法—一种新的高度可定制的多用途算法,用于特征工程。它可以学习高维对象的低维密集嵌入,从而生成提高下游模型训练效率的功能。虽然这是一种监督算法,因为它需要带标签的数据进行训练,但在许多情况下,关系标签可以纯粹从数据中的自然聚类中获得,无需任何明确的人工注释。

  • DeepAR 预测算法一种监督学习算法,用于使用循环神经网络 (RNN) 预测标量(一维)时间序列。

无监督学习

Amazon SageMaker 提供了多种内置算法,可用于各种无监督学习任务,例如聚类、降维、模式识别和异常检测。

  • 主成分分析 (PCA) 算法— 通过将数据点投影到前几个主成分上来减少数据集内的维度(要素数量)。目标是保留尽可能多的信息或变体。对于数学家来说,主成分是数据协方差矩阵的特征向量。

  • K-Means 算法—在数据中查找离散组的成员尽可能不同。

  • IP 见解—学习 IPv4 地址的使用模式。它旨在捕获 IPv4 地址与各种实体(例如用户 ID 或账号)之间的关联。

  • 随机森林砍伐 (RCF) 算法—检测数据集中的异常数据点,这些数据点与其他结构良好的或模式化的数据不同。

文本分析

SageMaker提供专为分析用于自然语言处理、文档分类或摘要、主题建模或分类以及语言转录或翻译的文本文档而量身定制的算法。

  • BlazingText 算法—高度优化的 Word2vec 和文本分类算法的实现,可轻松扩展到大型数据集。它对许多下游自然语言处理 (NLP) 任务很有用。

  • 序列到序列算法一种常用于神经机器翻译的监督算法。

  • 潜在狄利克雷分配 (LDA) 算法—一种适用于确定一组文档中主题的算法。它是一种自主算法,这意味着在训练期间不适用包含答案的示例数据。

  • 神经主题模型 (NTM) 算法—另一种使用神经网络方法确定一组文档中主题的无监督技术。

  • 文本分类- TensorFlow一种支持迁移学习的监督算法,使用可用的预训练模型进行文本分类。

图像处理

SageMaker还提供用于图像分类、物体检测和计算机视觉的图像处理算法。

  • 图像分类-MXNet—使用带有答案的示例数据(称为监督算法)。 使用此算法为图像分类。

  • 图像分类- TensorFlow—使用预训练的 TensorFlow Hub 模型针对特定任务进行微调(称为监督算法)。 使用此算法为图像分类。

  • 语义分割算法—为开发计算机视觉应用程序提供了一种细粒度的像素级方法。

  • 物体检测-MXNet—使用单个深度神经网络对图像中的对象进行检测和分类。它是一种指导式学习算法,将图像作为输入并识别图像场景中的所有对象实例。

  • 物体检测- TensorFlow—检测图像中的边界框和对象标签。它是一种监督学习算法,支持使用可用的预训练TensorFlow模型进行迁移学习。