Amazon 中的内置算法和预训练模型 SageMaker

Amazon SageMaker 提供了一套内置算法、预训练模型和预先构建的解决方案模板，以帮助数据科学家和机器学习从业者快速开始训练和部署机器学习模型。对于新手来说 SageMaker，为你的特定用例选择正确的算法可能是一项艰巨的任务。下表提供了一个简短的备忘单，显示了如何从示例问题或用例入手，找到适用于 SageMaker 该问题类型的适当内置算法。该表后面的部分提供了按学习范式（有监督和无监督）和重要数据域（文本和图像）整理的更多指导。

表：将使用场景映射到内置算法

学习范式或域	问题类型	示例问题和使用场景	数据输入格式	内置算法
预先训练的模型和预先构建的解决方案模板	图像分类表格分类表格回归文本分类对象检测文本嵌入问题回答句子对分类图像嵌入命名实体识别实例分段文本生成文本摘要语义分割机器翻译	以下是亚马逊提供的预训练模型和预建解决方案模板可以解决的 15 种问题类型中的几个示例： SageMaker JumpStart 问题回答：对给定问题输出答案的聊天机器人。文本分析：分析特定于金融等行业领域的模型中的文本。	图片、文本、表格	热门机型，包括 Mobilenet、YOLO、Faster R-CNN、BERT、LightGBM 和 CatBoost 有关可用预训练模型的列表，请参阅JumpStart 模型。有关可用的预建解决方案模板的列表，请参阅JumpStart 解决方案。
有监督学习	二元/多元分类	预测项目是否属于某个类别：垃圾电子邮件过滤器	表格	AutoGluon-Tabular, CatBoost, 因子分解机算法, K 最近邻 (k-NN) 算法, LightGBM, 线性学习器算法, TabTransformer, XGBoost 使用 Amazon A SageMaker I 的算法
	回归	预测 numeric/continuous 价值：估计房屋的价值	表格	AutoGluon-Tabular, CatBoost, 因子分解机算法, K 最近邻 (k-NN) 算法, LightGBM, 线性学习器算法, TabTransformer, XGBoost 使用 Amazon A SageMaker I 的算法
	时间序列预测	根据行为的历史数据，预测未来的行为：根据以前的销售数据预测新产品的销售额。	表格	使用 SageMaker AI DeepAR 预测算法
	嵌入：将高维度物体转换到低维度空间中。	改进高维度对象的数据嵌入：根据支持工单中的文本相似性，识别重复的支持工单或者查找正确的路线	表格	Object2Vec 算法
无监督学习	特征工程：减少维度	从数据集中删除那些与 label/target 变量关系较弱的列：预测里程时的汽车颜色。	表格	主成分分析 (PCA) 算法
	异常检测	检测应用中的异常行为：发现 IoT 传感器何时发送异常读数	表格	Random Cut Forest (RCF) 算法
	IP 异常检测	保护您的应用程序免受可疑用户的侵害：检测访问服务的 IP 地址是否来自恶意行为者	表格	IP 洞察
	聚类或分组	objects/data 相似的分组：从交易历史中寻找高、中、低消费客户	表格	K-Means 算法
	主题建模	将一组文档按照主题（事先未知）进行整理：根据文档中使用的词语，将文档标记为属于医疗类别。	文本	潜在狄利克雷分配 (LDA) 算法, 神经主题模型 (NTM) 算法
文本分析	文本分类	为文集中的文档分配预定义的类别：将图书馆中的图书按学术学科分类	文本	BlazingText 算法, 文本分类 – TensorFlow
	机器翻译算法	将文本从一种语言转换为其他语言：西班牙语到英	文本	序列到序列算法
	文本摘要	总结一篇长文本集：研究论文的摘要	文本	序列到序列算法
	S peech-to-text	将音频文件转换为文本：转录呼叫中心对话供进一步分析	文本	序列到序列算法
图像处理	图像和多标签分类	根据图像的内容为图像添加标签/标记：对图像中的成人内容发出警报	Image	图像分类 – MXNet
	图像分类	使用迁移学习对图像中的某些内容进行分类。	Image	图像分类 – TensorFlow
	对象检测和分类	检测图像中的人员和物体：警方在大型照片库中查找失踪人员	Image	对象检测 – MXNet, 对象检测 – TensorFlow
	计算机视觉	使用类别单独标记图像的每个像素：自动驾驶汽车准备识别道路中的物体	Image	语义分割算法

有关 SageMaker AI 提供的所有内置算法共有的以下项目的重要信息，请参阅内置算法的参数。

Docker 注册表路径
数据格式
推荐的 Amazon EC2 实例类型
CloudWatch 日志

以下各节为按其所属的监督和无监督学习范式分组的 SageMaker Amazon AI 内置算法提供了更多指导。有关这些学习范式及其相关问题类型的描述，请参阅算法类型。还提供了有关 SageMaker 人工智能内置算法的章节，这些算法可用于解决两个重要的机器学习领域：文本分析和图像处理。

预训练模型和解决方案模板
有监督学习
无监督学习
文本分析
图像处理

预训练模型和解决方案模板

Amazon SageMaker JumpStart 提供各种预训练模型、预先构建的解决方案模板和常见问题类型的示例。它们使用 SageMaker SDK 和 Studio Classic。有关这些型号、解决方案和 Amazon 提供的笔记本示例的更多信息 SageMaker JumpStart，请参阅SageMaker JumpStart 预训练模型。

有监督学习

Amazon SageMaker AI 提供了几种内置的通用算法，可用于处理分类或回归问题。

AutoGluon-Tabular – 开源 AutoML 框架，其成功之处在于组合模型并将模型堆叠成多个层。
CatBoost – 梯度增强树算法的实施，该算法引入了有序提升以及用于处理类别特征的创新算法。
因子分解机算法 – 线性模型的扩展，旨在经济地捕获高维度稀疏数据集中的各特征之间的交互。
K 最近邻 (k-NN) 算法：这是一种非参数方法，使用 k 个最近的标记点来赋值。对于分类，它是一个新数据点的标签。对于回归，它是根据 k 个最近点的平均值预测的目标值。
LightGBM：梯度增强树算法的实施，它增加了两种新技术来提高效率和可扩展性。这两种新技术是基于梯度的单边采样 (GOSS) 和互斥特征捆绑 (EFB)。
线性学习器算法 – 学习用于回归的线性函数或者用于分类的线性阈值函数。
TabTransformer一种基于《变形 self-attention-based金刚》的新型深度表格数据建模架构。
XGBoost 使用 Amazon A SageMaker I 的算法 – 梯度增强树算法的实施，该算法结合了来自一组更简单和较弱模型的估计数组合。

Amazon SageMaker AI 还提供了几种内置的监督学习算法，用于在特征工程和根据时间序列数据进行预测期间执行更专业的任务。

Object2Vec 算法 – 用于特征工程的高度可定制的新型多用途算法。它可以学习高维度对象的低维度密集型嵌入，以生成能够提高下游模型训练效率的特征。这是一种有监督算法，但在许多情况下，可以纯粹从数据中的自然集群中获取关系标签。尽管需要标注数据来进行训练，但无需任何明确的人工注释即可实现。
使用 SageMaker AI DeepAR 预测算法 – 一种有监督学习算法，可使用递归神经网络 (RNN) 来预测标量（一维）时间序列。

无监督学习

Amazon SageMaker AI 提供了多种内置算法，可用于各种无人监督的学习任务。这些任务包括集群、降维、规律识别和异常检测等。

主成分分析 (PCA) 算法 – 通过将数据点投影到前几个主成份上来减少数据集中的维度（特征数量）。目标是尽可能保留尽可能多的信息或变体。对于数学家来说，主要成分是数据协方差矩阵的特征向量。
K-Means 算法：查找数据中的离散组。这种情况发生在一个组的成员尽可能彼此相似，而与其他组的成员尽可能互不相同。
IP 洞察—学习地址的使用模式。 IPv4 它旨在捕获 IPv4 地址与各种实体（例如用户 IDs 或账号）之间的关联。
Random Cut Forest (RCF) 算法 – 检测数据集中偏离了其他结构良好或模式化的数据的异常数据点。

文本分析

SageMaker 人工智能提供了专为分析文本文档而量身定制的算法。这包括用于自然语言处理、文档分类或总结、主题建模或分类以及语言转录或翻译的文本。

BlazingText 算法 – Word2vec 和文本分类算法的高度优化的实施，可轻松扩展到大型数据集。它对于许多下游自然语言处理 (NLP) 任务都很有用。
序列到序列算法 – 此有监督算法通常用于神经网络机器翻译。
潜在狄利克雷分配 (LDA) 算法 – 此算法适用于确定一组文档中的主题。它是一种自主算法，这意味着在训练期间不适用包含答案的示例数据。
神经主题模型 (NTM) 算法 – 另一种无监督技术，它使用神经网络方法来确定一组文档中的主题。
文本分类 – TensorFlow –一种支持迁移学习的有监督算法，通过所提供的预训练模型进行文本分类。

图像处理

SageMaker AI 还提供用于图像分类、物体检测和计算机视觉的图像处理算法。

图像分类 – MXNet – 使用包含答案的示例数据（称为有监督算法）。使用此算法为图像分类。
图像分类 – TensorFlow— 使用预训练的 TensorFlow Hub 模型针对特定任务进行微调（称为监督算法）。使用此算法为图像分类。
语义分割算法 – 提供一种细粒度的像素级方法来开发计算机视觉应用程序。
对象检测 – MXNet – 使用单个深度神经网络检测和分类图像中的对象。它是一种指导式学习算法，将图像作为输入并识别图像场景中的所有对象实例。
对象检测 – TensorFlow – 检测图像中的边界框和对象标签。它是一种监督学习算法，支持使用可用的预训练 TensorFlow 模型进行迁移学习。

主题

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

算法类型

常见信息