表格 SageMaker 数据的内置算法 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

表格 SageMaker 数据的内置算法

Amazon SageMaker 提供了专为分析表格数据而量身定制的内置算法。表格数据是指通过表格来组织的任何数据集,由行(观察数据)和列(特征)组成。表格数据的内置 SageMaker 算法可用于分类或回归问题。

  • AutoGluon-表格 – 开源 AutoML 框架,其成功之处在于组合模型并将模型堆叠成多个层。

  • CatBoost – 梯度增强树算法的实施,该算法引入了有序提升以及用于处理类别特征的创新算法。

  • 因子分解机算法 – 线性模型的扩展,旨在经济地捕获高维度稀疏数据集中的各特征之间的交互。

  • K 最近邻 (k-NN) 算法 – 一种非参数化方法,该方法使用 k 个最近标记点将标签分配给新的数据点以进行分类,或者使用回归的 k 个最近点的平均值来预测目标值。

  • LightGBM – 梯度增强树算法的实施,它增加了两种新技术来提高效率和可扩展性:基于梯度的单边采样 (GOSS) 和互斥特征捆绑 (EFB)。

  • 线性学习器算法 – 学习用于回归的线性函数或者用于分类的线性阈值函数。

  • TabTransformer一种基于《变形 self-attention-based金刚》的新型深度表格数据建模架构。

  • 在亚马逊上使用 xgBoost 算法 SageMaker – 梯度增强树算法的实施,该算法结合了来自一组更简单和较弱模型的估计数组合。

算法名称 渠道名称 训练输入模式 文件类型 实例类 可并行化
AutoGluon-表格 训练和(可选)验证 文件 CSV GPU 或 CPU(仅单个实例) 不支持
CatBoost 训练和(可选)验证 文件 CSV CPU(仅单个实例) 不支持
因子分解机 训练和 (可选) 测试 文件或管道 recordIO-protobuf CPU(对密集数据使用 GPU) 支持
K 最近邻 (k-NN) 训练和 (可选) 测试 文件或管道 recordIO-protobuf 或 CSV CPU 或 GPU(一个或多个实例上的单个 GPU 设备) 支持
LightGBM 训练和(可选)验证 文件 CSV CPU(仅单个实例) 不支持
线性学习器 训练和 (可选) 验证和/或测试 文件或管道 recordIO-protobuf 或 CSV CPU 或 GPU 支持
TabTransformer 训练和(可选)验证 文件 CSV GPU 或 CPU(仅单个实例) 不支持
XGBoost(0.90-1、0.90-2、1.0-1、1.2-1、1.2-21) 训练和 (可选) 验证 文件或管道 CSV、LibSVM 或 Parquet CPU(对于 1.2-1 为 GPU) 支持