用于表格数据的内置 SageMaker 算法 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

用于表格数据的内置 SageMaker 算法

Amazon SageMaker 提供了为分析表格数据量身定制的内置算法。表格数据是指通过表格来组织的任何数据集,由行(观察数据)和列(特征)组成。适用于表格数据的内置 SageMaker 算法可用于分类或回归问题。

  • AutoGluon-Tabular – 开源 AutoML 框架,其成功之处在于组合模型并将模型堆叠成多个层。

  • CatBoost – 梯度增强树算法的实施,该算法引入了有序提升以及用于处理类别特征的创新算法。

  • 因子分解机算法 – 线性模型的扩展,旨在经济地捕获高维度稀疏数据集中的各特征之间的交互。

  • K 最近邻 (k-NN) 算法 – 一种非参数化方法,该方法使用 k 个最近标记点将标签分配给新的数据点以进行分类,或者使用回归的 k 个最近点的平均值来预测目标值。

  • LightGBM – 梯度增强树算法的实施,它增加了两种新技术来提高效率和可扩展性:基于梯度的单边采样 (GOSS) 和互斥特征捆绑 (EFB)。

  • 线性学习器算法 – 学习用于回归的线性函数或者用于分类的线性阈值函数。

  • TabTransformer – 一种新型深度表格数据建模架构,构建在基于自注意力的转换器上。

  • XGBoost 算法 – 梯度增强树算法的实施,该算法结合了来自一组更简单和较弱模型的估计数组合。

算法名称 渠道名称 训练输入模式 文件类型 实例类 可并行化
AutoGluon-Tabular 训练和(可选)验证 文件 CSV GPU 或 CPU(仅单个实例)
CatBoost 训练和(可选)验证 文件 CSV CPU(仅单个实例)
因子分解机 训练和 (可选) 测试 文件或管道 recordIO-protobuf CPU(对密集数据使用 GPU)
K 最近邻 (k-NN) 训练和 (可选) 测试 文件或管道 recordIO-protobuf 或 CSV CPU 或 GPU(一个或多个实例上的单个 GPU 设备)
LightGBM 训练和(可选)验证 文件 CSV CPU(仅单个实例)
线性学习器 训练和 (可选) 验证和/或测试 文件或管道 recordIO-protobuf 或 CSV CPU 或 GPU
TabTransformer 训练和(可选)验证 文件 CSV GPU 或 CPU(仅单个实例)
XGBoost(0.90-1、0.90-2、1.0-1、1.2-1、1.2-21) 训练和 (可选) 验证 文件或管道 CSV、LibSVM 或 Parquet CPU(对于 1.2-1 为 GPU)