用于表格数据的内置 SageMaker 算法
Amazon SageMaker 提供了为分析表格数据量身定制的内置算法。表格数据是指通过表格来组织的任何数据集,由行(观察数据)和列(特征)组成。适用于表格数据的内置 SageMaker 算法可用于分类或回归问题。
-
AutoGluon-Tabular – 开源 AutoML 框架,其成功之处在于组合模型并将模型堆叠成多个层。
-
CatBoost – 梯度增强树算法的实施,该算法引入了有序提升以及用于处理类别特征的创新算法。
-
因子分解机算法 – 线性模型的扩展,旨在经济地捕获高维度稀疏数据集中的各特征之间的交互。
-
K 最近邻 (k-NN) 算法 – 一种非参数化方法,该方法使用 k 个最近标记点将标签分配给新的数据点以进行分类,或者使用回归的 k 个最近点的平均值来预测目标值。
-
LightGBM – 梯度增强树算法的实施,它增加了两种新技术来提高效率和可扩展性:基于梯度的单边采样 (GOSS) 和互斥特征捆绑 (EFB)。
-
线性学习器算法 – 学习用于回归的线性函数或者用于分类的线性阈值函数。
-
TabTransformer – 一种新型深度表格数据建模架构,构建在基于自注意力的转换器上。
-
XGBoost 算法 – 梯度增强树算法的实施,该算法结合了来自一组更简单和较弱模型的估计数组合。
算法名称 | 渠道名称 | 训练输入模式 | 文件类型 | 实例类 | 可并行化 |
---|---|---|---|---|---|
AutoGluon-Tabular | 训练和(可选)验证 | 文件 | CSV | GPU 或 CPU(仅单个实例) | 否 |
CatBoost | 训练和(可选)验证 | 文件 | CSV | CPU(仅单个实例) | 否 |
因子分解机 | 训练和 (可选) 测试 | 文件或管道 | recordIO-protobuf | CPU(对密集数据使用 GPU) | 是 |
K 最近邻 (k-NN) | 训练和 (可选) 测试 | 文件或管道 | recordIO-protobuf 或 CSV | CPU 或 GPU(一个或多个实例上的单个 GPU 设备) | 是 |
LightGBM | 训练和(可选)验证 | 文件 | CSV | CPU(仅单个实例) | 否 |
线性学习器 | 训练和 (可选) 验证和/或测试 | 文件或管道 | recordIO-protobuf 或 CSV | CPU 或 GPU | 是 |
TabTransformer | 训练和(可选)验证 | 文件 | CSV | GPU 或 CPU(仅单个实例) | 否 |
XGBoost(0.90-1、0.90-2、1.0-1、1.2-1、1.2-21) | 训练和 (可选) 验证 | 文件或管道 | CSV、LibSVM 或 Parquet | CPU(对于 1.2-1 为 GPU) | 是 |