训练模式和算法支持 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

训练模式和算法支持

Autopilot 支持不同的训练模式和算法来解决机器学习问题,报告质量和客观指标,并在需要时自动使用交叉验证。

模型训练

SageMaker Autopilot 可以根据数据集大小自动选择训练方法,您也可以手动选择。选项如下所示:

  • 组合 – Autopilot 使用 AutoGluon 库来训练多个基础模型。为了找到最适合您的数据集的组合,组合模式使用不同的模型和元参数设置运行 10 次试验。然后,Autopilot 使用堆叠组合方法,将这些模型组合在一起,以创建最优预测模型。有关 Autopilot 在组合模式下对表格数据支持的算法列表,请参阅下文的算法支持部分。

  • 超参数优化 (HPO) – Autopilot 在数据集上运行训练作业时,使用贝叶斯优化或多保真优化来调整超参数,从而找到模型的最佳版本。HPO 模式选择与您的数据集最相关的算法,并选择最佳的超参数范围来调整您的模型。为了调整模型,HPO 模式最多可运行 100 次试验(默认),以找到选定范围内的最佳超参数设置。如果您的数据集大小小于 100 MB,Autopilot 将使用贝叶斯优化。如果您的数据集大于 100 MB,Autopilot 会选择多保真优化。

    在多保真优化中,训练容器会连续发出指标。在选定的目标指标上表现不佳的试验会提前停止。系统向表现良好的试验分配更多资源。

    有关 Autopilot 在 HPO 模式下支持的算法列表,请参阅下文的算法支持部分。

  • 自动 – Autopilot 会根据您的数据集大小自动选择组合模式或 HPO 模式。如果您的数据集大于 100 MB,Autopilot 会选择 HPO。否则,它会选择组合模式。在以下情况下,Autopilot 可能无法读取数据集的大小。

    • 您为 AutoML 作业启用虚拟私有云 (VPC) 模式,但包含数据集的 S3 存储桶仅允许从 VPC 进行访问。

    • 您的数据集的输入 S3DataTypeManifestFile

    • 输入 S3Uri 包含超过 1000 个项目。

    如果 Autopilot 无法读取您的数据集大小,则默认为选择 HPO 模式。

注意

要获得最佳运行时间和性能,请对小于 100 MB 的数据集使用组合训练模式。

算法支持

HPO 模式下,Autopilot 支持以下类型的机器学习算法:

  • 线性学习器 – 一种有监督学习算法,可以解决分类或回归问题。

  • XGBoost – 一种有监督学习算法,它尝试将一组较简单且较弱模型的一系列估计值结合在一起,从而准确地预测目标变量。

  • 深度学习算法 – 多层感知器 (MLP) 和前馈人工神经网络。此算法可以处理线性不可分的数据。

注意

您无需指定一个算法来解决机器学习问题。Autopilot 会自动选择合适的算法进行训练。

组合模式下,Autopilot 支持以下类型的机器学习算法:

  • LightGBM – 一种经过优化的框架,使用基于树的算法和梯度提升。此算法使用在广度而不是深度上增长的树,并且针对速度进行了高度优化。

  • CatBoost – 使用基于树的算法和梯度提升的框架。针对处理分类变量进行了优化。

  • XGBoost – 使用基于树的算法的框架,其梯度提升在深度而不是广度上增长。

  • 随机森林 – 一种基于树的算法,在数据的随机子样本上使用多个决策树并进行替换。树在每个级别上拆分到最佳节点。对每个树的决策一起求平均值,以防止过度拟合并改善预测。

  • 额外的树 – 基于树的算法,在整个数据集上使用多个决策树。树在每个级别上随机拆分。对每个树的决策进行求平均值,以防止过度拟合并改善预测。与随机森林算法相比,额外的树会增加一定程度的随机化。

  • 线性模型 – 一种使用线性方程对所观测数据中两个变量之间的关系进行建模的框架。

  • 神经网络 torch – 使用 Pytorch 实施的神经网络模型。

  • 神经网络 fast.ai – 使用 fast.ai 实施的神经网络模型。