Input/Output 因式分解机算法接口因子分解机算法的 EC2 实例建议示例笔记本

因子分解机算法

因子分解机算法是通用的有监督学习算法，可用于分类和回归任务。它是线性模型的扩展，旨在经济地捕获高维稀疏数据集中的各特征之间的交互。例如，在一个点击预测系统中，当特定广告类别的广告放置在特定页面类别的页面上时，因子分解机模型可以捕获所观察到的点击率模式。对于处理高维稀疏数据集的任务 (如点击预测和项目建议)，因子分解机是不错的选择。

注意

分解机算法的 SageMaker Amazon AI 实现仅考虑功能之间的成对（二阶）交互。

主题

Input/Output 因式分解机算法接口

因子分解机算法可在二元分类模式或回归模式下运行。在每种模式下，可以向测试通道提供数据集以及训练通道数据集。评分取决于使用的模式。在回归模式下，使用均方根误差 (RMSE) 对测试数据集计分。在二元分类模式下，使用二元交叉熵 (记录丢失)、准确度 (阈值=0.5) 和 F1 分数 (阈值=0.5) 对测试数据集计分。

对于训练，因子分解机算法目前仅支持具有 Float32 张量的 recordIO-protobuf 格式。由于使用案例主要针对稀疏数据，CSV 并不是合适选项。记录 p IO-wrapped rotobuf 支持文件和管道模式训练。

对于推理，因子分解机算法支持 application/json 和 x-recordio-protobuf 格式。

对于二元分类问题，该算法预测分数和标签。标签是一个数字，可以是 0 或 1。分数是一个数字，它表示该算法认为标签应该为 1 的强烈程度。该算法先计算分数，然后从分数值中得出标签。如果分数大于或等于 0.5，则标签为 1。
对于回归问题，仅返回分数，并且它是预测的值。例如，如果使用因子分解机预测电影评级，则分数是预测的评级值。

有关训练和推理文件格式的更多详细信息，请参阅因子分解机示例笔记本。

因子分解机算法的 EC2 实例建议

Amazon SageMaker AI 分解机器算法具有高度可扩展性，可以跨分布式实例进行训练。建议对稀疏和密集数据集使用包含 CPU 实例的训练和推理。在某些情况下，对密集数据使用包含一个或多个 GPU 的训练可能具有一些优势。包含 GPU 的训练仅适用于密集数据。对稀疏数据使用 CPU 实例。因子分解机算法支持使用 P2、P3、G4dn 和 G5 实例进行训练和推理。

因子分解机示例笔记本

有关使用 SageMaker AI 分解机算法分析 MNIST 数据集中从零到九的手写数字图像的示例笔记本，请参阅 MNIST 分解机简介。有关如何创建和访问可用于在 SageMaker AI 中运行示例的 Jupyter 笔记本实例的说明，请参阅。Amazon SageMaker 笔记本实例创建并打开笔记本实例后，选择 “SageMaker AI 示例” 选项卡以查看所有 SageMaker AI 示例的列表。使用因子分解机算法的示例笔记本位于 Amazon 算法简介部分中。要打开笔记本，请单击使用选项卡，然后选择创建副本。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

模型优化

工作方式