文本数据的内置 SageMaker 算法 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

文本数据的内置 SageMaker 算法

SageMaker 提供专为分析自然语言处理、文档分类或摘要、主题建模或分类以及语言转录或翻译中使用的文本文档而量身定制的算法。

  • BlazingText 算法 – Word2vec 和文本分类算法的高度优化的实施,可轻松扩展到大型数据集。它对于许多下游自然语言处理 (NLP) 任务都很有用。

  • 潜在狄利克雷分配 (LDA) 算法 – 此算法适用于确定一组文档中的主题。它是一种自主算法,这意味着在训练期间不适用包含答案的示例数据。

  • 神经主题模型 (NTM) 算法 – 另一种无监督技术,它使用神经网络方法来确定一组文档中的主题。

  • Object2Vec 算法 – 一种通用神经嵌入算法,可用于推荐系统、文档分类和句子嵌入。

  • 序列到序列算法 – 此有监督算法通常用于神经网络机器翻译。

  • 文本分类- TensorFlow –一种支持迁移学习的有监督算法,通过所提供的预训练模型进行文本分类。

算法名称 渠道名称 训练输入模式 文件类型 实例类 可并行化
BlazingText 训练 文件或管道 文本文件(每行一句,带空格分隔的令牌) GPU(仅单个实例) 或 CPU 不支持
LDA 训练和 (可选) 测试 文件或管道 recordIO-protobuf 或 CSV CPU(仅单个实例) 不支持
神经主题模型 训练和 (可选) 验证和/或测试 文件或管道 recordIO-protobuf 或 CSV GPU 或 CPU 支持
Object2Vec 训练和 (可选) 验证和/或测试 文件 JSON 行 GPU 或 CPU(仅单个实例) 不支持
Seq2Seq 建模 训练、验证和 vocab 文件 recordIO-protobuf GPU(仅单个实例) 不支持
文本分类- TensorFlow 训练和验证 文件 CSV CPU 或 GPU 是(仅适用于单实例上的多 GPU)