用于文本数据的内置 SageMaker AI 算法 - 亚马逊 SageMaker AI

用于文本数据的内置 SageMaker AI 算法

SageMaker 人工智能提供的算法专为分析自然语言处理、文档分类或摘要、主题建模或分类以及语言转录或翻译中使用的文本文档而量身定制。

BlazingText 算法 – Word2vec 和文本分类算法的高度优化的实施，可轻松扩展到大型数据集。它对于许多下游自然语言处理 (NLP) 任务都很有用。
潜在狄利克雷分配 (LDA) 算法 – 此算法适用于确定一组文档中的主题。它是一种自主算法，这意味着在训练期间不适用包含答案的示例数据。
神经主题模型 (NTM) 算法 – 另一种无监督技术，它使用神经网络方法来确定一组文档中的主题。
Object2Vec 算法 – 一种通用神经嵌入算法，可用于推荐系统、文档分类和句子嵌入。
Sequence-to-Sequence 算法 – 此有监督算法通常用于神经网络机器翻译。
文本分类- TensorFlow –一种支持迁移学习的有监督算法，通过所提供的预训练模型进行文本分类。

算法名称	渠道名称	训练输入模式	文件类型	实例类	可并行化
BlazingText	训练	文件或管道	文本文件（每行一句，带空格分隔的令牌）	GPU（仅单个实例）或 CPU	否
LDA	训练和 (可选) 测试	文件或管道	recordIO-protobuf 或 CSV	CPU（仅单个实例）	否
神经主题模型	训练和 (可选) 验证和/或测试	文件或管道	recordIO-protobuf 或 CSV	GPU 或 CPU	是
Object2Vec	训练和 (可选) 验证和/或测试	文件	JSON 行	GPU 或 CPU（仅单个实例）	否
Seq2Seq 建模	训练、验证和 vocab	文件	recordIO-protobuf	GPU（仅单个实例）	否
文本分类- TensorFlow	训练和验证	文件	CSV	CPU 或 GPU	是（仅在单个实例 GPUs 上跨多个实例）

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

XGBoost 0.72 版本

BlazingText