持续预训练 (CPT) - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

持续预训练 (CPT)

持续预训练(CPT)是一种训练技术,它通过将基础模型暴露于来自特定领域或语料库的其他未标记文本来扩展基础模型的预训练阶段。与需要标记输入输出对的监督微调不同,CPT在原始文档上进行训练,以帮助模型更深入地了解新领域,学习特定领域的术语和写作模式,并适应特定的内容类型或主题领域。

当您拥有大量(数百亿个代币)特定领域的文本数据(例如法律文档、医学文献、技术文档或专有业务内容),并且您希望模型在该领域具有原生流畅性时,这种方法特别有价值。通常,在 CPT 阶段之后,模型需要经过额外的指令调整阶段,以使模型能够使用新获得的知识并完成有用的任务。

支持的模型

CPT 适用于以下 Amazon Nova 型号:

  • Nova 1.0(微型、精简版、专业版)

  • Nova 2.0(精简版)

何时使用 Nova 1.0 与 Nova 2.0

Amazon Nova 系列机型提供多个性价比操作点,可在精度、速度和成本之间进行优化。

当你需要以下内容时,请选择 Nova 2.0:

  • 适用于复杂分析任务的高级推理功能

  • 在编码、数学和科学问题解决方面表现出色

  • 支持更长的上下文长度

  • 更好的多语言性能

如果符合以下条件,请选择 Nova 1.0:

  • 您的用例需要标准的语言理解,无需高级推理。

  • 您想进行优化以降低训练和推理成本。

  • 你的重点是教授特定于模型领域的知识和行为,而不是复杂的推理任务。

  • 你已经在 Nova 1.0 上验证了性能,不需要其他功能。

注意

较大的型号并不总是更好。在 Nova 1.0 和 Nova 2.0 机型之间进行选择时,请考虑性价比和您的具体业务需求。