支持进行微调的大型语言模型 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

支持进行微调的大型语言模型

使用 Autopilot API,用户可以微调由 Amazon 提供支持的大型语言模型 (LLMs)。 SageMaker JumpStart

注意

对于需要接受最终用户许可协议的微调模型,您必须在创建 AutoML 作业时明确声明接受 EULA。请注意,在对预训练模型进行微调后,原始模型的权重将被更改,因此在部署微调后的模型时,您无需随后接受 EULA。

有关使用 AutoML API 创建微调作业时如何接受 EULA 的信息,请参阅 使用 AutoML API 微调模型时如何设置 EULA 接受度

您可以在下方的模型表中搜索您的JumpStart 模型 ID,然后点击来源列中的链接,找到每个模型的完整详细信息。这些细节可能包括模型支持的语言、可能表现出的偏差、用于微调的数据集等。

下表列出了您可以通过 AutoML 作业进行微调的支持的 JumpStart 模型。

JumpStart 型号 API 请求中的 BaseModelName 描述
huggingface-textgeneration-dolly-v2-3b-bf16 Dolly3B

Dolly 3B 是基于 pythia-2.8b 的 28 亿参数指令跟随大型语言模型。它在指令/应答微调数据集 databricks-dolly-15k 上进行了训练,可以执行头脑风暴、分类、问答、文本生成、信息提取和摘要等任务。

huggingface-textgeneration-dolly-v2-7b-bf16 Dolly7B

Dolly 7B 是基于 pythia-6.9b 的 69 亿参数指令跟随大型语言模型。它在指令/应答微调数据集 databricks-dolly-15k 上进行了训练,可以执行头脑风暴、分类、问答、文本生成、信息提取和摘要等任务。

huggingface-textgeneration-dolly-v2-12b-bf16 Dolly12B

Dolly 12B 是基于 pythia-12b 的 120 亿参数指令跟随大型语言模型。它在指令/应答微调数据集 databricks-dolly-15k 上进行了训练,可以执行头脑风暴、分类、问答、文本生成、信息提取和摘要等任务。

huggingface-llm-falcon-7b-bf16 Falcon7B

Falcon 7B 是一个 70 亿参数的因果大型语言模型,以 15000 亿词库为基础进行训练,并通过精心策划的语料库进行增强。Falcon-7B 仅在英语和法语数据基础上进行了训练,无法适当地推广到其他语言。由于该模型是在大量网络数据的基础上训练出来的,因此带有网上常见的刻板印象和偏见。

huggingface-llm-falcon-7b-instruct-bf16 Falcon7BInstruct

Falcon 7B Instruct 是一个基于 Falcon 7B 的 70 亿参数因果大型语言模型,并在 2.5 亿词组的聊天/指令混合数据集上进行了微调。Falcon 7B Instruct 主要是在英语数据上进行训练的,并不能适当地推广到其他语言。此外,由于它是在具有代表性的大规模网络语料库中训练出来的,因此带有网上常见的刻板印象和偏见。

huggingface-llm-falcon-40b-bf16 Falcon40B

Falcon 40B 是拥有 400 亿个参数的因果大型语言模型,以 1 万亿个词库为基础进行训练,并通过精心策划的语料库进行增强。它主要接受英语、德语、西班牙语和法语训练,在意大利语、葡萄牙语、波兰语、荷兰语、罗马尼亚语、捷克语和瑞典语方面能力有限。它不能适当地推广到其他语言。此外,由于它是在具有代表性的大规模网络语料库中训练出来的,因此带有网上常见的刻板印象和偏见。

huggingface-llm-falcon-40b-instruct-bf16 Falcon40BInstruct

Falcon 40B Instruct 是一个基于 Falcon40B 的 400 亿参数因果大型语言模型,并在 Baize 的混合基础上进行了微调。它主要是在英语和法语数据上进行训练的,并不能适当地推广到其他语言。此外,由于它是在具有代表性的大规模网络语料库中训练出来的,因此带有网上常见的刻板印象和偏见。

huggingface-text2text-flan-t5-large FlanT5L

这些区域有:Flan-T5模型家族是一组大型语言模型,这些模型针对多项任务进行了微调,并且可以进一步训练。这些模型非常适合语言翻译、文本生成、句子补全、词义消歧、摘要或问题解答等任务。Flan T5 L 是一个 7.8 亿参数的大型语言模型,以多种语言为基础进行训练。您可以在模型表中按型号 ID 搜索的模型详细信息中找到 Flan T5 L 支持的语言列表。 JumpStart

huggingface-text2text-flan-t5-xl FlanT5XL

这些区域有:Flan-T5模型家族是一组大型语言模型,这些模型针对多项任务进行了微调,并且可以进一步训练。这些模型非常适合语言翻译、文本生成、句子补全、词义消歧、摘要或问题解答等任务。Flan T5 XL 是一个 30 亿参数的大型语言模型,经过多种语言的训练。您可以在模型表中按型号 ID 搜索的模型详细信息中找到 Flan T5 XL 支持的语言列表。 JumpStart

huggingface-text2text-flan-t5-xxll FlanT5XXL

这些区域有:Flan-T5模型家族是一组大型语言模型,这些模型针对多项任务进行了微调,并且可以进一步训练。这些模型非常适合语言翻译、文本生成、句子补全、词义消歧、摘要或问题解答等任务。Flan T5 XXL 是一个 110 亿参数模型。您可以在模型表中按型号 ID 搜索的模型详细信息中找到 Flan T5 XXL 支持的语言列表。 JumpStart

meta-textgeneration-llama-2-7b Llama2-7B

Llama 2 是一组经过预训练和微调的文本生成模型,参数规模从 70 亿到 700 亿不等。Llama2-7B 是用于英语的 70 亿参数模型,可适用于各种自然语言生成任务。

meta-textgeneration-llama-2-7b-f Llama2-7BChat

Llama 2 是一组经过预训练和微调的文本生成模型,参数规模从 70 亿到 700 亿不等。Llama2-7B 是 70 亿参数聊天模型,针对对话使用场景进行了优化。

meta-textgeneration-llama-2-13b Llama2-13B

Llama 2 是一组经过预训练和微调的文本生成模型,参数规模从 70 亿到 700 亿不等。Llama2-13B 是用于英语的 130 亿参数模型,适用于各种自然语言生成任务。

meta-textgeneration-llama-2-13b-f Llama2-13BChat

Llama 2 是一组经过预训练和微调的文本生成模型,参数规模从 70 亿到 700 亿不等。Llama2-13B 是 130 亿参数聊天模型,针对对话使用场景进行了优化。

huggingface-llm-mistral-7b Mistral7B

Mistral 7B 是一个 70 亿参数代码和通用英语文本生成模型。它可用于各种使用场景,包括文本摘要、分类、文本补全或代码补全。

huggingface-llm-mistral-7b-instruct Mistral7BInstruct

Mistral 7B Instruct 是 Mistral 7B 的微调版本,适用于对话使用场景。它是利用各种公开的英语会话数据集专门设计的。

huggingface-textgeneration1-mpt-7b-bf16 MPT7B

MPT 7B 是一个具有 67 亿个参数的解码器式转换器大型语言模型,在 1 万亿个英语文本和代码词块上从头开始预训练。它可以处理较长的上下文。

huggingface-textgeneration1-mpt-7b-instruct-bf16 MPT7BInstruct

MPT 7B Instruct 是一种针对任务的简短指导模式。它是通过在 databricks-dolly-15kAnthropic Helpful and Harmless (HH-RLHF) 数据集基础上对 MPT 7B 进行微调而构建的。