支持进行微调的大型语言模型 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

支持进行微调的大型语言模型

使用 Autopilot API,用户可以微调以下大型语言模型 (LLM)。这些型号均由 Amazon 提供支持 SageMaker JumpStart。

注意

对于需要接受最终用户许可协议的微调模型,您必须在创建 AutoML 作业时明确声明接受 EULA。请注意,在对预训练模型进行微调后,原始模型的权重会发生变化,因此在部署经过微调的模型时,您无需接受 EULA。

有关在使用 AutoML API 创建微调任务时如何接受 EULA 的信息,请参阅。使用 AutoML API 微调模型时如何设置 EULA 接受度

您可以在下方的模型表中搜索您的JumpStart 模型 ID,然后点击来源列中的链接,找到每个模型的完整详细信息。这些细节可能包括模型支持的语言、模型可能表现出的偏差、用于微调的数据集等。

JumpStart 型号 API 请求中的 BaseModelName 描述
huggingface-textgeneration-dolly-v2-3b-bf16 Dolly3B

Dolly 3B 是一个基于 pythia-2.8b 的 28 亿个参数遵循指令的大型语言模型。它接受了指令/响应微调数据集 databricks-dolly-15k 的训练,可以执行包括头脑风暴、分类、问答、文本生成、信息提取和总结在内的任务。

huggingface-textgeneration-dolly-v2-7b-bf16 Dolly7B

Dolly 7B 是一个基于 pythia-6.9b 的 69 亿个参数遵循指令的大型语言模型。它接受了指令/响应微调数据集 databricks-dolly-15k 的训练,可以执行包括头脑风暴、分类、问答、文本生成、信息提取和总结在内的任务。

huggingface-textgeneration-dolly-v2-12b-bf16 Dolly12B

Dolly 12B 是一个基于 pythia-12b 的 120 亿个参数遵循指令的大型语言模型。它接受了指令/响应微调数据集 databricks-dolly-15k 的训练,可以执行包括头脑风暴、分类、问答、文本生成、信息提取和总结在内的任务。

huggingface-llm-falcon-7b-bf16 Falcon7B

Falcon 7B是一个70亿个参数的因果关系大型语言模型,使用1500亿个代币进行训练,并使用精心策划的语料库进行了增强。Falcon-7B 仅使用英语和法语数据进行训练,不能适当地推广到其他语言。由于该模型是在大量网络数据上训练的,因此它带有网上常见的陈规定型观念和偏见。

huggingface-llm-falcon-7b-instruct-bf16 Falcon7BInstruct

Falcon 7B Instruct是一个70亿个参数的因果关系大型语言模型,基于Falcon 7B构建,并在2.5亿个聊天/指导数据集的代币混合物上进行了微调。Falcon 7B Instruct 主要使用英语数据进行训练,无法适当地推广到其他语言。此外,由于它是在网络的大型语料库上接受培训的,因此它承载了网上常见的陈规定型观念和偏见。

huggingface-llm-falcon-40b-bf16 Falcon40B

Falcon 40B是一个400亿个参数的因果关系大型语言模型,使用1000亿个代币进行训练,并使用精心策划的语料库进行了增强。它主要用英语、德语、西班牙语和法语进行培训,但意大利语、葡萄牙语、波兰语、荷兰语、罗马尼亚语、捷克语和瑞典语能力有限。它不能适当地推广到其他语言。此外,由于它是在网络的大型语料库上接受培训的,因此它承载了网上常见的陈规定型观念和偏见。

huggingface-llm-falcon-40b-instruct-bf16 Falcon40BInstruct

Falcon 40B Instruct 是一个 400 亿个参数的因果关系大型语言模型,建立在 Falcon40B 的基础上,并在 Baize 的混合物上进行了微调。它主要根据英语和法语数据进行训练,不能适当地推广到其他语言。此外,由于它是在网络的大型语料库上接受培训的,因此它承载了网上常见的陈规定型观念和偏见。

huggingface-text2text-flan-t5-large FlanT5L

Flan-T5模型系列是一组大型语言模型,这些模型针对多项任务进行了微调,并且可以进一步训练。这些模型非常适合语言翻译、文本生成、句子完成、词义消歧、摘要或问答等任务。Flan T5 L 是一个使用多种语言训练的7.8亿参数的大型语言模型。您可以在模型表中按型号 ID 搜索的模型详细信息中找到 Flan T5 L 支持的语言列表。 JumpStart

huggingface-text2text-flan-t5-xl FlanT5XL

Flan-T5模型系列是一组大型语言模型,这些模型针对多项任务进行了微调,并且可以进一步训练。这些模型非常适合语言翻译、文本生成、句子完成、词义消歧、摘要或问答等任务。Flan T5 XL 是一款 30 亿个参数的大型语言模型,使用多种语言进行训练。您可以在模型表中按型号 ID 搜索的模型详细信息中找到 Flan T5 XL 支持的语言列表。 JumpStart

huggingface-text2text-flan-t5-xxll FlanT5XXL

Flan-T5模型系列是一组大型语言模型,这些模型针对多项任务进行了微调,并且可以进一步训练。这些模型非常适合语言翻译、文本生成、句子完成、词义消歧、摘要或问答等任务。Flan T5 XXL 是一款 110 亿个参数的模型。您可以在模型表中按型号 ID 搜索的模型详细信息中找到 Flan T5 XXL 支持的语言列表。 JumpStart

meta-textgeneration-llama-2-7b Llama2-7B

Llama 2 是一系列经过预训练和微调的生成文本模型,其规模从 70 亿到 700 亿个参数不等。Llama2-7B 是 70 亿个参数的模型,专供英语使用,可以适应各种自然语言生成任务。

meta-textgeneration-llama-2-7b-f Llama2-7BChat

Llama 2 是一系列经过预训练和微调的生成文本模型,其规模从 70 亿到 700 亿个参数不等。Llama2-7B 是 70 亿个参数的聊天模型,针对对话用例进行了优化。

meta-textgeneration-llama-2-13b Llama2-13B

Llama 2 是一系列经过预训练和微调的生成文本模型,其规模从 70 亿到 700 亿个参数不等。Llama2-13B 是一个 130 亿个参数的模型,专供英语使用,可以适应各种自然语言生成任务。

meta-textgeneration-llama-2-13b-f Llama2-13BChat

Llama 2 是一系列经过预训练和微调的生成文本模型,其规模从 70 亿到 700 亿个参数不等。Llama2-13B 是 130 亿个参数的聊天模型,针对对话用例进行了优化。

huggingface-llm-mistral-7b Mistral7B

Mistral 7B 是一个70亿个参数的代码和通用英文文本生成模型。它可用于各种用例,包括文本摘要、分类、文本完成或代码完成。

huggingface-llm-mistral-7b-instruct Mistral7BInstruct

Mistral 7B Instruct 是 Mistral 7B 的微调版本,适用于对话用例。它专门使用各种公开可用的英语对话数据集。

huggingface-textgeneration1-mpt-7b-bf16 MPT7B

MPT 7B 是一种解码器式的转换器大型语言模型,具有 67 亿个参数,在 1 万亿个英文文本和代码标记上从头开始预训练。它已准备好处理较长的上下文长度。

huggingface-textgeneration1-mpt-7b-instruct-bf16 MPT7BInstruct

MPT 7B Instruct 是任务之后的简短教学模型。它是通过在源自 d atabricks-dolly-15k 和 Anthropic 有用和无害(HH-RLHF)数据集的数据集上微调 MPT 7B 构建的。