数据集文件类型和输入数据格式

Instruction-based fine-tuning 使用带标签的数据集来提高预先训练的 LLM 在特定自然语言处理 (NLP) 任务上的性能。标注示例的格式为提示-回答对，措辞为指示。

要了解支持的数据集文件类型，请参阅支持的数据集文件类型。

支持的数据集文件类型

Autopilot 支持基于指令的微调数据集，格式为 CSV 文件（默认）或 Parquet 文件。

CSV（逗号分隔值）是一种基于行的文件格式，以人类可读的明文形式存储数据。
Parquet 是一种基于列的二进制文件格式，与 CSV 等人类可读文件格式相比，这种格式存储和处理数据的效率更高。这使它成为解决大数据问题的更好选择。

数据集可能包含多个文件，每个文件都必须符合特定的模板。有关如何格式化输入数据的信息，请参阅基于指令的微调的输入数据格式。

数据集中的每个文件都必须符合以下格式：

以下示例说明了 Autopilot 中基于指令的微调的输入数据格式。


input,output
"<prompt text>","<expected generated text>"

我们建议使用至少包含 1000 行的数据集，以确保模型的最佳学习效果和性能。

此外，Autopilot 会根据所使用的模型类型，对数据集中的行数和上下文长度设置最大值限制。

数据集中的行数限制适用于数据集中所有文件（包括多个文件）的累计行数。如果定义了两个通道类型（一个用于训练，一个用于验证），则限制适用于两个通道中所有数据集的行总数。当行数超过阈值时，作业会因验证错误而失败。
当数据集中某行的输入或输出长度超过在语言模型上下文中设置的限制时，则会自动截断其内容。如果数据集中超过 60% 的行被截断，无论是在输入还是输出中，Autopilot 都会因验证错误而使作业失败。

下表列出了每种模型的限制。

JumpStart 型号	API 请求中的 `BaseModelName`	行限制	上下文长度限制
huggingface-textgeneration-dolly-v2-3b-bf16	`Dolly3B`	1 万行	1024 个令牌
huggingface-textgeneration-dolly-v2-7b-bf16	`Dolly7B`	1 万行	1024 个令牌
huggingface-textgeneration-dolly-v2-12b-bf16	`Dolly12B`	1 万行	1024 个令牌
huggingface-llm-falcon-7b-bf16	`Falcon7B`	1000 行	1024 个令牌
huggingface-llm-falcon-7b-instruct-bf16	`Falcon7BInstruct`	1000 行	1024 个令牌
huggingface-llm-falcon-40b-bf16	`Falcon40B`	1 万行	1024 个令牌
huggingface-llm-falcon-40b-instruct-bf16	`Falcon40BInstruct`	1 万行	1024 个令牌
huggingface-text2text-flan-t5-large	`FlanT5L`	1 万行	1024 个令牌
huggingface-text2text-flan-t5-xl	`FlanT5XL`	1 万行	1024 个令牌
huggingface-text2text-flan-t5-xxll	`FlanT5XXL`	1 万行	1024 个令牌
meta-textgeneration-llama-2-7b	`Llama2-7B`	1 万行	2048 个令牌
meta-textgeneration-llama-2-7b-f	`Llama2-7BChat`	1 万行	2048 个令牌
meta-textgeneration-llama-2-13b	`Llama2-13B`	7000 行	2048 个令牌
meta-textgeneration-llama-2-13b-f	`Llama2-13BChat`	7000 行	2048 个令牌
huggingface-llm-mistral-7b	`Mistral7B`	1 万行	2048 个令牌
huggingface-llm-mistral-7b-instruct	`Mistral7BInstruct`	1 万行	2048 个令牌
huggingface-textgeneration1-mpt-7b-bf16	`MPT7B`	1 万行	1024 个令牌
huggingface-textgeneration1-mpt-7b-instruct-bf16	`MPT7BInstruct`	1 万行	1024 个令牌

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

支持的模型

超参数