数据集文件类型和输入数据格式 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

数据集文件类型和输入数据格式

基于指令的微调使用带标签的数据集来提高针对特定自然语言处理 () LLMs 任务进行预训练的性能。NLP带标签的示例的格式为提示-响应对,措辞为说明。

要了解支持的数据集文件类型,请参阅支持的数据集文件类型

要了解输入数据格式,请参阅基于指令的微调的输入数据格式

支持的数据集文件类型

Autopilot 支持基于指令的微调数据集,格式化为CSV文件(默认)或 Parquet 文件。

  • CSV(逗号分隔值)是一种基于行的文件格式,它以人类可读的纯文本存储数据,这是数据交换的常用选择,因为它得到各种应用程序的支持。

  • Par@@ q uet 是一种基于列的二进制文件格式,与人类可读的文件格式(例如)相比,存储和处理数据的效率更高。CSV这使其成为解决大数据问题的更好选择。

注意

数据集可能包含多个文件,每个文件都必须符合特定的模板。有关如何格式化输入数据的信息,请参阅基于指令的微调的输入数据格式

基于指令的微调的输入数据格式

数据集中的每个文件都必须遵循以下格式:

  • 数据集必须正好包含以逗号分隔的两个命名列,分别名为 inputoutput。自动驾驶仪不允许添加任何其他列。

  • input 列包含提示,其对应的 output 包含预期答案。inputoutput 均为字符串格式。

以下示例说明了 Autopilot 中基于指令的微调的输入数据格式。

input,output "<prompt text>","<expected generated text>"
注意

我们建议使用至少包含 1000 行的数据集,以确保模型的最佳学习效果和性能。

此外,Autopilot 会根据所使用的模型类型,对数据集中的行数和上下文长度设置最大值限制。

  • 对数据集行数的限制适用于数据集中所有文件(包括多个文件)的累积行数。如果定义了两种通道类型(一种用于训练,一种用于验证),则该限制适用于两个通道内所有数据集的总行数。当行数超过阈值时,作业会因验证错误而失败。

  • 当数据集中某行的输入或输出长度超过在语言模型上下文中设置的限制时,则会自动截断其内容。如果数据集中超过 60% 的行被截断,无论是在输入还是输出中,Autopilot 都会因验证错误而使作业失败。

下表列出了每种模型的限制。

JumpStart 型号标识 BaseModelName在API请求中 行限制 上下文长度限制
huggingface-textgeneration-dolly-v2-3b-bf16 Dolly3B 1 万行 1024 个令牌
huggingface-textgeneration-dolly-v2-7b-bf16 Dolly7B 1 万行 1024 个令牌
huggingface-textgeneration-dolly-v2-12b-bf16 Dolly12B 1 万行 1024 个令牌
huggingface-llm-falcon-7b-bf16 Falcon7B 1,000 行 1024 个令牌
huggingface-llm-falcon-7b-instruct-bf16 Falcon7BInstruct 1,000 行 1024 个令牌
huggingface-llm-falcon-40b-bf16 Falcon40B 1 万行 1024 个令牌
huggingface-llm-falcon-40b-instruct-bf16 Falcon40BInstruct 1 万行 1024 个令牌
huggingface-text2text-flan-t5-large FlanT5L 1 万行 1024 个令牌
huggingface-text2text-flan-t5-xl FlanT5XL 1 万行 1024 个令牌
huggingface-text2text-flan-t5-xxll FlanT5XXL 1 万行 1024 个令牌
meta-textgeneration-llama-2-7b Llama2-7B 1 万行 2048 个令牌
meta-textgeneration-llama-2-7b-f Llama2-7BChat 1 万行 2048 个令牌
meta-textgeneration-llama-2-13b Llama2-13B 7,000 行 2048 个令牌
meta-textgeneration-llama-2-13b-f Llama2-13BChat 7,000 行 2048 个令牌
huggingface-llm-mistral-7b Mistral7B 1 万行 2048 个令牌
huggingface-llm-mistral-7b-instruct Mistral7BInstruct 1 万行 2048 个令牌
huggingface-textgeneration1-mpt-7b-bf16 MPT7B 1 万行 1024 个令牌
huggingface-textgeneration1-mpt-7b-instruct-bf16 MPT7BInstruct 1 万行 1024 个令牌