自定义词汇表 - Amazon Transcribe
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

自定义词汇表

您可以使用文本文件格式创建自定义词汇表,以便为 Amazon Transcribe 提供有关如何处理输入文件中的语音的更多信息。一个自定义词汇表是一个列表,其中包含您希望 Amazon Transcribe 在您的音频输入中识别的特殊词。它们通常是领域特定的单词和短语、Amazon Transcribe 无法识别的单词或专有名词。

重要

使用 Amazon Transcribe 时,您应对自己数据的完整性负责。请勿将机密信息、个人信息 (PII) 或受保护的健康信息 (PHI) 输入自定义词汇表中。

自定义词汇表最适合用于目标特定单词和短语。我们建议您专门针对特定音频录制来定制单独的小词汇表,而不是创建单一的大词汇表来用于您的所有录制。

自定义词汇基础知识:

  • 您的账户中最多可拥有 100 个词汇表(作为单独的文本文件)。

  • 每个自定义词汇表文件的大小限制为 50 Kb。

  • 每个词汇文件可以是表格格式或列表格式;强烈建议使用表格格式。

  • 如果使用表格式,您的词汇表文件必须存储在 S3 存储桶中。如果使用列表,您可以使用控制台上传文本文件,或者在 API/CLI 调用中包含单词列表。

  • 每个条目必须包含少于 256 个字符,其中包括连字符。

  • 仅使用语言允许的字符集中的字符(请参阅自定义词汇表的字符集)。

  • 如果列表中的某个条目为短语,您必须使用连字符隔开短语的单词。例如,如果短语为 Los Angeles,请在文件中以 Los-Angeles 的形式输入它。

为什么要使用表格而不是列表来作为自定义词汇?

表格格式为您提供了更多选择,并更好地控制自定义词汇中单词的输入和输出。控制台、SDK 和 CLI 都以相同的方式使用自定义词汇表;列表对每种方法的使用不同,可能需要额外的格式才能在控制台、SDK 和 CLI 之间成功使用。

特定于自定义词汇表的 API 操作

要创建自定义词汇表,请使用CreateVocabulary操作或Amazon Transcribe 控制台. 提交之后CreateVocabulary请求,Amazon Transcribe 将处理词汇表。要查看词汇表的处理状态,请使用控制台或GetVocabularyAPI。

要使用自定义词汇,请将VocabularyName字段中Settings当你调用时的字段StartTranscriptionJob操作或在创建转录作业时在控制台中选择词汇表。

在自定义词汇中使用首字母缩略词

要输入首字母缩略词或其字母应单独发音的其他单词,以句点隔开的单个字母形式输入;例如:A.B.C.F.B.I.A.W.S.. 要输入首字母缩略词的复数形式(如 “ABCs”),请用连字符将 “s” 与首字母缩略词隔开:A.B.C.-s. 您可以使用大写或小写字母定义首字母缩略词。并非所有语言都支持缩写词;请参阅支持的语言和特定于语言的功能.

使用表格创建自定义词汇

您可以通过在文本文件中创建包含以下标题的四列表来创建自定义词汇表:

  • Phrase— 应识别的单词或短语。

    如果条目为短语,请用连字符 (-) 隔开各个单词。例如,您键入 Los-Angeles 形式的 Los Angeles

    将首字母缩略词或其字母应作为单个字母发音的其他单词以用圆点隔开单个字母的形式输入(如 A.B.C.F.B.I.)。要输入首字母缩略词的复数形式(如 “ABCs”),请用连字符将 “s” 与首字母缩略词隔开:"A.B.C.-s“。 您可以使用大写或小写字母输入首字母缩略词。有关支持首字母缩略词的语言列表,请参阅支持的语言和特定于语言的功能

    Phrase 字段为必填项。您可以使用输入语言允许的任何字符。有关允许字符的列表,请参阅各种语言。如果您没有指定DisplayAs字段中,Amazon Transcribe 使用Phrase字段在输出文件中。

  • IPA— 使用 IPA 字符发音你的单词或短语。

    你可以在国际音标 (IPA)在这个领域中。IPA 字段不能包含前导空格或尾随空格,并且您必须使用单个空格来隔开输入中的每个音素。例如,在英语中,您将输入短语Los-Angeles如同l ɔ s æ n ʤ ə l ə sF.B.I.如同ɛ f b i aɪ.

    有关特定语言允许的 IPA 字符列表,请参阅自定义词汇表的字符集.

  • SoundsLike— 使用语言的标准拼写法来模仿单词的发音方式。

    您可以将单词或短语细分为更小的部分(通常基于音节),并根据作品的发音方式为每个部分提供发音。例如,在英语中,您可以为短语提供发音提示。Los-Angeles如同loss-ann-gel-es. 单词的提示Etienne像这样:eh-tee-en. 您使用连字符 (-) 分隔提示的每个部分。

  • DisplayAs— 定义单词或短语在输出时的外观。例如,如果单词或短语为 Los-Angeles,则可以将显示形式指定为“Los Angeles”,以便连字符不会显示在输出中。

    如果您没有指定DisplayAs字段中,Amazon Transcribe 使用Phrase字段来自输出中的输入文件中的字段。

    您可以在 DisplayAs 字段中使用任何 UTF-8 字符。

将文本文件中的每个单词或短语放在单独的行上,并使用 TAB 字符分隔每个字段。只能使用空格之内IPADisplayAs列。

基本自定义词汇表可能类似于以下内容([TAB]表示 TAB 字符):

Phrase[TAB]IPA[TAB]SoundsLike[TAB]DisplayAs Los-Angeles[TAB][TAB][TAB]Los Angeles F.B.I.[TAB]ɛ f b i aɪ[TAB][TAB]FBI Etienne[TAB][TAB]eh-tee-en[TAB] Amazon-dot-com[TAB][TAB]Am-ah-zon-dot-com[TAB]Amazon.com
重要

在给定行中,你不能拥有两者的内容IPASoundsLike字段之间没有不同。您必须从中选择其中一个字段,或将两个字段保留为空。

列可以按任意顺序输入,如以下示例所示。请注意,这些示例使用空格来对齐列以便于视觉清晰度;但是,您的输入文件。必须只能使用列条目之间的 TAB 字符。如果您复制这些示例,请删除列之间的多余的空格并替换[TAB]带 TAB 字符。你的表可能会有视觉上对齐的列不对齐,就像前面的示例中一样。

Phrase [TAB]SoundsLike [TAB]IPA [TAB]DisplayAs Los-Angeles [TAB] [TAB] [TAB]Los Angeles F.B.I. [TAB] [TAB]ɛ f b i aɪ [TAB]FBI Etienne [TAB]eh-tee-en [TAB] [TAB] Amazon-dot-com[TAB]Am-ah-zon-dot-com[TAB] [TAB]Amazon.com
DisplayAs [TAB]SoundsLike [TAB]IPA [TAB]Phrase Los Angeles[TAB] [TAB] [TAB]Los-Angeles FBI [TAB] [TAB]ɛ f b i aɪ [TAB]F.B.I. [TAB]eh-tee-en [TAB] [TAB]Etienne Amazon.com [TAB]Am-ah-zon-dot-com[TAB] [TAB]Amazon-dot-com

使用扩展名保存自定义词汇表文件.txt在您调用 API 的区域中的 S3 存储桶中。

提示

确保你的文本文件在LF格式的日期和时间。如果您使用任何其他格式,例如CRLF,Amazon Transcribe 不接受您的自定义词汇。

使用列表创建自定义词汇

您可以使用文本文件中的单词或短语列表来创建自定义词汇表。您可以每行放置一个单词,也可以在一行放置多个单词(使用逗号将单词或短语相互隔开)。

使用时,列表格式可以作为文本文件上传Amazon Transcribe 控制台. 如果将列表与 API 或 CLI 结合使用,则必须在 API/CLI 调用中包含单词列表。