Amazon Transcribe
开发人员指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

自定义词汇表

您可以向 Amazon Transcribe 提供有关如何通过创建自定义词汇表来处理输入文件中的语音的更多信息。自定义词汇表 是一个列表,其中包含您希望 Amazon Transcribe 在您的音频输入中识别的特殊词。它们通常是特定领域的单词和短语、Amazon Transcribe 无法识别的单词或专有名词。

自定义词汇表最适合用于目标特定单词和短语。我们建议您专门针对特定音频录制来定制单独的小词汇表,而不是创建包含许多术语的单一词汇表来用于您的所有录制。您的账户中最多可拥有 100 个词汇表。自定义词汇表的大小限制为 50 Kb。

指定文本文件格式的自定义词汇表。您可以在词汇表中指定单词列表,或指定一个包含四列的表格,以便您更好地控制自定义词汇表中单词的输入和输出。

有关创建自定义词汇表的更多信息,请参阅使用列表创建自定义词汇表使用表格创建自定义词汇表

要创建自定义词汇表,请使用 CreateVocabulary 操作或 Amazon Transcribe 控制台。在提交 CreateVocabulary 请求后,Amazon Transcribe 将处理词汇表。要查看词汇表的处理状态,请使用控制台或 GetVocabulary 操作。

注意

如果您要使用 Amazon Transcribe 控制台上传自定义词汇表,则必须使用词汇表列表而不是词汇表表格。要使用控制台通过使用词汇表表格来创建自定义词汇表,源文件必须位于 Amazon S3 存储桶中。

要使用自定义词汇表,请在调用 StartTranscriptionJob 操作时设置 Settings 字段的 VocabularyName 字段,或在创建转录作业时在控制台中选择该词汇表。

使用列表创建自定义词汇表

您可以使用文本文件中的单词或短语列表来创建自定义词汇表。您可以每行放置一个单词,也可以在一行放置多个单词(使用逗号将单词或短语相互隔开)。

每个条目必须满足以下条件:

  • 包括连字符在内的条目长度少于 256 个字符

  • 仅包含允许的字符集中的字符

有关有效字符集,请参阅自定义词汇表的字符集

如果某个条目为短语,请用连字符隔开短语的单词。例如,如果短语为 Los Angeles,请在文件中以 Los-Angeles 的形式输入它。

将首字母缩略词或其字母应作为单个字母发音的其他单词以用圆点隔开单个字母的形式输入(如 A.B.C.F.B.I.)。要输入首字母缩略词的复数形式(如“ABCs”),请用连字符将“s”与首字母缩略词隔开:A.B.C.-s。您可以使用大写或小写字母输入首字母缩略词。仅支持美国英语 (en-US) 格式的首字母缩略词。

以下示例显示了一个输入文件,其中的词汇表单词和短语位于不同的行上:

Los-Angeles F.B.I. Etienne

以下示例显示了一个输入文件,其中的词汇表单词和短语位于一个行上并用逗号相互隔开:

Los-Angeles,F.B.I.,Etienne

使用表格创建自定义词汇表

您可以通过创建文本文件格式的表格来创建自定义词汇表。表格中的每行都包含一个单词或短语(后跟可选的 IPASoundsLikeDisplayAs 字段)。每个字段必须满足以下条件:

  • 包括连字符在内的条目长度少于 256 个字符

  • 仅包含允许的字符集中的字符

有关有效字符集,请参阅自定义词汇表的字符集

将每个单词或短语放在文本文件中不同的行上。除了每个字段中的数据外,每行必须正好有三个制表符字符才能分隔字段。将扩展名为 .txt 的文件保存在您调用 API 的同一区域中的 Amazon S3 存储桶中。

以下示例是文本格式的输入文件。这些示例使用空格来对齐列,您的输入文件应仅在 IPADisplayAs 列中包含空格。

Phrase [TAB]IPA [TAB]SoundsLike[TAB]DisplayAs Los-Angeles[TAB] [TAB] [TAB]Los Angeles F.B.I. [TAB]ɛ f b i aɪ[TAB] [TAB]FBI Etienne [TAB] [TAB]eh-tee-en [TAB]

列可以按任意顺序输入。下面也是自定义词汇表输入文件的有效结构。

Phrase [TAB]SoundsLike[TAB]IPA [TAB]DisplayAs Los-Angeles[TAB] [TAB] [TAB]Los Angeles F.B.I [TAB] [TAB]ɛ f b i aɪ[TAB]FBI Etienne [TAB]eh-tee-en [TAB] [TAB]
DisplayAs [TAB]SoundsLike[TAB]IPA [TAB]Phrase Los Angeles[TAB] [TAB] [TAB]Los-Angeles FBI [TAB] [TAB]ɛ f b i aɪ[TAB]F.B.I. [TAB]eh-tee-en [TAB] [TAB]Etienne
  • 短语 – 应识别的单词或短语。

    如果条目为短语,请用连字符 (-) 隔开各个单词。例如,您键入 Los-Angeles 形式的 Los Angeles

    将首字母缩略词或其字母应作为单个字母发音的其他单词以用圆点隔开单个字母的形式输入(如 A.B.C.F.B.I.)。要输入首字母缩略词的复数形式(如“ABCs”),请用连字符将“s”与首字母缩略词隔开:“A.B.C.-s”。您可以使用大写或小写字母输入首字母缩略词。仅支持美国英语 (en-US) 格式的首字母缩略词。

    Phrase 字段为必填项。您可以使用输入语言允许的任何字符。有关允许字符的列表,请参阅各种语言。如果您未指定 DisplayAs 字段,则 Amazon Transcribe 将在输出文件中使用 Phrase 字段的内容。

  • IPA – 要指定单词或短语的发音,您可以在此字段中包括国际音标字母 (IPA) 中的字符。IPA 字段不能包含前导空格或尾随空格,并且您必须使用单个空格来隔开输入中的每个音素。例如,在英语中,您将短语 Los-Angelesl ɔ s æ n ʤ ə l ə s 的形式输入。您将短语 F.B.I.ɛ f b i aɪ 的形式输入。

    如果您未指定 IPA 字段的内容,则必须包含一个空白 IPA 字段。如果您指定 IPA 字段,则无法指定 SoundsLike 字段。

    有关特定语言允许的 IPA 字符的列表,请参阅各种语言对应的表格。

  • SoundsLike – 您可将一个单词或短语细分为更小的部分,并使用语言的标准拼写法为每个部分提供发音以模仿单词的发音方式。例如,在英语中,您可以像下面这样提供短语 Los-Angeles 的发音提示:loss-ann-gel-es。单词 Etienne 的提示类似于下面这样:eh-tee-en。您使用连字符 (-) 分隔提示的每个部分。

    如果您未指定 SoundsLike 字段,则必须包含一个空白 SoundsLike 字段。如果您指定 SoundsLike 字段,则无法指定 IPA 字段。

    您可以使用输入语言允许的任何字符。有关允许字符的列表,请参阅各种语言。

  • DisplayAs – 定义单词或短语在输出时的外观。例如,如果单词或短语为 Los-Angeles,则可以将显示形式指定为“Los Angeles”,以便连字符不会显示在输出中。

    如果您未指定 DisplayAs 字段,则 Amazon Transcribe 将在输出中使用输入文件中的 Phrase 字段。

    您可以在 DisplayAs 字段中使用任何 UTF-8 字符。

自定义词汇表的字符集

Amazon Transcribe 对可用于创建自定义词汇表的字符进行了限制。您可以使用每种语言的以下字符集。

阿拉伯语字符集

对于阿拉伯语自定义词汇表,您可以在 PhraseSoundsLike 字段中使用以下 Unicode 字符:

字符 代码 字符 代码
ء 0621 س 0633
آ 0622 ش 0634
أ 0623 ص 0635
ؤ 0624 ض 0636
إ 0625 ط 0637
ئ 0626 ظ 0638
ا 0627 ع 0639
ب 0628 غ 063A
ة 0629 ف 0641
ت 062A ق 0642
ث 062B ك 0643
ج 062C ل 0644
ح 062D م 0645
خ 062E ن 0646
د 062F ه 0647
ذ 0630 و 0648
ر 0631 ى 0649
ز 0632 ي 064A

您可以在词汇表输入文件的 IPA 字段中使用以下国际音标字母字符:

字符 代码 字符 代码
a 0061 0075 02D0
0061 02D0 w 0077
aj 0061 006A x 0078
aw 0061 0077 z 007A
b 0062 007A 02E4
d 0064 ð 00F0
0064 02E4 ð` 00F0 0060
f 0066 ðˤ 00F0 02E4
h 0068 ħ 0127
i 0069 ɖ 0256
0069 02D0 ɣ 0263
j 006A ɪ 026A
k 006B ɫ 026B
l 006C ɭ 026D
m 006D ʂ 0282
n 006E ʃ 0283
p 0070 ʈ 0288
q 0071 ʒ 0292
r 0072 ʔ 0294
s 0073 ʔ` 0294 0060
0073 02E4 ʕ 0295
t 0074 θ 03B8
0074 02E4 χ 03C7
u 0075    

英语字符集

对于英语自定义词汇表,您可以在 PhraseSoundsLike 字段中使用以下字符:

  • a - z

  • A - Z

  • '(撇号)

  • - (连字符)

  • .(句点)

您可以在词汇表输入文件的 IPA 字段中使用以下国际音标字母字符:

字符 代码 字符 代码
0061 028A w 0077
0061 026A z 007A
b 0062 æ 00E6
d 0064 ð 00F0
0065 026A ŋ 014B
f 0066 ɑ 0251
g 0067 ɔ 0254
h 0068 ɔɪ 0254 026A
i 0069 ə 0259
j 006A ɛ 025B
k 006B ɝ 025D
l 006C ɡ 0261
006C 0329 ɪ 026A
m 006D ɹ 0279
n 006E ʃ 0283
006E 0329 ʊ 028A
006F 028A ʌ 028C
p 0070 ʍ 028D
s 0073 ʒ 0292
t 0074 ʤ 02A4
u 0075 ʧ 02A7
v 0076 θ 03B8

法语字符集

对于法语自定义词汇表,您可以在 PhraseSoundsLike 字段中使用以下字符:

  • a - z

  • A - Z

  • '(撇号)

  • - (连字符)

  • .(句点)

您还可以在 PhraseSoundsLike 字段中使用以下 Unicode 字符:

字符 代码 字符 代码
À 00C0 à 00E0
 00C2 â 00E2
Ç 00C7 ç 00E7
È 00C8 è 00E8
É 00C9 é 00E9
Ê 00CA ê 00EA
Ë 00CB ë 00EB
Î 00CE î 00EE
Ï 00CF ï 00EF
Ô 00D4 ô 00F4
Ö 00D6 ö 00F6
Ù 00D9 ù 00F9
Û 00DB û 00FB
Ü 00DC ü 00FC

您可以在词汇表文件的 IPA 字段中使用以下国际音标字母:

字符 代码 字符 代码
a 0061 z 007A
b 0062 ã 00E3
d 0064 õ 00F5
e 0065 ø 00F8
f 0066 ŋ 014B
i 0069 œ 0153
j 006A œ̃ 0153 0303
k 006B ɐ 0250
l 006C ɔ 0254
m 006D ə 0259
n 006E ɛ 025B
o 006F ɡ 0261
p 0070 ɥ 0265
s 0073 ɲ 0272
t 0074 ʁ 0281
u 0075 ʃ 0283
v 0076 ʒ 0292
w 0077 1EBD
y 0079    

德语字符集

对于德语自定义词汇表,您可以在 PhraseSoundsLike 字段中使用以下字符:

  • a - z

  • A - Z

  • '(撇号)

  • - (连字符)

  • .(句点)

您还可以在 PhraseSoundsLike 字段中使用以下 Unicode 字符:

字符 代码 字符 代码
ä 00E4 Ä 00C4
ö 00F6 Ö 00D6
ü 00FC Ü 00DC
ß 00DF    

您可以在词汇表输入文件的 IPA 字段中使用以下国际音标字母字符:

字符 代码 字符 代码
a 0061 ts 0074 0073
0061 026A 0075 02D0
0061 028A v 0076
0061 02D0 x 0078
b 0062 z 007A
d 0064 0079 02D0
0065 02D0 ã 00E3
f 0066 ç 00E7
g 0067 øː 00F8 02D0
h 0068 ŋ 014B
0069 02D0 œ 0153
j 006A ɐ̯ 0250 032F
k 006B ɔ 0254
l 006C ɔʏ 0254 028F
006C 0329 ə 0259
m 006D ɛ 025B
006D 0329 ɛː 025B 02D0
n 006E ɪ 026A
006E 0329 ʁ 0281
006F 02D0 ʃ 0283
p 0070 ʊ 028A
pf 0070 0066 ʏ 028F
s 0073 ʧ 02A7
t 0074    

印地语字符集

对于印地语自定义词汇表,您可以在 PhraseSoundsLike 字段中使用以下 Unicode 字符:

字符 代码 字符 代码
- 002D 0925
. 002E 0926
0901 0927
0902 0928
0903 092A
0905 092B
0906 092C
0907 092D
0908 092E
0909 092F
090A 0930
090B 0932
090F 0935
0910 0936
0913 0937
0914 0938
0915 0939
0916 093E
0917 ि 093F
0918 0940
0919 0941
091A 0942
091B 0943
091C 0945
091D 0947
091E 0948
091F 0949
0920 094B
0921 094C
0922 094D
0923 095B
0924 2018

您可以在输入文件的 IPA 字段中使用以下国际音标字母字符:

字符 代码 字符 代码
0097 0720 ŋ 0331
b 0098 ɖ 0598
0098 0689 ɔː 0596 0720
d 0100 ɖʱ 0598 0689
0100 0689 ə 0601
0101 0720 ɛː 0603 0720
f 0102 ɡ 0609
0105 0720 ɡʱ 0609 0689
j 0106 ɦ 0614
k 0107 ɪ 0618
0107 0688 ɲ 0626
l 0108 ɳ 0627
m 0109 ɾ 0638
n 0110 ʂ 0642
0111 0720 ʃ 0643
p 0112 ʈ 0648
0112 0688 ʈʰ 0648 0688
r 0114 ʊ 0650
s 0115 ʋ 0651
t 0116 ʤ 0676
0116 0688 ʤʱ 0676 0689
0117 0720 ʧ 0679
z 0122 ʧʰ 0679 0688

意大利语字符集

对于意大利语自定义词汇表,您可以在 PhraseSoundsLike 字段中使用以下字符:

  • a - z

  • A - Z

  • '(撇号)

  • - (连字符)

  • .(句点)

您还可以在 PhraseSoundsLike 字段中使用以下 Unicode 字符:

字符 代码 字符 代码
À 00C0 à 00E0
Ä 00C4 ä 00E4
Ç 00C7 ç 00E7
È 00C8 è 00E8
É 00C9 é 00E9
Ê 00CA ê 00EA
Ë 00CB ë 00EB
Ì 00CC ì 00EC
Ò 00D2 ò 00F2
Ù 00D9 ù 00F9
Ü 00DC ü 00FC

您可以在输入文件的 IPA 字段中使用以下国际音标字母字符:

字符 代码 字符 代码
a 0061 ss 0073 0073
b 0062 t 0074
bb 0062 0062 tt 0074 0074
d 0064 u 0075
dd 0064 0064 v 0076
e 0065 vv 0076 0076
f 0066 w 0077
ff 0066 0066 z 007A
gg 0067 0067 ɔ 0254
i 0069 ɛ 025B
j 006A ɡ 0261
k 006B ɲ 0272
kk 006B 006B ɲɲ 0272 0272
l 006C ʃ 0283
ll 006C 006C ʃʃ 0283 0283
m 006D ʎ 028E
mm 006D 006D ʎʎ 028e 028e
n 006E ʣ 02A3
nn 006E 06E ʣʣ 02A3 02A3
o 006F ʤ 02A4
p 0070 ʤʤ 02A4 02A4
pp 0070 0070 ʦ 02A6
r 0072 ʦʦ 02A6 02A6
rr 0072 0072 ʧ 02A7
s 0073 ʧʧ 02A7 02A7

韩语字符集

对于韩语自定义词汇表,您可以在 PhraseSoundsLike 字段中使用任何朝鲜文音节。有关更多信息,请参阅维基百科上的朝鲜文音节

您可以在输入文件的 IPA 字段中使用以下国际音标字母字符:

字符 代码 字符 代码
a 00061 0073 0348
e 00065 t 0074
h 00068 0074 0255
i 00069 tɕʰ 0074 0255 02B0
je 006A 0065 0074 02B0
jo 006A 006F 0074 0348
ju 006A 0075 t͈ɕ 0074 0348 0255
006A 025B u 0075
006A 028C we 0077 0065
ja 006A 0061 wi 0077 0069
k 006B 0077 025B
006B 02B0 0077 028C
006B 0348 wa 0077 0061
l 006C ø 00F8
m 006D ŋ 0014B
n 006E ɛ 0025B
o 006F ɯ 026F
p 0070 ɯi 006F 0069
0070 02B0 ɾ 027E
0070 0348 ʌ 028C
s 0073    

葡萄牙语字符集

对于葡萄牙语自定义词汇表,您可以在 PhraseSoundsLike 字段中使用以下字符:

  • a - z

  • A - Z

  • '(撇号)

  • - (连字符)

  • .(句点)

您还可以在 PhraseSoundsLike 字段中使用以下 Unicode 字符:

字符 代码 字符 代码
À 00C0 à 00E0
Á 00C1 á 00E1
 00C2 â 00E2
à 00C3 ã 00E3
Ä 00C4 ä 00E4
Ç 00C7 ç 00E7
È 00C8 è 00E8
É 00C9 é 00E9
Ê 00CA ê 00EA
Ë 00CB ë 00EB
Í 00CD í 00ED
Ñ 00D1 ñ 00F1
Ó 00D3 ó 00F3
Ô 00D4 ô 00F4
Õ 00D5 õ 00F5
Ö 00D6 ö 00F6
Ú 00DA ú 00FA
Ü 00DC ü 00FC

您可以在输入文件的 IPA 字段中使用以下国际音标字母字符:

字符 代码 字符 代码
a 0061 v 0076
b 0062 w 0077
d 0064 0077 0303
e 0065 z 007A
f 0066 õ 00F5
g 0067 ĩ 00129
i 0069 ũ 00169
j 006A ɐ̃ 0250 0303
k 006B ɔ 0254
l 006C ɛ 025B
m 006D ɲ 0272
n 006E ɾ 027E
o 006F ʁ 0281
p 0070 ʃ 0283
s 0073 ʎ 028E
t 0074 ʒ 0292
0074 0283 ʤ 02A4
u 0075 1EBD

西班牙语字符集

对于西班牙语自定义词汇表,您可以在 PhraseSoundsLike 字段中使用以下字符:

  • a - z

  • A - Z

  • '(撇号)

  • - (连字符)

  • .(句点)

您还可以在 PhraseSoundsLike 字段中使用以下 Unicode 字符:

字符 代码 字符 代码
Á 00C1 á 00E1
É 00C9 é 00E9
Í 00CD ë 00ED
Ó 00D3 ó 0XF3
Ú 00DA ú 00FA
Ñ 00D1 ñ 0XF1
ü 00FC    

您可以在输入文件的 IPA 字段中使用以下国际音标字母字符:

字符 代码 字符 代码
a 0061 r 0072
b 0062 s 0073
d 0064 t 0074
e 0065 u 0075
f 0066 v 0076
g 0067 w 0077
h 0068 x 0078
i 0069 z 007A
j 006A ŋ 014B
k 006B ɲ 0272
l 006C ɾ 027E
m 006D ʃ 0283
n 006E ʝ 029D
o 006F ʧ 02A7
p 0070 θ 03B8