CreateVocabulary - 转录
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

CreateVocabulary

创建新的自定义词汇。

创建新的自定义词汇表时,您可以将包含新条目、短语和术语的文本文件上传到 Amazon S3 存储桶中并在请求中包含 URI,也可以使用直接在请求中包含术语列表Phrases标记。

每种语言都有一个字符集,其中包含该特定语言允许的所有字符。如果您使用不受支持的字符,自定义词汇请求将失败。请参阅自定义词汇表的字符集以获取语言的字符集。

有关更多信息,请参阅 。自定义词汇表.

请求语法

{ "LanguageCode": "string", "Phrases": [ "string" ], "Tags": [ { "Key": "string", "Value": "string" } ], "VocabularyFileUri": "string", "VocabularyName": "string" }

请求参数

有关所有操作通用的参数的信息,请参阅常见参数.

请求接受采用 JSON 格式的以下数据。

LanguageCode

表示自定义词汇表中条目语言的语言代码。每个自定义词汇必须只包含一种语言的术语。

自定义词汇只能用于转录与自定义词汇相同的语言的文件。例如,如果您使用美国英语创建自定义词汇表(en-US),您只能将此自定义词汇应用于包含英语音频的文件。

有关受支持的语言及其相关语言代码的列表,请参阅支持的语言表。

类型: 字符串

有效值: af-ZA | ar-AE | ar-SA | cy-GB | da-DK | de-CH | de-DE | en-AB | en-AU | en-GB | en-IE | en-IN | en-US | en-WL | es-ES | es-US | fa-IR | fr-CA | fr-FR | ga-IE | gd-GB | he-IL | hi-IN | id-ID | it-IT | ja-JP | ko-KR | ms-MY | nl-NL | pt-BR | pt-PT | ru-RU | ta-IN | te-IN | tr-TR | zh-CN | zh-TW | th-TH | en-ZA | en-NZ

:必需 是

Phrases

如果要通过在请求中包含所有所需的术语(以逗号分隔的值)来创建自定义词汇,请使用此参数。创建自定义词汇表的另一种选择是将条目保存在文本文件中并将其上传到 Amazon S3 存储桶,然后使用VocabularyFileUri参数。

请注意,如果你包括Phrases在您的请求中,您无法使用VocabularyFileUri;必须从中选择一项。

每种语言都有一个字符集,其中包含该特定语言允许的所有字符。如果您使用不受支持的字符,则自定义词汇过滤器请求将失败。请参阅自定义词汇表的字符集以获取语言的字符集。

类型: 字符串数组

长度约束:最小长度为 0。长度上限为 256。

模式:.+

:必需 否

Tags

在创建这个新的自定义词汇表时,将一个或多个自定义标签(每个标签以 key: value 对的形式)添加到新的自定义词汇中。

要了解有关使用 Amazon Transcribe 的标签的更多信息,请参阅为资源添加标签.

类型: 数组的Tag对象

数组成员:最少 1 项。最多 200 项。

:必需 否

VocabularyFileUri

包含自定义词汇表的文本文件的 Amazon S3 位置。URI 必须位于相同的位置Amazon Web Services 区域作为你调用的资源。

示例如下 URI 路径:s3://DOC-EXAMPLE-BUCKET/my-vocab-file.txt

请注意,如果你包括VocabularyFileUri在您的请求中,您无法使用Phrases标记;必须从中选择一项。

类型: 字符串

长度约束:最小长度为 1。最大长度为 2000。

模式:(s3://|http(s*)://).+

:必需 否

VocabularyName

您为新的自定义词汇选择的唯一名称。

此名称区分大小写,不能包含空格,且必须在Amazon Web Services 账户. 如果你尝试创建一个与现有自定义词汇相同的名称的新自定义词汇,你会得到ConflictException错误消息。

类型: 字符串

长度约束:最小长度为 1。最大长度为 200。

模式:^[0-9a-zA-Z._-]+

:必需 是

响应语法

{ "FailureReason": "string", "LanguageCode": "string", "LastModifiedTime": number, "VocabularyName": "string", "VocabularyState": "string" }

响应元素

如果此操作成功,则该服务将会发送回 HTTP 200 响应。

服务以 JSON 格式返回的以下数据。

FailureReason

如果VocabularyStateFAILEDFailureReason包含有关为什么自定义词汇请求失败的信息。另请参见:常见错误.

类型: 字符串

LanguageCode

为自定义词汇选择的语言代码。

类型: 字符串

有效值: af-ZA | ar-AE | ar-SA | cy-GB | da-DK | de-CH | de-DE | en-AB | en-AU | en-GB | en-IE | en-IN | en-US | en-WL | es-ES | es-US | fa-IR | fr-CA | fr-FR | ga-IE | gd-GB | he-IL | hi-IN | id-ID | it-IT | ja-JP | ko-KR | ms-MY | nl-NL | pt-BR | pt-PT | ru-RU | ta-IN | te-IN | tr-TR | zh-CN | zh-TW | th-TH | en-ZA | en-NZ

LastModifiedTime

自定义词汇表的创建日期和时间。

时间戳采用格式YYYY-MM-DD'T'HH:MM:SS.SSSSSS-UTC. 例如,2022-05-04T12:32:58.761000-07:00代表 2022 年 5 月 4 日下午 12:32 UTC-7。

类型: 时间戳

VocabularyName

你为自定义词汇选择的名字。

类型: 字符串

长度约束:最小长度为 1。最大长度为 200。

模式:^[0-9a-zA-Z._-]+

VocabularyState

自定义词汇的处理状态。如果州是READY,则您可以使用自定义词汇表StartTranscriptionJob请求.

类型: 字符串

有效值: PENDING | READY | FAILED

错误

有关所有操作常见错误的信息,请参阅常见错误.

BadRequestException

您的请求没有通过一个或多个验证测试。当您尝试删除的实体不存在或处于非终端状态时(例如),可能会发生这种情况。IN PROGRESS)。有关更多信息,请参阅例外消息字段。

HTTP 状态代码:400

ConflictException

已存在具有此名称的资源。资源名称必须唯一Amazon Web Services 账户.

HTTP 状态代码:400

InternalFailureException

发生内部服务器错误。检查错误消息,更正问题,然后再次尝试请求。

HTTP 状态代码:500

LimitExceededException

您已经发送过多的请求或您的输入文件中包含太长。等待,然后再重试您的请求,或使用较小的文件,然后再次尝试请求。

HTTP 状态代码:400

另请参阅

有关在特定语言的 Amazon 软件开发工具包中使用此 API 的更多信息,请参阅以下内容: