StartTranscriptionJob - Amazon Transcribe
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

StartTranscriptionJob

启动异步任务以显示节目中的词性文本。

请求语法

{ "ContentRedaction": { "RedactionOutput": "string", "RedactionType": "string" }, "IdentifyLanguage": boolean, "JobExecutionSettings": { "AllowDeferredExecution": boolean, "DataAccessRoleArn": "string" }, "KMSEncryptionContext": { "string" : "string" }, "LanguageCode": "string", "LanguageIdSettings": { "string" : { "LanguageModelName": "string", "VocabularyFilterName": "string", "VocabularyName": "string" } }, "LanguageOptions": [ "string" ], "Media": { "MediaFileUri": "string", "RedactedMediaFileUri": "string" }, "MediaFormat": "string", "MediaSampleRateHertz": number, "ModelSettings": { "LanguageModelName": "string" }, "OutputBucketName": "string", "OutputEncryptionKMSKeyId": "string", "OutputKey": "string", "Settings": { "ChannelIdentification": boolean, "MaxAlternatives": number, "MaxSpeakerLabels": number, "ShowAlternatives": boolean, "ShowSpeakerLabels": boolean, "VocabularyFilterMethod": "string", "VocabularyFilterName": "string", "VocabularyName": "string" }, "Subtitles": { "Formats": [ "string" ] }, "Tags": [ { "Key": "string", "Value": "string" } ], "TranscriptionJobName": "string" }

请求参数

有关所有操作通用的参数的信息,请参阅常见参数.

请求接受采用 JSON 格式的以下数据。

ContentRedaction

包含内容密文请求参数的对象。

类型:ContentRedaction 对象

:必需 否

IdentifyLanguage

将此字段设置为true以启用自动语言识别功能。默认已禁用自动语言识别。你会收到BadRequestException如果输入的值为LanguageCode.

类型: Boolean

:必需 否

JobExecutionSettings

提供有关如何执行转录作业的信息。使用此字段表示如果达到并发限制且没有可用于立即运行作业的插槽,则可以将作业排入延迟执行队列。

类型:JobExecutionSettings 对象

:必需 否

KMSEncryptionContext

纯文本、非秘密密钥:值对(称为加密上下文对)的映射,为您的数据提供了额外的安全层。

类型: 字符串到字符串映射

地图条目:最多 10 项。

密钥长度约束:最小长度为 1。长度上限为 2000。

密钥模式:.*\S.*

值长度上限:最小长度为 1。长度上限为 2000。

价值模式:.*\S.*

:必需 否

LanguageCode

语言中使用 的语言代码的输入媒体文件。

要用现代标准阿拉伯语 (AR-SA) 转录语音,您的音频或视频文件必须以 16,000 Hz 或更高的采样率进行编码。

类型: 字符串

有效值: af-ZA | ar-AE | ar-SA | cy-GB | da-DK | de-CH | de-DE | en-AB | en-AU | en-GB | en-IE | en-IN | en-US | en-WL | es-ES | es-US | fa-IR | fr-CA | fr-FR | ga-IE | gd-GB | he-IL | hi-IN | id-ID | it-IT | ja-JP | ko-KR | ms-MY | nl-NL | pt-BR | pt-PT | ru-RU | ta-IN | te-IN | tr-TR | zh-CN | zh-TW | th-TH | en-ZA | en-NZ

:必需 否

LanguageIdSettings

与转录作业关联的语言识别设置。这些设置包括VocabularyNameVocabularyFilterName, 和LanguageModelName.

类型: 字符串到LanguageIdSettings对象映射

地图条目:最多 5 项。

有效密钥: af-ZA | ar-AE | ar-SA | cy-GB | da-DK | de-CH | de-DE | en-AB | en-AU | en-GB | en-IE | en-IN | en-US | en-WL | es-ES | es-US | fa-IR | fr-CA | fr-FR | ga-IE | gd-GB | he-IL | hi-IN | id-ID | it-IT | ja-JP | ko-KR | ms-MY | nl-NL | pt-BR | pt-PT | ru-RU | ta-IN | te-IN | tr-TR | zh-CN | zh-TW | th-TH | en-ZA | en-NZ

:必需 否

LanguageOptions

包含音频文件集合中可能存在的语言列表的对象。自动语言识别选择与该列表中的源音频最匹配的语言。

要用现代标准阿拉伯语 (AR-SA) 转录语音,您的音频或视频文件必须以 16,000 Hz 或更高的采样率进行编码。

类型: 字符串数组

数组成员:最少 1 项。

有效值: af-ZA | ar-AE | ar-SA | cy-GB | da-DK | de-CH | de-DE | en-AB | en-AU | en-GB | en-IE | en-IN | en-US | en-WL | es-ES | es-US | fa-IR | fr-CA | fr-FR | ga-IE | gd-GB | he-IL | hi-IN | id-ID | it-IT | ja-JP | ko-KR | ms-MY | nl-NL | pt-BR | pt-PT | ru-RU | ta-IN | te-IN | tr-TR | zh-CN | zh-TW | th-TH | en-ZA | en-NZ

:必需 否

Media

输入媒介类的对象,用于描述转录的任务。

类型:Media 对象

:必需 是

MediaFormat

媒体输入文件的格式。

类型: 字符串

有效值: mp3 | mp4 | wav | flac | ogg | amr | webm

:必需 否

MediaSampleRateHertz

该示例(单位:赫兹)为输入媒体文件的音频。

如果您没有指定媒体采样率,Amazon Transcribe 将确定采样率。如果您指定采样率,则必须与 Amazon Transcribe 检测到的采样率匹配。在大多数情况下,您应该将MediaSampleRateHertz字段为空,然后让 Amazon Transcribe 确定采样率。

类型: 整数

有效范围:最小值为 8000。最大值为 48000。

:必需 否

ModelSettings

在此参数中选择用于转录作业的自定义语言模型。

类型:ModelSettings 对象

:必需 否

OutputBucketName

转录的存储位置。

如果你设置OutputBucketName,Amazon Transcribe 会将成绩单放入指定 S3 存储桶中。当你打电话给GetTranscriptionJob操作时,该操作将返回该位置TranscriptFileUri字段中返回的子位置类型。如果启用内容密文,则编辑的成绩单将显示在RedactedTranscriptFileUri. 如果启用内容密文并选择输出未编辑的成绩单,则该成绩单的位置仍会显示在TranscriptFileUri. S3 存储桶必须具有允许 Amazon Transcribe 将文件放入存储桶的权限。有关更多信息,请参阅 。IAM 用户角色所需的权限.

您可以指定Amazon用于加密转录输出的密钥管理服务 (KMS) 密钥,使用OutputEncryptionKMSKeyId参数。如果您未指定 KMS 密钥,Amazon Transcribe 将使用默认 Amazon S3 密钥对 S3 存储桶中放置的脚本进行服务器端加密。

如果您不设置OutputBucketName,Amazon Transcribe 会生成一个预签名 URL,这是一个可共享的 URL,可以安全地访问您的转录文件,并将其返回到TranscriptFileUri字段中返回的子位置类型。使用此 URL 下载转录。

类型: 字符串

约束:最大长度为 64。

模式:[a-z0-9][\.\-a-z0-9]{1,61}[a-z0-9]

:必需 否

OutputEncryptionKMSKeyId

的 Amazon 资源名称 (ARN)Amazon用于加密转录作业输出的密钥管理服务 (KMS) 密钥。调用StartTranscriptionJob操作必须具有使用指定 KMS 密钥的权限。

您可以使用以下任意方法来标识当前账户中的 KMS 密钥:

  • KMS 密钥 ID:“1234abcd-12ab-34cd-56ef-1234567890ab”

  • KMS 密钥别名:“alias/ExampleAlias”

您可以使用以下任意方法来标识当前账户或其他账户中的 KMS 密钥:

  • KMS 密钥的 Amazon 资源名称 (ARN):“arn:aws:kms:region:account ID:key/1234abcd-12ab-34cd-56ef-1234567890ab”

  • KMS 密钥别名的 ARN:“ARN: account ID: alias/ExampleAlias”

如果未指定加密密钥,则将使用默认 Amazon S3 密钥 (SSE-S3) 对转录作业的输出进行加密。

如果指定 KMS 密钥来加密输出,您还必须在OutputBucketName参数。

类型: 字符串

约束:最小长度为 1。长度上限为 2048。

模式:^[A-Za-z0-9][A-Za-z0-9:_/+=,@.-]{0,2048}$

:必需 否

OutputKey

您可以指定 Amazon S3 存储桶中的位置以存储转录作业的输出。

如果您没有指定输出密钥,Amazon Transcribe 会将转录作业的输出存储在您指定的 Amazon S3 存储桶中。默认情况下,对象密钥是 “你的转录-job-name.json”。

您可以使用输出键来指定转录输出的 Amazon S3 前缀和文件名。例如,将 Amazon S3 前缀 “folder1/folder2/” 指定为输出密钥将导致输出存储为 “folder1/folder2/你的转录作业name.json”。如果您指定 “my-other-job-name.json” 作为输出键,则对象密钥将更改为 “我的其他-job-name.json”。您可以使用输出键来更改前缀和文件名,例如 “文件夹/我的其他-job-name.json”。

如果指定输出密钥,您还必须在OutputBucketName参数。

类型: 字符串

约束:最小长度为 1。长度上限为 1024。

模式:[a-zA-Z0-9-_.!*'()/]{1,1024}$

:必需 否

Settings

一个Settings对象,该对象提供转录作业的可选设置。

类型:Settings 对象

:必需 否

Subtitles

在批量转录作业中添加字幕。

类型:Subtitles 对象

:必需 否

Tags

向 Amazon Transcribe 作业添加标签。

类型: 数组Tag对象

数组成员:最少 1 项。最多 200 项。

:必需 否

TranscriptionJobName

作业的名称。您不能使用字符串”.“或者”..“自己作为任务名称。该名称还必须在Amazonaccount. 如果你尝试创建与之前的转录作业同名的转录作业,你会得到ConflictException错误消息。

类型: 字符串

约束:最小长度为 1。最大长度为 200。

模式:^[0-9a-zA-Z._-]+

:必需 是

响应语法

{ "TranscriptionJob": { "CompletionTime": number, "ContentRedaction": { "RedactionOutput": "string", "RedactionType": "string" }, "CreationTime": number, "FailureReason": "string", "IdentifiedLanguageScore": number, "IdentifyLanguage": boolean, "JobExecutionSettings": { "AllowDeferredExecution": boolean, "DataAccessRoleArn": "string" }, "LanguageCode": "string", "LanguageIdSettings": { "string" : { "LanguageModelName": "string", "VocabularyFilterName": "string", "VocabularyName": "string" } }, "LanguageOptions": [ "string" ], "Media": { "MediaFileUri": "string", "RedactedMediaFileUri": "string" }, "MediaFormat": "string", "MediaSampleRateHertz": number, "ModelSettings": { "LanguageModelName": "string" }, "Settings": { "ChannelIdentification": boolean, "MaxAlternatives": number, "MaxSpeakerLabels": number, "ShowAlternatives": boolean, "ShowSpeakerLabels": boolean, "VocabularyFilterMethod": "string", "VocabularyFilterName": "string", "VocabularyName": "string" }, "StartTime": number, "Subtitles": { "Formats": [ "string" ], "SubtitleFileUris": [ "string" ] }, "Tags": [ { "Key": "string", "Value": "string" } ], "Transcript": { "RedactedTranscriptFileUri": "string", "TranscriptFileUri": "string" }, "TranscriptionJobName": "string", "TranscriptionJobStatus": "string" } }

响应元素

如果此操作成功,则该服务将会发送回 HTTP 200 响应。

服务以 JSON 格式返回的以下数据。

TranscriptionJob

该对象包含详细的异步转录的任务信息。

类型:TranscriptionJob 对象

Errors

有关所有操作常见错误的信息,请参阅常见错误.

BadRequestException

您的请求没有通过一个或多个验证测试。例如,如果您尝试删除的实体不存在,或者它处于非终端状态(例如,它 “正在进行中”)。查看异常Message字段以获取更多信息。

HTTP 状态代码:400

ConflictException

已经有一个具有该名称的资源。

HTTP 状态代码:400

InternalFailureException

发生内部服务器错误。检查错误消息并再次尝试请求。

HTTP 状态代码:500

LimitExceededException

要么您已经发送过多的请求或您的输入文件中包含过长的请求。等待,然后再重新发送您的请求,或使用较小的文件,然后重新发送请求。

HTTP 状态代码:400

另请参阅

有关在特定语言的Amazon软件开发工具包中使用此 API 的更多信息,请参阅以下内容: