使用直播转录进行语言识别 - Amazon Transcribe
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用直播转录进行语言识别

使用流媒体语言识别来识别媒体直播中使用的主导语言。Amazon Transcribe 需要至少三秒的语音才能识别主要语言。

Amazon Transcribe 可以识别在两个不同渠道中使用的主导语言。在这种情况下,请设置 ChannelIdentification 参数到true每个频道都是单独转录的。请注意,此参数的默认值是false如果你不改变它,只有第一个频道被转录。

您必须至少提供两种具有流媒体语言识别功能的语言代码,并且每个直播只能为每种语言选择一种语言变体(区域设置)。这意味着您无法选择en-USen-AU作为相同转录的语言选项。

您还可以选择从您提供的语言代码集中选择首选语言。添加首选语言有助于 Amazon Transcribe 在直播的最初几秒钟内识别语言。

与批量语言识别不同,流式语言识别不能与其他特定于语言的 Amazon Transcribe 功能结合使用,例如自定义词汇、自定义语言模型、词汇过滤或密文。

注意

PCM 是唯一支持用于串流语言识别的音频格式。

有关流式转录支持的语言的列表,请参阅。支持的语言.

您可以使用在串流转录中使用自动语言识别Amazon控制台HTTP/2,或者WebSockets;有关示例,请参阅以下内容:

  1. 登录到Amazon Transcribe 控制台.

  2. 在导航窗格中,选择 Real-time transcription (实时转录)。向下滚动到语言设置如果最小化此字段,则扩展该字段。

  3. Select自动语言识别.

  4. 为你的转录提供至少 2 种语言代码。请注意,每种语言只能提供一个变体(区域设置)。例如,您不能同时选择en-USen-AU作为相同转录的语言选项。

  5. (可选)从上一步中选择的语言子集中,您可以为成绩单选择首选语言。

  6. 现在,您已经可以转录流式处理。选择开始流式播按钮然后开始说话。

此示例创建了启用语言标识的 HTTP/2 请求。有关将 HTTP/2 流式处理与 Amazon Transcribe 结合使用的更多信息,请参阅通过 HTTP/2 使用 Amazon Transcribe 流式处理. 有关特定于 Amazon Transcribe 的参数和标题的更多详细信息,请参阅StartStreamTranscription.

POST /stream-transcription HTTP/2.0 host: transcribestreaming.region.amazonaws.com authorization: Generated value content-type: application/vnd.amazon.eventstream x-amz-target: com.amazonaws.transcribe.Transcribe.StartStreamTranscription x-amz-content-sha256: STREAMING-AWS4-HMAC-SHA256-EVENTS x-amz-date: Date x-amzn-transcribe-identify-language: true x-amzn-transcribe-language-options: en-US,de-DE x-amzn-transcribe-preferred-language: en-US x-amzn-transcribe-media-encoding: pcm x-amzn-transcribe-sample-rate: 16000 transfer-encoding: chunked

在请求中使用以下值:

  • 领域:这些区域有:Amazon您调用 Amazon Transcribe 的区域。有关有效区域列表,请参阅。Amazon区域和终端节点.

  • 授权:请求的签名版本 4 签名。要了解有关创建签名的更多信息,请参阅签名Amazon使用签名版本 4 的请求.

  • 约会:请求的日期和时间。请参阅处理签名版本 4 中的日期有关说明。

  • 识别语言:当设置为true,Amazon Transcribe 会自动识别媒体中使用的语言。

  • 语言选项:如果设置了,请使用此字段identify-languagetrue. 您必须至少提供两种语言代码。请参阅支持的语言和特定于语言的功能对于支持的语言。

  • 首选的语言:可选。您希望 Amazon Transcribe 用于成绩单的语言代码。

  • 媒体编码:用于输入音频的编码。对此参数唯一支持的值是pcm.

  • 采样率:输入音频的采样率(以 Hz 为单位)。我们建议对低质量音频使用 8000 Hz,对高质量音频使用 16,000 Hz(或更高)。您指定的采样率必须与音频文件中的采样率匹配。

此示例创建了一个预签名 URL,该 URL 在 WebSocket 流中使用语言标识。有关将 WebSocket 流与 Amazon Transcribe 结合使用的更多信息,请参阅。在 WebSockets 中使用 Amazon Transcribe 直播. 有关参数的详细信息,请参阅。StartStreamTranscription.

GET wss://transcribestreaming.region.amazonaws.com:8443/stream-transcription-websocket?identify-language=true &X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=Signature Version 4 credential scope &X-Amz-Date=date &X-Amz-Expires=time in seconds until expiration &X-Amz-Security-Token=security-token &X-Amz-Signature=Signature Version 4 signature &X-Amz-SignedHeaders=host &identify-language=true &language-options=en-US,de-DE &preferred-language=en-US &media-encoding=pcm &sample-rate=16000 &session-id=sessionId

URL 参数:

  • 领域:这些区域有:Amazon您调用 Amazon Transcribe 的区域。有关有效区域列表,请参阅。Amazon区域和终端节点.

  • 识别语言:当设置为true,Amazon Transcribe 会自动识别媒体中使用的语言。

  • 语言选项:如果设置了,请使用此字段identify-languagetrue. 您必须至少提供两种语言代码。请参阅支持的语言和特定于语言的功能对于支持的语言。

  • 首选的语言:可选。您希望 Amazon Transcribe 用于成绩单的语言代码。

  • 媒体编码:用于输入音频的编码。对此参数唯一支持的值是pcm.

  • 采样率:输入音频的采样率(以 Hz 为单位)。我们建议对低质量音频使用 8000 Hz,对高质量音频使用 16,000 Hz(或更高)。您指定的采样率必须与音频文件中的采样率匹配。

签名版本 4 参数:

  • X-Amz-算法:在签名过程中使用的算法;必须是AWS4-HMAC-SHA256.

  • X-Amz-凭证:以斜杠(“/”)分隔的字符串,它通过将您的访问密钥 ID 和凭证范围组件串联起来而形成。凭据范围包括日期(YYYYMMDD),Amazon区域、服务名称和特殊的终止字符串 (aws4_request)。

  • X-Amz-Date:您的签名以 YYYYMMDD'T'T'HHMMSS'Z' 格式创建签名的日期和时间。

  • X-Amz-Expires:凭证到期之前的时间长度(以秒为单位)。最大值为 300 秒。

  • X-Amz-Security-Token:可选。临时凭证的签名版本 4 令牌。如果您指定此参数,则将其包含在规范请求中。有关更多信息,请参阅 。请求临时安全凭证.

  • X-Amz-Signature:您为请求生成的签名版本 4 签名。

  • X-Amz-Header:为您的请求创建签名时签名的标头;必须为host.

有关签名版本 4 元素的其他详细信息,请参阅Amazon一般参考.