流式转录 - Amazon Transcribe
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

流式转录

Amazon Transcribe 流式转录使您能够发送音频流并实时接收文本流。此 API 使开发人员能够轻松地向其应用程序添加实时语音到文本功能。

下表显示了哪些语言可用于流式转录,以及您如何访问它们。

语言 采样率 在 中可用
美国英语 (en-US) 16 kHz、8 kHz Amazon Transcribe 控制台StartStreamTranscription 操作和 WebSocket 请求
美国西班牙语 (es-US) 16 kHz、8 kHz Amazon Transcribe 控制台StartStreamTranscription 操作和 WebSocket 请求
澳大利亚英语 (en-AU) 8 kHz StartStreamTranscription 操作和 WebSocket 请求
英国英语 (en-GB) 8 kHz StartStreamTranscription 操作和 WebSocket 请求
法语 (fr-FR) 8 kHz StartStreamTranscription 操作和 WebSocket 请求
加拿大法语 (fr-CA) 8 kHz StartStreamTranscription 操作和 WebSocket 请求

Amazon Transcribe 流式转录可用于各种目的。例如:

  • 流式转录可以为直接广播媒体生成实时字幕。

  • 在法庭证词期间,律师可以在流式转录的基础上进行实时注释。

  • 可以对视频游戏聊天进行实时转录,以便主机能够调节内容或运行实时分析。

  • 流式转录可以为听障人士提供帮助。

如果您使用的是 HTTP/2,我们提供了一个 HTTP/2 流客户端,可以在网络存在临时问题时处理重试连接操作。您可以使用此客户端作为您自己的应用程序的起点。要将 Amazon Transcribe 流式处理与 WebSocket 协议结合使用,您可以创建自己的客户端。

流式转录可以获取音频数据流并对其进行实时转录。转录将在转录事件流中返回到您的应用程序。

Amazon Transcribe 根据自然语音段中断您的传入音频流,例如,扬声器的更改或音频中的暂停。转录将逐步返回到您的应用程序,每个响应包含更多转录的语音,直到整个片段被转录。

在以下示例中,每一行都是流式传输的音频片段的部分结果转录输出:

the amazon is the largest the amazon is the largest the amazon is the largest the amazon is the largest rainforest the amazon is the largest rainforest the amazon is the largest rainforest the amazon is the largest rainforest on the the amazon is the largest rainforest on the the amazon is the largest rainforest on the planet the amazon is the largest rainforest on the planet the amazon is the largest rainforest on the planet the amazon is the largest rainforest on the planet the amazon is the largest rainforest on the planet covering over the amazon is the largest rainforest on the planet covering over the amazon is the largest rainforest on the planet covering over two million

响应中的每个结果对象均包含一个名为 IsPartial 的字段,该字段指示响应是否为包含到目前为止的转录结果的部分响应,或是否为音频片段的完整转录。

每个结果对象还包含音频流中期限的开始时间和结束时间,以便您可以将转录与视频同步。

以下示例是部分转录响应。

{ "TranscriptResultStream": { "TranscriptEvent": { "Transcript": { "Results": [ { "Alternatives": [ { "Items": [ { "Content": "the", "EndTime": 0.3799375, "StartTime": 0.0299375, "Type": "pronunciation" }, { "Content": "amazon", "EndTime": 0.5899375, "StartTime": 0.3899375, "Type": "pronunciation" }, { "Content": "is", "EndTime": 0.7899375, "StartTime": 0.5999375, "Type": "pronunciation" }, { "Content": "the", "EndTime": 0.9199375, "StartTime": 0.7999375, "Type": "pronunciation" }, { "Content": "largest", "EndTime": 1.0199375, "StartTime": 0.9299375, "Type": "pronunciation" } ], "Transcript": "the amazon is the largest" } ], "EndTime": 1.02, "IsPartial": true, "ResultId": "2db76dc8-d728-11e8-9f8b-f2801f1b9fd1", "StartTime": 0.0199375 } ] } } } }