流式转录 - Amazon Transcribe
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

流式转录

Amazon Transcribe 流式转录使您能够发送音频流并实时接收文本流。此 API 使开发人员能够轻松地向其应用程序添加实时语音到文本功能。

您可以使用以下语言的流式转录:

  • 8 KHz 和 16 KHz

    • 美国英语 (en-US)

    • 美国西班牙语 (es-US)

  • 仅 8 KHz

    • 澳大利亚英语 (en-AU) - 仅 API

    • 英国英语 (en-GB) - 仅 API

    • 法语 (fr-FR) - 仅 API

    • 加拿大法语 (fr-CA) - 仅 API

Amazon Transcribe 流式转录可用于各种目的。例如:

  • 流式转录可以为直接广播媒体生成实时字幕。

  • 在法庭证词期间,律师可以在流式转录的基础上进行实时注释。

  • 可以对视频游戏聊天进行实时转录,以便主机能够调节内容或运行实时分析。

  • 流式转录可以为听障人士提供帮助。

流式转录不支持通道识别或扬声器识别。如果您需要这些功能,请使用 StartTranscriptionJob 操作。

如果您使用的是 HTTP/2,我们提供了一个 HTTP/2 流客户端,可以在网络存在临时问题时处理重试连接操作。您可以使用此客户端作为您自己的应用程序的起点。要使用 Amazon Transcribe 流式传输与 WebSocket 协议,可以创建自己的客户端。

流式转录可以获取音频数据流并对其进行实时转录。转录将在转录事件流中返回到您的应用程序。

Amazon Transcribe 根据自然语音段中断您的传入音频流,例如,扬声器的更改或音频中的暂停。转录将逐步返回到您的应用程序,每个响应包含更多转录的语音,直到整个片段被转录。

在以下示例中,每一行都是流式传输的音频片段的部分结果转录输出:

the amazon is the largest the amazon is the largest the amazon is the largest the amazon is the largest rainforest the amazon is the largest rainforest the amazon is the largest rainforest the amazon is the largest rainforest on the the amazon is the largest rainforest on the the amazon is the largest rainforest on the planet the amazon is the largest rainforest on the planet the amazon is the largest rainforest on the planet the amazon is the largest rainforest on the planet the amazon is the largest rainforest on the planet covering over the amazon is the largest rainforest on the planet covering over the amazon is the largest rainforest on the planet covering over two million

响应中的每个结果对象均包含一个名为 IsPartial 的字段,该字段指示响应是否为包含到目前为止的转录结果的部分响应,或是否为音频片段的完整转录。

每个结果对象还包含音频流中期限的开始时间和结束时间,以便您可以将转录与视频同步。

以下示例是部分转录响应。

{ "TranscriptResultStream": { "TranscriptEvent": { "Transcript": { "Results": [ { "Alternatives": [ { "Items": [ { "Content": "the", "EndTime": 0.3799375, "StartTime": 0.0299375, "Type": "pronunciation" }, { "Content": "amazon", "EndTime": 0.5899375, "StartTime": 0.3899375, "Type": "pronunciation" }, { "Content": "is", "EndTime": 0.7899375, "StartTime": 0.5999375, "Type": "pronunciation" }, { "Content": "the", "EndTime": 0.9199375, "StartTime": 0.7999375, "Type": "pronunciation" }, { "Content": "largest", "EndTime": 1.0199375, "StartTime": 0.9299375, "Type": "pronunciation" } ], "Transcript": "the amazon is the largest" } ], "EndTime": 1.02, "IsPartial": true, "ResultId": "2db76dc8-d728-11e8-9f8b-f2801f1b9fd1", "StartTime": 0.0199375 } ] } } } }