语音输入 - Amazon Transcribe
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

语音输入

Amazon Transcribe 可以将语音转录为媒体文件或实时直播。输入音频必须使用以下各节中描述的编码和格式。有关受支持的语言的列表,请参阅支持的语言和特定于语言的功能

批量转录的容器和格式

当您使用StartTranscriptionJobAPI 或Amazon Transcribe 控制台,请确保文件是:

  • FLAC、MP3、MP4、Og、WebM、AMR 或 WAV 文件格式

  • 长度少于 4 小时,大小小小于 2 GB(对于呼叫分析作业,500 MB)

注意

对于 AMR,Amazon Transcribe 支持自适应多速率宽带 (AMR-WB) 和自适应多速率窄带 (AMR-NB) 编解码器。

对于 Og 和 WebM 文件格式,Amazon Transcribe 支持 Opus 编解码器。

要获得最佳效果:

  • 使用无损格式。您可以选择 FLAC 或以 PCM 16 位编码的 WAV。

  • 对电话音频使用 8,000 Hz 的采样率。

用于串流转录的音频容器和格式

当你使用StartStreamTranscriptionAPI 或 WebSocket 请求,请确保你的直播使用以下内容进行编码:

  • PCM 16 位有符号小端节序

  • FLAC

  • Og 容器中的 OPUS 编码音频

要获得最佳效果:

  • 使用无损格式,如 FLAC 或 PCM 编码。

  • 对电话音频使用 8,000 Hz 的采样率。

有关使用 WebSocket 请求转录流式音频的更多信息,请参阅在 WebSockets 中使用 Amazon Transcribe 直播.

有关受支持的语言的列表,请参阅支持的语言和特定于语言的功能