长篇语音 - Amazon Polly
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

长篇语音

Amazon Polly 有一个长篇引擎,可发出类似人类、极富表现力且情感丰富的语音。长篇语音旨在吸引听众关注较长内容,例如新闻文章、培训材料或营销视频。

Amazon Polly 长篇语音是使用前沿深度学习 TTS 技术开发而成。该模型学习复制人类语言的音素、韵律、语调以及其他语音和声学方面,从而产生高度自然的语音输出。

使用文本嵌入(系统以实值向量的形式表示用于文本分析的词语),长篇引擎还可以解释文本的含义,以生成自然语音的正确强调、停顿和语气。最后得到的语音能够结合人类交流中存在的各种情感元素,包括模仿惊讶或区分对话与叙述。这些结合在一起,便打造出听起来像真人一样的优质语音产品。

特征和区域兼容性

Amazon Polly 长篇语音在以下区域可用:

  • 美国东部(弗吉尼亚州北部)区域

  • 其他区域不可用

Amazon Polly 长篇引擎支持以下特征:

  • 实时和异步语音合成操作。

  • 所有语音标记

  • Amazon Polly 支持的许多(但不是所有)SSML 标签。有关 NTTS 支持的 SSML 标签的更多信息,请参阅支持的 SSML 标签

  • 100ms 延迟。

  • 与标准语音一样,您可以从各种采样率中进行选择,以优化应用程序的带宽和音频质量。标准、长篇和神经语音的有效采样率为 8 kHz、16 kHz、22 kHz 或 24 kHz。标准语音的默认值为 22 kHz。长篇和神经语音的默认值为 24 kHz。Amazon Polly 支持 MP3、OGG (Vorbis) 和原始 PCM 音频流格式。

注意

对于语音或语音标记请求,长篇语音每 100 万字符收费 100 美元。

使用长篇语音

可以通过 Amazon Polly 控制台或 Amazon CLI 访问 Amazon Polly 长篇语音。

  1. 从 Amazon Polly 控制台中,选择长篇引擎。

    图片:Amazon Polly 控制台
  2. 从语音下拉菜单中选择所需语音。

  3. 输入您选择的文本以生成 TTS 音频。

注意

长篇语音也可以与 SynthesizeSpeechStartSpeechSynthesisTask API 一起使用。对于 API,客户可以在 API 请求中指定引擎和语音名称。可以在此处找到更多快速入门代码示例