长篇语音 - Amazon Polly
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

长篇语音

Amazon Polly 有一个长格式引擎,可以产生类似人类、极具表现力和情感熟练的声音。长篇语音旨在吸引听众关注较长内容,例如新闻文章、培训材料或营销视频。

Amazon Polly 长篇语音是使用尖端的深度学习 TTS 技术开发的。该模型学习复制人类语言的音素、韵律、语调以及其他语音和声学方面,从而产生高度自然的语音输出。

长格式引擎使用文本嵌入来解释文本的含义。使用文本嵌入,长格式引擎可以生成自然语音的正确重点、停顿和语气。结果是一种结合了人类沟通中存在的全部情感元素的声音。这包括模仿令人惊讶的对话或将对话与叙事区分开来。这些结合在一起,便打造出听起来像真人一样的优质语音产品。

注意

这些声音背后的 state-of-the-art 技术属于用于语言和语音建模的生成式人工智能的范式。该技术的一个副作用是,对训练数据和模型的任何更新都可能导致声音的声音略有不同,即使随着模型的更新,声音的整体质量也会有所提高。这可能会对在很长一段时间内合成不同内容部分的用例产生影响,例如一季的播客。

可用的长篇声音

Amazon Polly 目前提供两种女性和一种男性 en-US 长声音。这些长篇语音也有对话式 NTTS 变体。

Language 语言代码 名称/ID 性别

1

英语(美国)

en-US

Danielle

Gregory

Ruth

功能和区域兼容性

Amazon Polly 长篇语音可在以下地区使用:

  • 美国东部(弗吉尼亚州北部)区域

  • 其他地区不可用

Amazon Polly 长格式引擎支持以下功能:

  • 实时和异步语音合成操作。

  • 所有语音标记

  • Amazon Polly 支持许多(但不是全部)SSML 标签。有关 NTTS 支持的 SSML 标签的更多信息,请参阅支持的 SSML 标签

  • 100ms 延迟。

  • 与标准语音一样,您可以从各种采样率中进行选择,以优化应用程序的带宽和音频质量。标准、长篇和神经语音的有效采样率为 8 kHz、16 kHz、22 kHz 或 24 kHz。标准语音的默认值为 22 kHz。长篇和神经语音的默认值为 24 kHz。Amazon Polly 支持 MP3、OGG (Vorbis) 和原始 PCM 音频流格式。

注意

长篇语音费用在 Amazon Polly 定价信息页面上指定。

在主机上使用长格式引擎

可以通过 Amazon Polly 控制台或 Amazon CLI访问 Amazon Polly 长篇语音。

在主机上使用长格式引擎
  1. 通过以下网址打开 Amazon Polly 控制台:https://console.aws.amazon.com/polly/

  2. 从 Amazon Polly 控制台中,选择长格式引擎

  3. 从语音下拉菜单中选择所需的声音。

  4. 使用您选择的文本生成 TTS 音频。

注意

长篇声音也可以与SynthesizeSpeechStartSpeechSynthesisTaskAPI 操作一起使用。对于 API 操作,客户可以在 API 请求中指定引擎和语音名称。可以在此处找到更多快速入门代码示例