Long-form 声音

Amazon Polly 的引Long-form 擎可以产生类似人类、极具表现力和情感熟练的声音。 Long-form 声音旨在吸引听众对较长内容的注意力，例如新闻文章、培训材料或营销视频。

Amazon Polly Long-form 语音采用尖端的深度学习 TTS 技术开发。该模型学习复制人类语言的音素、韵律、语调以及其他语音和声学方面，从而产生高度自然的语音输出。

引 Long-form 擎使用文本嵌入来解释文本的含义。使用文本嵌入， Long-form 引擎可以生成自然语音的正确重点、停顿和语气。最后得到的语音能够结合人类交流中存在的各种情感元素。这包括模仿惊讶的对话或者将对话与叙事区分开来。这些结合在一起，便打造出听起来像真人一样的优质语音产品。

这些语音背后的最先进技术就属于用于语言和语音建模的生成式人工智能范式。这项技术的一个副作用是，对训练数据和模型的任何更新都可能会导致语音听起来略有不同，即使随着模型的更新，语音的整体质量有所提高，也是如此。这可能会影响由长期合成的不同内容部分组成的应用场景，例如一个季度的播客。

可用的长篇语音

Amazon Polly 目前提供四种 en-US 和两种 es-ES 长篇语音。这两种语言都有女声和男声可供选择。英语长篇语音 Daniel、Gregory 和 Ruth 还有对话式 NTTS 变体。

	语言	语言代码	Name/ID	性别
1	英语（美国）	en-US	Danielle Gregory Ruth Patrick	女男女男
2	西班牙语（西班牙）	es-ES	Alba Raúl	女男

语言

语言代码

Name/ID

性别

英语（美国）

en-US

Danielle

Gregory

Ruth

Patrick

女

男

女

男

西班牙语（西班牙）

es-ES

Alba

Raúl

女

男

Amazon Polly 长篇语音在以下区域可用：

Amazon Polly Long-form 引擎支持以下功能：

Real-time 和异步语音合成操作。
所有语音标记。
Amazon Polly 支持许多（但不是所有）SSML 标签。有关 NTTS-supported SSML 标签的更多信息，请参阅支持的 SSML 标签
与标准语音一样，您可以从各种采样率中进行选择，以优化应用程序的带宽和音频质量。标准、长篇和神经语音的有效采样率为 8 kHz、16 kHz、22 kHz 或 24 kHz。标准语音的默认值为 22 kHz。长篇和神经语音的默认值为 24 kHz。Amazon Polly 支持 MP3、OGG (Vorbis) 和原始 PCM 音频流格式。

Long-form 语音费用在 Amazon Polly 定价信息页面上指定。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

生成式引擎

神经引擎