生成式语音

Amazon Polly 的生成式文本转语音（TTS）引擎提供了最像人类、最具情感参与度和自适应能力的对话式语音，可供用户通过 Amazon Polly 控制台使用。

生成式引擎是迄今为止最大的 Amazon Polly TTS 模型。该引擎部署了一个包含十亿参数的转换器，用于将原始文本转换为语音代码，然后部署基于卷积的解码器，该解码器以可流式传输的增量方式将这些语音代码转换为波形。这种方法展示了大型语言模型（LLM）在使用越来越多的公开和专有数据（包括各种语音、语言和风格）进行训练时，所具备的广泛报道的涌现能力。

生成式引擎可以创建合成语音，这种语音具有情感参与度、言语果断并且高度口语化，其方式与人类语音高度相似。您可以在以下场景中使用这些语音：知识广博的客户助理、虚拟培训师或采用合成语音媲美人类的广告商。

注意

这些语音背后的最先进技术就属于用于语言和语音建模的生成式人工智能范式。这项技术的一个副作用是，对训练数据和模型的任何更新都可能会导致语音听起来略有不同，即使随着模型的更新，语音的整体质量有所提高，也是如此。这可能会影响由长期合成的不同内容部分组成的应用场景，例如一个季度的播客。

可用的生成式语音

Amazon Polly 目前以生成变体形式提供 43 种声音。

	语言	语言代码	Name/ID	性别
1	英语（澳大利亚）	en-AU	Olivia	女
2	英语（英国）	en-GB	Amy Brian	女男
3	英语（印度）	en-IN	Kajal	女
4	英语（爱尔兰）	en-IE	Niamh	女
5	英语（新西兰）	en-NZ	Aria	女
6	英语（新加坡）	en-SG	Jasmine	女
7	英语（南非）	en-ZA	Ayanda	女
8	英语（美国）	en-US	Danielle Joanna Matthew Ruth Salli Stephen Tiffany	女女男女女男女
9	荷兰语（比利时）	nl-BE	Lisa	女
10	荷兰语（荷兰）	nl-NL	Laura	女
11	法语（比利时）	fr-BE	Isabelle	女
12	法语（加拿大）	fr-CA	Gabrielle Liam	女男
13	法语（法国）	fr-FR	Ambre Céline 弗洛里安 Léa Rémi	女女男女男
14	德语（奥地利）	de-AT	Hannah	女
15	德语（德国）	de-DE	Daniel 伦纳特 Vicki	男男女
16	德语（瑞士）	de-CH	Sabrina	女
17	意大利语（意大利）	it-IT	比阿特丽斯 Bianca Lorenzo	女女男
18	韩语（韩国）	ko-KR	Seoyeon	女
19	波兰语（波兰）	pl-PL	Ewa Ola	女女
20	葡萄牙语（巴西）	pt-BR	Camila	女
21	西班牙语（墨西哥）	es-MX	Andrés Mía	男女
22	西班牙语（西班牙）	es-ES	Lucia Sergio	女男
23	西班牙语（美国）	es-US	Lupe Pedro	女男

注意

生成式语音费用在 Amazon Polly 定价信息页面上列示。

特征和区域兼容性

Amazon Polly 生成式语音在以下区域可用：

美国东部（弗吉尼亚北部）：us-east-1
欧洲地区（法兰克福）：eu-central-1
美国西部（俄勒冈）：us-west-2
亚太地区（东京）：ap-northeast-1
亚太地区（首尔）：ap-northeast-2
亚太地区（新加坡）：ap-southeast-1
欧洲地区（伦敦）：eu-west-2
加拿大（中部）：ca-central-1
欧洲（苏黎世）：eu-central-2
其他区域不可用

生成式语音支持以下功能：

现在，生成引擎中提供了双向流媒体 API，允许同时流式传输输入和输出。此 API 可在以下 Amazon 区域使用：美国东部（弗吉尼亚北部）、欧洲（法兰克福）、美国西部（俄勒冈）、亚太地区（新加坡）、欧洲（伦敦）、加拿大（中部）和欧洲（苏黎世）。请访问文档，详细了解如何使用它。
Real-time 和异步语音合成操作。
生成式引擎不支持新闻播音员风格。
Amazon Polly 支持许多（但不是所有）SSML 标签。有关 NTTS-supported SSML 标签的更多信息，请参阅支持的 SSML 标签
与标准语音一样，您可以从各种采样率中进行选择，以优化应用程序的带宽和音频质量。标准和神经语音的有效采样率为 8 kHz、16 kHz、22 kHz 或 24 kHz。标准语音的默认值为 22 kHz。生成式语音的默认频率为 24 kHz。Amazon Polly 支持 MP3、OGG (Vorbis) 和原始 PCM 音频流格式。

目前不支持生成式语音标记。

注意

目前，欧洲（伦敦）、加拿大（中部）和欧洲（苏黎世）地区仅支持以下生成声音：乔安娜（en-US）、露丝（en-US）、Salli（en-US）、Stephen（en-US）、Amy（en-GB）、Brian（en-GB）、Olivia（en-AU）、Florian（fr-FR）、Ambre（fr-FR）、洛伦佐（it-it）、比阿特丽斯（it-it）、茉莉花（en-SG）、Aria（en-nz）、Lennart（de-de）、Vicki（de-de）、Sabrina（de-ch）、Hannah（de-at）、Niamh（en-ie）、Camila（pt-BR）、Lisa（nl-be）和 Seoyeon（ko-kr）

注意

在可能性非常小的模型幻觉情况下（并且所采用的生成式引擎的模型行为是按令牌渲染语音），存在一种强制性的紧急停止机制。该内置机制会阻止模型进一步渲染语音。此安全功能基于数据分析，其中模型有可能会产生幻觉，通常是在句子的末尾。

在某些情况下，模型认为自身会产生幻觉，然后最终可能会在生成步骤中切断一个单词，从而只渲染这个单词的一半。这可能会产生不恰当的结果。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

语音引擎

Long-form 发动机