生成声音 - Amazon Polly
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

生成声音

Amazon Polly 的生成式 text-to-speech (TTS) 引擎提供了最像人类、最具情感参与度和自适应性的对话语音,可供通过 Amazon Polly 控制台使用。

生成引擎是迄今为止最大的亚马逊 Polly TTS 模型。它部署了一个十亿参数的转换器,用于将原始文本转换为语音代码,然后部署基于卷积的解码器,该解码器以增量、可流式传输的方式将这些语音代码转换为波形。这种方法显示了被广泛报道的大型语言模型(LLM)在接受越来越多的公开和专有数据(包括各种声音、语言和风格)的训练时出现的能力。

生成引擎以一种与人类声音非常相似的方式创建的合成语音,这种语音在情感上具有参与度、自信和高度口语。你可以将这些声音用作知识渊博的客户助理、虚拟培训师或具有近乎人性化的合成语音的广告商。

注意

这些声音背后的 state-of-the-art 技术属于用于语言和语音建模的生成式人工智能的范式。该技术的一个副作用是,对训练数据和模型的任何更新都可能导致声音的声音略有不同,即使随着模型的更新,声音的整体质量也会有所提高。这可能会对在很长一段时间内合成不同内容部分的用例产生影响,例如一季的播客。

可用的生成声音

Amazon Polly 目前以生成变体形式提供两种女性英语配音和一种男性英语配音。这些生成语音也有对话式 NTTS 变体版本。

Language 语言代码 名称/ID 性别

1

英语 (英国)

en-GB

Amy

2

英语(美国)

en-US

Matthew

Ruth

注意

生成语音费用在 Amazon Polly 定价信息页面上指定。

功能和区域兼容性

Amazon Polly 生成语音可在以下地区使用:

  • 美国东部(弗吉尼亚州北部)区域

  • 其他地区不可用

生成语音支持以下功能:

  • 实时和异步语音合成操作。

  • 生成引擎不支持新闻播客的说话风格。

  • Amazon Polly 支持许多(但不是全部)SSML 标签。有关 NTTS 支持的 SSML 标签的更多信息,请参阅支持的 SSML 标签

  • 与标准语音一样,您可以从各种采样率中进行选择,以优化应用程序的带宽和音频质量。标准和神经语音的有效采样率为 8 kHz、16 kHz、22 kHz 或 24 kHz。标准语音的默认值为 22 kHz。生成语音的默认值为 24 kHz。Amazon Polly 支持 MP3、OGG (Vorbis) 和原始 PCM 音频流格式。

  • 新的 Amazon Polly 生成语音有 100 毫秒的延迟。

目前尚不支持生成语音标记。

注意

在不太可能出现模型幻觉的情况下(以及生成引擎的模型行为是通过令牌渲染语音标记),就会有一种强制性的紧急停止机制。内置机制可阻止模型进一步渲染语音。此安全功能基于数据分析,其中模型有可能产生幻觉,通常是在句子的末尾。

在某些情况下,模型认为自己会产生幻觉,然后最终可能会在生成步骤中剪掉一个字,从而呈现出一半的单词。这可能会产生不恰当的结果。

在主机上使用生成引擎

你可以通过 Amazon Polly 控制台访问 Amazon Polly 生成语音,或者。 Amazon CLI在控制台中,选择生成引擎,然后从列表中选择相应的生成语音以收听该语音中的合成语音。您还可以使用SynthesizeSpeechStartSpeechSynthesisTask API 操作探索生成语音。对于 API 操作,您可以在 API 请求中指定引擎和语音名称。有关使用 Python 的快速入门代码示例,请参阅 Pyt hon 示例

在主机上使用生成引擎
  1. 通过以下网址打开 Amazon Polly 控制台:https://console.aws.amazon.com/polly/

  2. 从 Amazon Polly 控制台中,选择生成引擎。

  3. 从语音下拉菜单中选择所需的声音。

  4. 使用您选择的文本生成 TTS 音频。

注意

生成语音也可以与SynthesizeSpeechStartSpeechSynthesisTaskAPI 操作一起使用。对于 API 操作,客户可以在 API 请求中指定引擎和语音名称。可以在此处找到更多快速入门代码示例