神经声音 - Amazon Polly
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

神经声音

Amazon Polly拥有神经网络 text-to-speech (NTTS)引擎,可以产生比标准语音更高质量的声音。标准 TTS 语音使用拼接合成。标准引擎将录制的语音拼接在一起,生成听起来非常自然的合成语音。然而,语音中不可避免的语调变化和用于分割波形的技术限制了语音的质量。Amazon Polly NTTS 引擎不使用标准的串联合成来生成语音。它具有两个部分:

  • 一种神经网络 — 将音素序列(最基本的语言单元)转换为频谱图序列。(光谱图是不同频段内能量水平的快照。)

  • 声码器 — 将频谱图转换为近乎连续的音频信号。

神经 TTS 系统的第一个组成部分是 sequence-to-sequence 模型。该模型不仅仅从相应的输入创建其结果,而且还考虑输入元素的序列如何配合使用。该模型选择它输出的声谱图,使其频带强调人脑在处理语音时使用的声学特征。

然后该模型的输出传递给神经声码器。声码器会将声谱图转换为语音波形。当在用于构建通用串联合成系统的大型数据集上训练时,这种 sequence-to-sequence 方法将产生更高质量、听起来更自然的声音。

可用的神经声音

神经语音有 33 种语言和语言变体。下表列出了这些语音。

语言和语言变体 语言代码 名称/ID 性别

1

阿拉伯语(海湾)

ar-AE

哈拉

扎伊德

2

比利时荷兰语(佛兰芒语)

nl-BE

Lisa

3

加泰罗尼亚语

ca-ES

Arlet

4

中文(粤语)

yue-CN

Hiujin

5

中文(普通话)

cmn-CN

知语

6

丹麦语

da-DK

Sofie

7

荷兰语

nl-NL

Laura

8

英语(澳大利亚)

en-AU

Olivia

9

英语(英国)

en-GB

Amy*

Emma

Brian

Arthur

10

英语(印度)

en-IN

Kajal

11

英语(爱尔兰)

en-IE

Niamh

12

英语(新西兰)

en-NZ

Aria

13

英语(南非)

en-ZA

Ayanda

14

英语(美国)

en-US

Danielle

Gregory

Ivy

Joanna*

Kendra

Kimberly

Salli

Joey

Justin

Kevin

Matthew*

Ruth

Stephen

女(孩童)

男(孩童)

男(孩童)

15

芬兰语

fi-FI

Suvi

16

法语(比利时)

fr-BE

Isabelle

17

法语(加拿大)

fr-CA

Gabrielle

Liam

18

法语

fr-FR

Léa

Rémi

19

德语

de-DE

Vicki

Daniel

20

德语(奥地利)

de-AT

Hannah

21

印地语

hi-IN

Kajal

22

意大利语

it-IT

Bianca

Adriano

23

日语

ja-JP

Takumi

Kazuha

Tomoko

24

韩语

ko-KR

Seoyeon

25

挪威语

nb-NO

Ida

26

波兰语

pl-PL

Ola

27

葡萄牙语(巴西)

pt-BR

Camila

Vitória/Vitoria

Thiago

28

葡萄牙语(欧洲)

pt-PT

Inês/Ines

29

西班牙语(欧洲)

es-ES

Lucia

Sergio

30

西班牙语(墨西哥)

es-MX

Mia

Andrés

31

西班牙语(美国)

es-US

Lupe*

Pedro

32

瑞典语

sv-SE

Elin

33

土耳其语

tr-TR

Burcu

*Amy、Joanna、Lupe 和 Matthew 语音可使用播音讲话风格。有关更多信息,请参阅 新闻播音员的声音

功能和区域兼容性

神经语音并非在所有 Amazon 地区都可用,也不支持 Amazon Polly 的所有功能。

以下区域支持神经语音:

  • 美国东部(弗吉尼亚北部):us-east-1

  • 美国西部(俄勒冈):us-west-2

  • 非洲(开普敦):af-south-1

  • 亚太地区(东京):ap-northeast-1

  • 亚太地区(首尔):ap-northeast-2

  • 亚太地区(大阪):ap-northeast-3

  • 亚太地区(孟买):ap-south-1

  • 亚太地区(新加坡):ap-southeast-1

  • 亚太地区(悉尼):ap-southeast-2

  • 加拿大(中部):ca-central-1

  • 欧洲地区(法兰克福):eu-central-1

  • 欧洲地区(爱尔兰):eu-west-1

  • 欧洲地区(伦敦):eu-west-2

  • 欧洲地区(巴黎):eu-west-3

  • Amazon GovCloud (美国西部): us-gov-west-1

这些区域的终端节点和协议与标准语音所用的相同。有关更多信息,请参阅 Amazon Polly 终端节点和配额

神经语音支持以下功能:

  • 实时和异步语音合成操作。

  • 播音员风格。有关讲话风格的更多信息,请参阅 新闻播音员的声音

  • 所有语音标记。

  • 大多(但不是所有)Amazon Polly 支持的 SSML 标签。有关 NTTS 支持的 SSML 标签的更多信息,请参阅支持的标签。

与标准语音一样,您可以从各种采样率中进行选择,以优化应用程序的带宽和音频质量。标准和神经语音的有效采样率为 8 kHz、16 kHz、22 kHz 或 24 kHz。标准语音的默认值为 22 kHz。神经语音的默认值为 24kHz。Amazon Polly 支持 MP3、OGG (Vorbis) 和原始 PCM 音频流格式。

在主机上使用神经网络引擎

你可以通过 Amazon Polly 控制台访问亚马逊 Polly Neural 的声音,或者。 Amazon CLI

在控制台上使用神经引擎
  1. 通过以下网址打开 Amazon Polly 控制台:https://console.aws.amazon.com/polly/

  2. 在控制台中,选择神经引擎。

  3. 从语音下拉菜单中选择所需的声音。

  4. 使用您选择的文本生成 TTS 音频。