本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
神经声音
Amazon Polly 有一个 Neural text-to-speech (NTTS) 引擎,它可以产生比标准语音更高质量的声音。标准TTS声音使用串联合成。标准引擎将录制的语音拼接在一起,生成听起来非常自然的合成语音。然而,语音中不可避免的语调变化和用于分割波形的技术限制了语音的质量。Amazon Polly NTTS 引擎不使用标准的串联合成来生成语音。它具有两个部分:
-
一种神经网络 — 将音素序列(最基本的语言单元)转换为频谱图序列。(光谱图是不同频段内能量水平的快照。)
-
声码器 — 将频谱图转换为近乎连续的音频信号。
神经TTS系统的第一个组成部分是 sequence-to-sequence 模型。该模型不仅仅从相应的输入创建其结果,而且还考虑输入元素的序列如何配合使用。该模型选择它输出的声谱图,使其频带强调人脑在处理语音时使用的声学特征。
然后该模型的输出传递给神经声码器。声码器会将声谱图转换为语音波形。当在用于构建通用串联合成系统的大型数据集上训练时,这种 sequence-to-sequence 方法将产生更高质量、听起来更自然的声音。
可用的神经声音
神经语音有 35 种语言和语言变体。下表列出了这些语音。
|
语言和语言变体 | 语言代码 | 名称/ID | 性别 |
---|---|---|---|---|
1 |
阿拉伯语(海湾) |
ar-AE |
哈拉 扎伊德 |
女 男 |
2 |
比利时荷兰语(佛兰芒语) |
nl-BE |
Lisa |
女 |
3 |
加泰罗尼亚语 |
ca-ES |
Arlet |
女 |
4 |
捷克语 |
cs-cz |
Jitka |
女 |
5 |
中文(粤语) |
yue-CN |
Hiujin |
女 |
6 |
中文(普通话) |
cmn-CN |
知语 |
女 |
7 |
丹麦语 |
da-DK |
Sofie |
女 |
8 |
荷兰语 |
nl-NL |
Laura |
女 |
9 |
英语(澳大利亚) |
en-AU |
Olivia |
女 |
10 |
英语(英国) |
en-GB |
Amy* Emma Brian Arthur |
女 女 男 男 |
11 |
英语(印度) |
en-IN |
Kajal |
女 |
12 |
英语(爱尔兰) |
en-IE |
Niamh |
女 |
13 |
英语(新西兰) |
en-NZ |
Aria |
女 |
14 |
英语(南非) |
en-ZA |
Ayanda |
女 |
15 |
英语(美国) |
en-US |
Danielle Gregory Ivy Joanna* Kendra Kimberly Salli Joey Justin Kevin Matthew* Ruth Stephen |
女 男 女(孩童) 女 女 女 女 男 男(孩童) 男(孩童) 男 女 男 |
16 |
芬兰语 |
fi-FI |
Suvi |
女 |
17 |
法语(比利时) |
fr-BE |
Isabelle |
女 |
18 |
法语(加拿大) |
fr-CA |
Gabrielle Liam |
女 男 |
19 |
法语 |
fr-FR |
Léa Rémi |
女 男 |
20 |
德语 |
de-DE |
Vicki Daniel |
女 男 |
21 |
德语(奥地利) |
de-AT |
Hannah |
女 |
22 |
德语(瑞士) |
de-ch |
萨布丽娜 |
女 |
23 |
印地语 |
hi-IN |
Kajal |
女 |
24 |
意大利语 |
it-IT |
Bianca Adriano |
女 男 |
25 |
日语 |
ja-JP |
Takumi Kazuha Tomoko |
男 女 女 |
26 |
韩语 |
ko-KR |
Seoyeon |
女 |
27 |
挪威语 |
nb-NO |
Ida |
女 |
28 |
波兰语 |
pl-PL |
Ola |
女 |
29 |
葡萄牙语(巴西) |
pt-BR |
Camila Vitória/Vitoria Thiago |
女 女 男 |
30 |
葡萄牙语(欧洲) |
pt-PT |
Inês/Ines |
女 |
31 |
西班牙语(欧洲) |
es-ES |
Lucia Sergio |
女 男 |
32 |
西班牙语(墨西哥) |
es-MX |
Mia Andrés |
女 男 |
33 |
西班牙语(美国) |
es-US |
Lupe* Pedro |
女 男 |
34 |
瑞典语 |
sv-SE |
Elin |
女 |
35 |
土耳其语 |
tr-TR |
Burcu |
女 |
*Amy、Joanna、Lupe 和 Matthew 语音可使用播音讲话风格。有关更多信息,请参阅 新闻播音员的声音。
特征和区域兼容性
神经声音并非全部可用 Amazon 区域,也不支持 Amazon Polly 的所有功能。
以下区域支持神经语音:
-
美国东部(弗吉尼亚北部):us-east-1
-
美国西部(俄勒冈):us-west-2
-
非洲(开普敦):af-south-1
-
亚太地区(东京):ap-northeast-1
-
亚太地区(首尔):ap-northeast-2
-
亚太地区(大阪):ap-northeast-3
-
亚太地区(孟买):ap-south-1
-
亚太地区(新加坡):ap-southeast-1
-
亚太地区(悉尼):ap-southeast-2
-
加拿大(中部):ca-central-1
-
欧洲地区(法兰克福):eu-central-1
-
欧洲地区(爱尔兰):eu-west-1
-
欧洲地区(伦敦):eu-west-2
-
欧洲地区(巴黎):eu-west-3
-
Amazon GovCloud (美国西部): us-gov-west-1
这些区域的终端节点和协议与标准语音所用的相同。有关更多信息,请参阅 Amazon Polly 终端节点和配额。
神经语音支持以下功能:
-
实时和异步语音合成操作。
-
播音员风格。有关讲话风格的更多信息,请参阅 新闻播音员的声音。
-
所有语音标记。
-
Amazon Polly 支持的许多(但不是全部)SSML标签。有关NTTS支持的SSML标签的更多信息,请参阅支持的标签。
与标准语音一样,您可以从各种采样率中进行选择,以优化应用程序的带宽和音频质量。标准和神经语音的有效采样率为 8 kHz kHz、16 kHz、22 或 24 kHz。标准声音的默认值为 22 kHz。神经语音的默认值为 24 kHz。Amazon Polly 支持MP3、OGG (Vorbis) 和原始PCM音频流格式。
在主机上使用神经网络引擎
你可以通过亚马逊 Polly 控制台访问亚马逊 Polly Neural 的声音,或者 Amazon CLI.
在控制台上使用神经引擎
-
打开 Amazon Polly 主机,网址为。https://console.aws.amazon.com/polly/
-
在控制台中,选择神经引擎。
-
从语音下拉菜单中选择所需的声音。
-
使用您选择的文本生成TTS音频。