本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
长篇语音
Amazon Polly 有一个长篇引擎,可发出类似人类、极富表现力且情感丰富的语音。长篇语音旨在吸引听众关注较长内容,例如新闻文章、培训材料或营销视频。
Amazon Polly 长篇语音是使用前沿深度学习 TTS 技术开发而成。该模型学习复制人类语言的音素、韵律、语调以及其他语音和声学方面,从而产生高度自然的语音输出。
使用文本嵌入(系统以实值向量的形式表示用于文本分析的词语),长篇引擎还可以解释文本的含义,以生成自然语音的正确强调、停顿和语气。最后得到的语音能够结合人类交流中存在的各种情感元素,包括模仿惊讶或区分对话与叙述。这些结合在一起,便打造出听起来像真人一样的优质语音产品。
特征和区域兼容性
Amazon Polly 长篇语音在以下区域可用:
-
美国东部(弗吉尼亚州北部)区域
-
其他区域不可用
Amazon Polly 长篇引擎支持以下特征:
-
实时和异步语音合成操作。
-
所有语音标记。
-
Amazon Polly 支持的许多(但不是所有)SSML 标签。有关 NTTS 支持的 SSML 标签的更多信息,请参阅支持的 SSML 标签。
-
100ms 延迟。
-
与标准语音一样,您可以从各种采样率中进行选择,以优化应用程序的带宽和音频质量。标准、长篇和神经语音的有效采样率为 8 kHz、16 kHz、22 kHz 或 24 kHz。标准语音的默认值为 22 kHz。长篇和神经语音的默认值为 24 kHz。Amazon Polly 支持 MP3、OGG (Vorbis) 和原始 PCM 音频流格式。
注意
对于语音或语音标记请求,长篇语音每 100 万字符收费 100 美元。
使用长篇语音
可以通过 Amazon Polly 控制台或 Amazon CLI 访问 Amazon Polly 长篇语音。
-
从 Amazon Polly 控制台中,选择长篇引擎。
-
从语音下拉菜单中选择所需语音。
-
输入您选择的文本以生成 TTS 音频。
注意
长篇语音也可以与 SynthesizeSpeech
和 StartSpeechSynthesisTask
API 一起使用。对于 API,客户可以在 API 请求中指定引擎和语音名称。可以在此处找到更多快速入门代码示例。