SynthesizeSpeech - Amazon Polly
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SynthesizeSpeech

将 UTF-8 输入、纯文本或 SSML 合成为字节流。SSML 输入必须是有效、格式良好的 SSML。除非使用音素映射,否则某些字母可能无法用于所有声音(例如,英语语音可能根本不能读取西里尔文)。有关更多信息,请参阅 。工作方式.

请求语法

POST /v1/speech HTTP/1.1 Content-type: application/json { "Engine": "string", "LanguageCode": "string", "LexiconNames": [ "string" ], "OutputFormat": "string", "SampleRate": "string", "SpeechMarkTypes": [ "string" ], "Text": "string", "TextType": "string", "VoiceId": "string" }

URI 请求参数

该请求不使用任何 URI 参数。

请求正文

请求接受采用 JSON 格式的以下数据。

Engine

指定引擎 (standard要么neural) 供 Amazon Polly 在处理用于语音合成的输入文本时使用。有关 Amazon Polly 语音的信息以及哪些语音可以以纯标准格式、仅限 NTTS 格式以及标准和 NTTS 格式提供的信息,请参阅可用语音.

仅限 NTTS 的声音

当使用仅限 NTTS 的声音(例如 Kevin(en-US)时,此参数是必需的,必须将此参数设置为neural. 如果未指定引擎,或者设置为standard,这将导致出现错误。

类型: 字符串

有效值:standard | neural

:必需 是

标准语音

对于标准声部,这不是必需的;引擎参数默认为standard. 如果未指定引擎,或者设置为standard然后选择了一个仅限 NTTS 的语音,这将导致错误。

类型: 字符串

有效值: standard | neural

:必需 否

LanguageCode

合成语音请求的可选择语言代码。只有在使用双语语音(例如 Adii)时才有必要,该语音可用于印度英语(en-in)或印地语(Hi-in)。

如果使用双语语音但未指定语言代码,Amazon Polly 将使用双语语音的默认语言。任何语音的默认语言都是DescribeVoices对于是的LanguageCode参数。例如,如果没有指定语言代码,Aiti 将使用印度英语而不是印地语。

类型: 字符串

有效值: arb | cmn-CN | cy-GB | da-DK | de-DE | en-AU | en-GB | en-GB-WLS | en-IN | en-US | es-ES | es-MX | es-US | fr-CA | fr-FR | is-IS | it-IT | ja-JP | hi-IN | ko-KR | nb-NO | nl-NL | pl-PL | pt-BR | pt-PT | ro-RO | ru-RU | sv-SE | tr-TR | en-NZ | en-ZA

:必需 否

LexiconNames

您希望在合成过程中应用该服务的一个或多个发音词典名称的列表。仅当词典的语言与语音相同时,词典才会应用。有关存储词典的信息,请参阅PutLexicon.

类型: 字符串数组

数组成员:最多 5 项。

模式:[0-9A-Za-z]{1,20}

:必需 否

OutputFormat

返回的输出将采用的编码格式。对于音频流,这将是 mp3、ogg_vorbis 或 pcm。对于语音标记,这将是 json。

当使用 pcm 时,返回的内容为有符号 16 位、1 个通道(单声道)、little-endian 格式的。

类型: 字符串

有效值: json | mp3 | ogg_vorbis | pcm

:必需 是

SampleRate

以 Hz 为单位指定的音频频率。

mp3 和 ogg_vorbis 的有效值为 “8000"、“16000”、“22050” 和 “24000”。标准声部的默认值为 “22050”。神经语音的默认值为 “24000”。

PCM 的有效值为 “8000" 和 “16000” 默认值为 “16000”。

类型: 字符串

:必需 否

SpeechMarkTypes

为输入文本返回的语音标记的类型。

类型: 字符串数组

数组成员:最多 4 项。

有效值: sentence | ssml | viseme | word

:必需 否

Text

输入要合成的文本。如果你指定ssml作为TextType,请遵循 SSML 格式作为输入文本。

类型: 字符串

:必需 是

TextType

指定输入文本是纯文本还是 SSML。默认值为纯文本。有关更多信息,请参阅使用 SSML

类型: 字符串

有效值: ssml | text

:必需 否

VoiceId

用于合成的语音 ID。您可以通过呼叫获取可用的语音 ID 的列表DescribeVoicesoperation.

类型: 字符串

有效值: Aditi | Amy | Astrid | Bianca | Brian | Camila | Carla | Carmen | Celine | Chantal | Conchita | Cristiano | Dora | Emma | Enrique | Ewa | Filiz | Gabrielle | Geraint | Giorgio | Gwyneth | Hans | Ines | Ivy | Jacek | Jan | Joanna | Joey | Justin | Karl | Kendra | Kevin | Kimberly | Lea | Liv | Lotte | Lucia | Lupe | Mads | Maja | Marlene | Mathieu | Matthew | Maxim | Mia | Miguel | Mizuki | Naja | Nicole | Olivia | Penelope | Raveena | Ricardo | Ruben | Russell | Salli | Seoyeon | Takumi | Tatyana | Vicki | Vitoria | Zeina | Zhiyu | Aria | Ayanda

:必需 是

响应语法

HTTP/1.1 200 Content-Type: ContentType x-amzn-RequestCharacters: RequestCharacters AudioStream

响应元素

如果此操作成功,则该服务将会发送回 HTTP 200 响应。

响应将返回以下 HTTP 标头。

ContentType

指定音频流的类型。这应该反映OutputFormat请求中的参数。

  • 如果你要求mp3作为OutputFormatContentType返回的是音频 /mpeg。

  • 如果你要求ogg_vorbis作为OutputFormatContentType返回的是音频 /ogg。

  • 如果你要求pcm作为OutputFormatContentType返回的是有符号 16 位、1 个通道(单声道)、litle-endian 格式的。

  • 如果你要求json作为OutputFormatContentType返回的是音频 /json。

RequestCharacters

合成的字符数。

响应将以下内容作为 HTTP 正文返回。

AudioStream

直播包含合成的语音。

错误

EngineNotSupportedException

该引擎与您指定的声音不兼容。选择与引擎兼容的新声音或者更改引擎然后重新启动操作。

HTTP 状态代码:400

InvalidSampleRateException

指定的采样率无效。

HTTP 状态代码:400

InvalidSsmlException

您提供的 SSML 无效。验证 SSML 语法、标签和值的拼写,然后重试。

HTTP 状态代码:400

LanguageNotSupportedException

Amazon Polly 目前不支持此身份指定的语言。

HTTP 状态代码:400

LexiconNotFoundException

Amazon Polly 找不到指定的词典。这可能是由于缺少词典、其名称拼写错误或指定位于不同区域的词典引起的。

验证词典是否存在,是否在该地区(请参阅ListLexicons)而且您拼写的名称的拼写正确。然后重试。

HTTP 状态代码:404

MarksNotSupportedForFormatException

不支持语音标记OutputFormat已选择。语音标记仅适用于中的内容json格式的日期和时间。

HTTP 状态代码:400

ServiceFailureException

未知情况导致了服务失败。

HTTP 状态代码:500

SsmlMarksNotSupportedForTextTypeException

纯文本类型输入不支持 SSML 语音标记。

HTTP 状态代码:400

TextLengthExceededException

“文本” 参数的值比接受的限制长。对于SynthesizeSpeechAPI,输入文本的限制最多为 6000 个字符,其中不超过 3000 个字符可以计费。对于StartSpeechSynthesisTaskAPI,最多为 200,000 个字符,其中不超过 100,000 个字符可以计费。SSML 标签不会算作计费字符。

HTTP 状态代码:400

另请参阅

有关在特定语言的Amazon软件开发工具包中使用此 API 的更多信息,请参阅以下内容: