Amazon Transcribe
开发人员指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

识别发言者

您可以让 Amazon Transcribe 识别音频剪辑中的不同的发言者,此过程称作分类发言者识别。在启用发言者识别功能时,Amazon Transcribe 将使用每个片段识别的发言者来标识该片段。

您可以指定 Amazon Transcribe 识别音频剪辑中的 2 到 10 个发言者。当您要求识别的发言者数等于输入音频中的发言者数时,您将获得最佳性能。

要启用发言者识别功能,请在调用 MaxSpeakerLabels 操作时,设置 ShowSpeakerLabels 字段的 SettingsStartTranscriptionJob 字段。您必须设置这两个字段,否则 Amazon Transcribe 将返回异常。

Amazon Transcribe 完成转录作业后,会创建一个包含结果的 JSON 文件,并将该文件保存在 S3 存储桶中。该文件由用户特定的 URI 进行标识。可使用该 URI 获取结果。

以下是一个简短的音频文件的 JSON 文件:

{ "jobName": "job ID", "accountId": "account ID", "results": { "transcripts": [{ "transcript": "Professional answer." }], "speaker_labels": { "speakers": 1, "segments": [{ "start_time": "0.000000", "speaker_label": "spk_0", "end_time": "1.430", "items": [{ "start_time": "0.100", "speaker_label": "spk_0", "end_time": "0.690" }, { "start_time": "0.690", "speaker_label": "spk_0", "end_time": "1.210" }] }] }, "items": [{ "start_time": "0.100", "end_time": "0.690", "alternatives": [{ "confidence": "0.8162", "content": "Professional" }], "type": "pronunciation" }, { "start_time": "0.690", "end_time": "1.210", "alternatives": [{ "confidence": "0.9939", "content": "answer" }], "type": "pronunciation" }, { "alternatives": [{ "content": "." }], "type": "punctuation" }] }, "status": "COMPLETED" }