识别音频文件中的扬声器 - Amazon Transcribe
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

识别音频文件中的扬声器

您可以使用 StartTranscriptionJob 操作或 Amazon Transcribe 控制台。

在音频文件中识别扬声器(控制台)

要使用控制台在转录作业中启用扬声器识别,请启用音频识别,然后启用扬声器识别。

  1. 登录 AWS 管理控制台并通过 Amazon Transcribe 控制台打开 Amazon Transcribe 控制台。

  2. 在导航窗格中,位于 Amazon Transcribe,选择 转录作业.

  3. 选择创建作业

  4. 指定作业详细信息 页面上,提供有关您的转录作业的信息。

  5. 选择下一步

  6. 启用 音频识别.

  7. 对于 音频识别类型,选择 扬声器识别.

  8. 对于 扬声器最大数量,指定您认为在音频中发言的扬声器的最大数量。为获得最佳效果,请将您要求识别的发言者数量与输入音频中的发言者数量相匹配。如果指定的值小于输入音频中的扬声器数量,则最相似的扬声器的转录文本将归属于扬声器标签。

  9. 选择创建

使用批处理转录作业(API)识别音频文件中的扬声器

  • StartTranscriptionJob 操作,请指定以下。

    1. 对于 TranscriptionJobName,请指定在您的 AWS 账户中具有唯一性的名称。

    2. 对于 LanguageCode,指定与媒体文件中所用语言和词汇表筛选条件的语言对应的语言代码。

    3. Media 对象的 MediaFileUri 参数中,指定要转录的媒体文件的名称。

    4. 对于 Settings 对象,请指定以下。

      1. ShowSpeakerLabels - true.

      2. MaxSpeakerLabels -表示的整数介于2和10之间,表示您认为音频中正在发言的扬声器数量。为获得最佳效果,请将您要求识别的发言者数量与输入音频中的发言者数量相匹配。如果指定的值小于输入音频中的扬声器数量,则最相似的扬声器的转录文本将归属于扬声器标签。

以下语法显示用于启动批处理转录作业的请求参数及其数据类型。

{ "ContentRedaction": { "RedactionOutput": "string", "RedactionType": "string" }, "JobExecutionSettings": { "AllowDeferredExecution": boolean, "DataAccessRoleArn": "string" }, "LanguageCode": "string", "Media": { "MediaFileUri": "string" }, "MediaFormat": "string", "MediaSampleRateHertz": number, "OutputBucketName": "string", "OutputEncryptionKMSKeyId": "string", "Settings": { "ChannelIdentification": boolean, "MaxAlternatives": number, "MaxSpeakerLabels": number, "ShowAlternatives": boolean, "ShowSpeakerLabels": boolean, "VocabularyFilterMethod": "string", "VocabularyFilterName": "string", "VocabularyName": "string" }, "TranscriptionJobName": "string" }

以下代码显示启用扬声器识别的转录作业的示例输出。

{ "jobName": "job ID", "accountId": "account ID", "results": { "transcripts": [ { "transcript": "Professional answer." } ], "speaker_labels": { "speakers": 1, "segments": [ { "start_time": "0.000000", "speaker_label": "spk_0", "end_time": "1.430", "items": [ { "start_time": "0.100", "speaker_label": "spk_0", "end_time": "0.690" }, { "start_time": "0.690", "speaker_label": "spk_0", "end_time": "1.210" } ] } ] }, "items": [ { "start_time": "0.100", "end_time": "0.690", "alternatives": [ { "confidence": "0.8162", "content": "Professional" } ], "type": "pronunciation" }, { "start_time": "0.690", "end_time": "1.210", "alternatives": [ { "confidence": "0.9939", "content": "answer" } ], "type": "pronunciation" }, { "alternatives": [ { "content": "." } ], "type": "punctuation" } ] }, "status": "COMPLETED" }

使用批处理转录作业识别音频文件中的扬声器(AWS CLI)

  • 运行以下代码。

    aws transcribe start-transcription-job \ --cli-input-json file://example-start-command.json

    以下代码显示 example-start-command.json.

    { "TranscriptionJobName": "your-transcription-job-name", "LanguageCode": "en-US", "Media": { "MediaFileUri": "s3:///your-audio-file.mp4" }, "Settings":{ "MaxSpeakerLabels": 2, "ShowSpeakerLabels":true }

    以下是运行前一CLI命令的响应。

    { "TranscriptionJob": { "TranscriptionJobName": "your-transcription-job-name", "TranscriptionJobStatus": "IN_PROGRESS", "LanguageCode": "en-US", "Media": { "MediaFileUri": "s3:///your-audio-file" }, "StartTime": "2020-07-29T17:45:09.826000+00:00", "CreationTime": "2020-07-29T17:45:09.791000+00:00", "Settings": { "ShowSpeakerLabels": true, "MaxSpeakerLabels": 2 } } }