Filtering Batch Transcriptions - Amazon Transcribe
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Filtering Batch Transcriptions

使用词汇表筛选条件,通过 Amazon Transcribe 控制台或 StartTranscriptionJob 操作筛选批处理转录作业中不需要的词汇。

以下操作显示参数和数据类型。

{ "ContentRedaction": { "RedactionOutput": "string", "RedactionType": "string" }, "JobExecutionSettings": { "AllowDeferredExecution": boolean, "DataAccessRoleArn": "string" }, "LanguageCode": "string", "Media": { "MediaFileUri": "string" }, "MediaFormat": "string", "MediaSampleRateHertz": number, "OutputBucketName": "string", "OutputEncryptionKMSKeyId": "string", "Settings": { "ChannelIdentification": boolean, "MaxAlternatives": number, "MaxSpeakerLabels": number, "ShowAlternatives": boolean, "ShowSpeakerLabels": boolean, "VocabularyFilterMethod": "string", "VocabularyFilterName": "string", "VocabularyName": "string" }, "TranscriptionJobName": "string" }

要使用控制台启动具有词汇表筛选功能的批处理转录作业,您必须已创建词汇表筛选条件,如Step 2: Creating a Vocabulary Filter中所述。

To filter unwanted words in a transcription job (console)

  1. 登录 AWS 管理控制台并通过 Amazon Transcribe 控制台打开 Amazon Transcribe 控制台。

  2. 在导航窗格中,选择转录作业

  3. 选择 Create job (创建作业)

  4. 对于名称,为批处理转录作业指定在 AWS 账户中唯一的名称。

  5. 对于语言,请选择将在转录作业中使用的语言。

  6. 指定音频文件或视频文件在 Amazon S3 中的位置:

    • 对于 S3上的输入文件位置 下方 输入数据,指定 Amazon S3 标识您将转录的媒体文件的URI。

    • 选择 浏览S3 下方 输入数据 要浏览媒体文件并选择该文件。

  7. 选择 Next (下一步)

  8. 启用 词汇过滤 下方 内容移除.

  9. Filter selection (筛选条件选择) 下, 选择词汇表筛选条件和词汇表筛选方法。

  10. 选择创建

筛选批次转录(API)

  • StartTranscriptionJob 操作中,指定以下内容:

    1. 对于 TranscriptionJobName,请指定在您的 AWS 账户中具有唯一性的名称。

    2. 对于 LanguageCode,指定与媒体文件中所用语言和词汇表筛选条件的语言对应的语言代码。

    3. Media 对象的 MediaFileUri 参数中,指定要转录的媒体文件的名称。

    4. 对于 VocabularyFilterName 参数,指定词汇筛选条件的名称。

    5. 对于 VocabularyFilterMethod 参数,请选择以下选项之一:

      • 用三个星号替换过滤过的词语 ***,指定 mask。过滤句子上的“懒惰”: “快速的棕色狐狸在懒犬上跳跃” 与 mask 方法显示“快速棕色狐狸在***狗上跳跃。” 在转录中。

      • 要从成绩单中删除已过滤的词语,请指定 remove。从句子上过滤“懒惰”的词语“在懒犬上跳上快速的棕色狐狸”。与 remove 方法显示“快速棕色狐狸在狗上跳动。” 在成绩单中。