筛选批处理转录 - Amazon Transcribe
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

筛选批处理转录

使用词汇表筛选条件,通过 Amazon Transcribe 控制台或 StartTranscriptionJob 操作筛选批处理转录作业中不需要的词汇。

以下操作显示参数和数据类型。

{ "ContentRedaction": { "RedactionOutput": "string", "RedactionType": "string" }, "JobExecutionSettings": { "AllowDeferredExecution": boolean, "DataAccessRoleArn": "string" }, "LanguageCode": "string", "Media": { "MediaFileUri": "string" }, "MediaFormat": "string", "MediaSampleRateHertz": number, "OutputBucketName": "string", "OutputEncryptionKMSKeyId": "string", "Settings": { "ChannelIdentification": boolean, "MaxAlternatives": number, "MaxSpeakerLabels": number, "ShowAlternatives": boolean, "ShowSpeakerLabels": boolean, "VocabularyFilterMethod": "string", "VocabularyFilterName": "string", "VocabularyName": "string" }, "TranscriptionJobName": "string" }

要使用控制台启动具有词汇表筛选功能的批处理转录作业,您必须已创建词汇表筛选条件,如步骤 2:创建词汇表筛选条件中所述。

筛选转录作业中不需要的字词(控制台)

  1. 登录 AWS 管理控制台并通过 Amazon Transcribe 控制台打开 Amazon Transcribe 控制台。

  2. 在导航窗格中,选择转录作业

  3. 选择创建作业

  4. 对于名称,为批处理转录作业指定在 AWS 账户中唯一的名称。

  5. 对于语言,请选择将在转录作业中使用的语言。

  6. 指定音频文件或视频文件在 Amazon S3 中的位置:

    • 对于输入数据下的 S3 上输入文件的位置,指定用于标识要转录的媒体文件的 Amazon S3 URI。

    • 选择输入数据下的浏览 S3 以浏览媒体文件并选择它。

  7. 选择 Next (下一步)

  8. Content removal (内容删除) 下启用 Vocabulary filtering (词汇表筛选)

  9. Filter selection (筛选条件选择) 下, 选择词汇表筛选条件和词汇表筛选方法。

  10. 选择创建

筛选批处理转录 (API)

  • StartTranscriptionJob 操作中,指定以下内容:

    1. 对于 TranscriptionJobName,请指定在您的 AWS 账户中具有唯一性的名称。

    2. 对于 LanguageCode,指定与媒体文件中所用语言和词汇表筛选条件的语言对应的语言代码。

    3. Media 对象的 MediaFileUri 参数中,指定要转录的媒体文件的名称。

    4. 对于 VocabularyFilterName 参数,指定词汇表筛选条件的名称。

    5. 对于 VocabularyFilterMethod 参数,请选择以下选项之一:

      • 要通过用三个星号 *** 替换筛选的字词来屏蔽它们,请指定 mask。通过使用 mask 方法从句子“快速的棕色狐狸跳过懒惰的狗。”中筛选“懒惰”一词,转录中将显示“快速的棕色狐狸跳过***的狗”。

      • 要从转录中删除筛选的字词,请指定 remove。通过使用 remove 方法从句子“快速的棕色狐狸跳过懒惰的狗。”中筛选“懒惰”一词,转录中将显示“快速的棕色狐狸跳过的狗”。