Filtering Streaming Transcriptions - Amazon Transcribe
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Filtering Streaming Transcriptions

使用词汇表筛选条件,通过 Amazon Transcribe 控制台或 StartStreamTranscription 操作筛选实时流中不需要的词汇。

以下语法显示参数及其数据类型。

{ "LanguageCode" : "enum", "MediaSampleRateHertz" : "integer", "MediaEncoding" : "enum", "VocabularyName" : "string", "SessionId" : "string", "AudioStream" : "eventstream", "VocabularyFilterName" : "string", "VocabularyFilterMethod": "enum" }

筛选流转录 (API)

  • StartStreamTranscription 操作中,指定以下内容:

    1. LanguageCode 字段中音频的语言代码。

    2. MediaSampleHertz 字段中音频的采样速率。

    3. VocabularyFilterName 字段中词汇表筛选条件的名称。

    4. VocabularyFilterMethod 参数中的筛选方法:

      • 用三个星号替换过滤的词语(***)指定 mask。从句子上过滤“懒惰”的词语“在懒犬上跳上快速的棕色狐狸”。与 mask 方法显示“快速棕色狐狸在***狗上跳跃。” 在转录中。

      • 要从成绩单中删除词语,请指定 remove。从句子上过滤“懒惰”的词语“在懒犬上跳上快速的棕色狐狸”。与 remove 方法显示“快速棕色狐狸在狗上跳动。” 在转录中。

要使用同一个流创建一个已筛选了内容的转录和一个未筛选的转录,请使用标记方法。有关信息,请参阅Tailoring Transcripts to Different Audiences with Tagging

筛选流转录(控制台)

  1. 登录 AWS 管理控制台并在此处打开 Amazon Transcribe 控制台:Amazon Transcribe 控制台

  2. 在导航窗格中,选择 Real-time transcription (实时转录)

  3. 语言中,选择实时流的语言。

  4. 选择 其他设置 选项卡并选择词汇过滤器和词汇过滤方法。

  5. 选择 Start streaming (开始流) 以在启用词汇筛选的情况下开始您的流。

Tailoring Transcripts to Different Audiences with Tagging

您可以使用单个流来生成一个不显示不需要的字词的转录,并生成一个显示不需要的字词的转录。在 StartStreamTranscription 操作中,使用 tag 方法来标记转录中与词汇表筛选条件中的字词匹配的字词。您可以将实时流的结果呈现给可以看到完整转录的受众,包括词汇表筛选条件中列出的字词。然后,您可以复制转录结果,删除词汇过滤器标记的词语,并将这些结果显示为不应该看到不想要的词语的受众。

通过标记,您不仅仅是为两个不同的受众生成转录。您可以从同一个流为多个受众生成多个转录。您可以选择将词汇过滤器中所捕捉到的某些词语移除,并将其留在其他录像头中。

在实时转录中启用标记

  • StartStreamTranscription 操作中,指定以下内容:

    1. 对于 VocabularyFilterName,您的词汇筛选条件的名称。

    2. 对于 VocabularyFilterMethod,指定 tag.

    例如,如果“懒惰”在词汇过滤器中,那么这句话说“快速的棕色狐狸在懒犬上跳过了。” 在转录结果中不变。VocabularyFilterMatch 参数的值对于“懒惰”将为 true,而不是在转录中屏蔽或删除此字词。

以下示例 JSON 输出显示了这一点。

"Transcript": { "Results": [ { ... "Alternatives": [ { "Items": [ ... { "Content": "jumps", "EndTime": 1.02, "StartTime": 0.98, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": "over", "EndTime": 1.26, "StartTime": 1.03, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": "the", "EndTime": 1.41, "StartTime": 1.27, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": "lazy", "EndTime": 1.81, "StartTime": 1.42, "Type": "pronunciation", "VocabularyFilterMatch": true } ... ] } ] } ] }