筛选流转录 - Amazon Transcribe
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

筛选流转录

使用词汇表筛选条件,通过 Amazon Transcribe 控制台或 StartStreamTranscription 操作筛选实时流中不需要的词汇。

以下语法显示了参数及其数据类型。

{ "LanguageCode" : "enum", "MediaSampleRateHertz" : "integer", "MediaEncoding" : "enum", "VocabularyName" : "string", "SessionId" : "string", "AudioStream" : "eventstream", "VocabularyFilterName" : "string", "VocabularyFilterMethod": "enum" }

筛选流转录 (API)

  • StartStreamTranscription 操作中,指定以下内容:

    1. LanguageCode 字段中音频的语言代码。

    2. MediaSampleHertz 字段中音频的采样速率。

    3. VocabularyFilterName 字段中词汇表筛选条件的名称。

    4. VocabularyFilterMethod 参数中的筛选方法:

      • 要通过用三个星号 (***) 替换筛选的字词来屏蔽它们,请指定 mask。通过使用 mask 方法从句子“快速的棕色狐狸跳过懒惰的狗。”中筛选“懒惰”一词,转录中将显示“快速的棕色狐狸跳过***的狗”。

      • 要从转录中删除字词,请指定 remove。通过使用 remove 方法从句子“快速的棕色狐狸跳过懒惰的狗。”中筛选“懒惰”一词,转录中将显示“快速的棕色狐狸跳过的狗”。

要使用同一个流创建一个已筛选了内容的转录和一个未筛选的转录,请使用标记方法。有关信息,请参阅通过标记为不同受众量身定制转录

筛选流转录(控制台)

  1. 登录 AWS 管理控制台并在此处打开 Amazon Transcribe 控制台:Amazon Transcribe 控制台

  2. 在导航窗格中,选择 Real-time transcription (实时转录)

  3. 语言中,选择实时流的语言。

  4. 选择 Additional settings (其他设置) 选项卡,然后选择词汇表筛选条件和词汇表筛选方法。

  5. 选择 Start streaming (开始流) 以在启用词汇表筛选的情况下开始您的流。

通过标记为不同受众量身定制转录

您可以使用单个流来生成一个不显示不需要的字词的转录,并生成一个显示不需要的字词的转录。在 StartStreamTranscription 操作中,使用 tag 方法来标记转录中与词汇表筛选条件中的字词匹配的字词。您可以将实时流的结果呈现给可以看到完整转录的受众,包括词汇表筛选条件中列出的字词。然后,您可以复制转录结果,删除词汇表筛选条件标记的词汇,并将这些结果显示给不应看到不需要的字词的受众。

通过标记,您不限于为两个不同的受众生成转录。您可以从同一个流为多个受众生成多个转录。您可以选择在一个转录中删除由词汇表筛选条件捕获的一些字词,而在其他转录中保留这些字词。

在实时转录中启用标记

  • StartStreamTranscription 操作中,指定以下内容:

    1. 对于 VocabularyFilterName,您的词汇表筛选条件的名称。

    2. 对于 VocabularyFilterMethod,请指定 tag

    例如,如果“懒惰”位于词汇表筛选条件中,则句子“快速的棕色狐狸跳过懒惰的狗。”将在转录结果中保持不变。VocabularyFilterMatch 参数的值对于“懒惰”将为 true,而不是在转录中屏蔽或删除此字词。

以下示例 JSON 输出显示了这一点。

"Transcript": { "Results": [ { ... "Alternatives": [ { "Items": [ ... { "Content": "jumps", "EndTime": 1.02, "StartTime": 0.98, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": "over", "EndTime": 1.26, "StartTime": 1.03, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": "the", "EndTime": 1.41, "StartTime": 1.27, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": "lazy", "EndTime": 1.81, "StartTime": 1.42, "Type": "pronunciation", "VocabularyFilterMatch": true } ... ] } ] } ] }