识别媒体文件的语言 - Amazon Transcribe
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

识别媒体文件的语言

当您生成转录时, Amazon Transcribe 可以自动识别媒体文件中的主要语言, 自动语言标识. 这使您可以转录您的文件,而无需为每个文件指定一个语言代码。

使用自动语言标识:

  • 在讲多种语言的国家/地区转录客户服务录音。

  • 转录包含不同语言文件的媒体库。

  • 标签 培养基 语言自动识别的内容 Amazon Transcribe.

  • 识别 媒体内容操作中的音频和视频内容标记错误。例如,您可以识别标有错误语言的视频和播客。

媒体文件以单一语言转录,即使它们包含两种或更多语言的语音。 Amazon Transcribe 根据 主要 语言。 Amazon Transcribe 可以自动识别可用于API批量转录的任何语言,或 Amazon Transcribe 控制台。有关语言列表,请参阅 什么是 Amazon Transcribe?.

要以更高的精度识别语言,您可以指定您认为媒体文件集合中显示的语言列表。从这个列表中 Amazon Transcribe 选择 语言 具有最高的置信度分数,可以转录您的音频。分数越大表示 Amazon Transcribe 更确信它能正确识别语言。为获得最佳效果,如果您确定使用每种音频 文件,请指定语言代码。有关更多信息,请参见 StartTranscriptionJob 操作。

部分 Amazon Transcribe 功能要求您指定语言代码。如果您尝试在启用以下功能时自动识别音频的语言,您将收到错误提示:

  • 自定义语言模型

  • 自定义词汇

  • 词汇筛选

  • 自动编辑内容

为增加成功识别语言的几率,媒体文件应至少有30秒的语音。