使用自定义语言模型提高域特定转录准确性 - Amazon Transcribe
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用自定义语言模型提高域特定转录准确性

使用 自定义语言模型 以培训和开发特定于域的语言模型。例如,您可以使用自定义语言模型来提高法律、酒店、财务和保险等域的转录性能。尽管 Amazon Transcribe 在大多数情况下,自定义语言模型可以产生更准确的结果。

要训练自定义语言模型,您必须将特定用例的文本数据上传到 Amazon Simple Storage Service (人Amazon S3),提供 Amazon Transcribe 具有访问该数据的权限,并选择 基本模型. 基本模型是通用语音识别模型,您可以使用文本数据自定义该模型。

自定义语言模型 使用文本数据提高用例的转录准确性。您的文本数据可以包括特定于域的文本或音频脚本。域特定文本数据包括网站内容、说明手册和技术文档。音频脚本数据包括接地音频脚本。接地真音频脚本的处理精度非常高,是源音频的理想表示方式。

必须提供表示要转录的音频的文本数据。您提供的特定于域的数据必须与用例相关,您提供的音频交谈记录数据应与您要转录的音频相似。转录准确性的任何潜在改进都取决于您的文本数据代表音频的程度以及您提供的文本数据量。在创建可生成准确转录的自定义语言模型时,文本数据的质量比其数量重要得多。

将您的文本数据上传到 Amazon Simple Storage Service (人Amazon S3),然后给予 Amazon Transcribe 访问包含该数据的S3bucket。将数据上传到 Amazon S3,请选择 基本模型. 基础模型是通用语音识别模型,您可以使用文本数据自定义该模型。

有两种方式可以上传文本数据以创建自定义语言模型:

  1. 将您的文本上传为 培训数据. 您可以使用训练数据来训练特定用例的自定义语言模型。

  2. 上传您的域特定文本作为培训数据和音频脚本作为 调整数据. 您可以使用调整数据来优化自定义语言模型并提高其转录准确性。

使用下表确定如何上传数据。

如果你有 上传此
大量域特定文本和少量音频脚本文本数据 特定于域的文本作为训练数据。上传您的转录文本作为调整数据。
至少10,000个字的音频脚本文本 音频脚本文本作为训练数据。
至少100,000字的音频脚本文本和大量的额外域特定文本 音频脚本文本作为训练数据。通常,该方法导致转录准确性的最大可能增加。如果该方法没有产生所需的转录准确性增加,则遵循本表中描述的第一种方法。
仅特定于域的文本 特定于域的文本作为训练数据。我们建议通过上述任何方法上传您的数据。

您最多可以提供2GB的训练数据和200MB的调谐数据。

如果您有足够的文本代表您想要转录的音频,训练自定义语言模型可以显著提高使用 自定义词汇表 。定制词汇可以提高 Amazon Transcribe 识别术语,而不使用它们所说的上下文。自定义语言模型不仅可以识别单个术语,还可以使用每个术语的上下文来转录您的音频。

自定义语言模型还可以自动将单词添加到其识别词汇中,从而不需要手动输入新单词。您不能将自定义语言模型与自定义词汇一起使用。

自定义语言型号仅提供美国英语(美国)版本。

无法使用 AWS Key Management Service (人AWS KMS)加密您的培训数据, 但你可以使用 AWS KMS 用于加密转录输出的条件键。有关条件键的信息,请参阅 密钥管理.

要在转录作业中使用自定义语言模型,请执行以下操作:

  • 准备和上传纯文本数据

  • 提供 Amazon Transcribe 具有访问您的数据的权限

  • 创建自定义语言模型

  • 在转录作业中使用自定义语言模型

  • 查看并更新您的自定义语言模型,以利用 Amazon Transcribe