第3步: 创建自定义语言模型 - Amazon Transcribe
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

第3步: 创建自定义语言模型

要创建自定义语言模型,您必须使用 Amazon S3 前缀并指定 基本模型. 有两种基本模型:

  • NarrowBand -对于采样率小于16的音频 kHz. 您通常使用这种类型的型号进行8时录制的电话通话 kHz.

  • WideBand -对于采样率为16的音频 kHz 或更高。这包括来自媒体来源的音频。

您可以使用控制台、 CreateLanguageModel 操作, AWS Command Line Interface (人AWS CLI)。

在中使用前缀 Amazon Simple Storage Service 以检索您的数据

要创建自定义语言模型,请使用前缀 Amazon Simple Storage Service 指定训练和可选调整数据。要了解如何使用前缀,您需要熟悉以下内容 Amazon S3 概念:

  • 存储桶-用于存储对象的容器。

  • 对象-存储在S3bucket中的实体。在这种情况下,它是您的训练或调整文本文件。

  • 键-bucket中对象的唯一标识符。

您可以将对象(即文本文件)存储在一个bucket中,使用唯一标识文件的键。

例如 myfiles/2020/may/file.txt 在S3bucket中唯一标识文本文件。

前缀可以是最后一个分隔符之前的任何键部分。

您在 CreateLanguageModel 使用以下字段进行操作:

  • S3Uri 培训数据

  • 可选: TuningDataS3Uri 调整数据

Amazon Transcribe 使用其键与您在自定义语言模型中指定的前缀之一相匹配的任何对象。 Amazon Transcribe 返回任何与前缀匹配且不是纯文本文件的文件的错误。

您可以通过提供前缀来训练基本模型,从而创建自定义语言模型 在控制台或API中。

如何创建自定义语言模型(控制台)

要使用控制台创建自定义语言模型,必须将培训数据存储在 Amazon S3 桶。

  1. 登录 AWS 管理控制台并通过 Amazon Transcribe 控制台打开 Amazon Transcribe 控制台。

  2. 在导航窗格中,选择 自定义语言模型.

  3. 选择 培训模型.

  4. 对于 名称,请输入AWS帐户中唯一的自定义语言型号的名称。

  5. 对于 基础模型,选择 窄饰带宽带, 与您想要转录的音频的采样率相对应。

  6. 低于 培训数据,对于 S3上的培训数据位置,请指定仅访问您的培训数据的S3前缀。

  7. 可选: 低于 调谐数据- 可选,对于 TuningdatalocationonS3 ,请为存储调谐数据的存储区指定S3前缀。

  8. 对于 访问权限,使用或创建 IAM 数据访问角色, Amazon Transcribe 与 ListBucketGetObject 权限。

  9. 选择 培训模型.

要创建自定义语言模型,请使用 CreateLanguageModel 操作。

创建自定义语言模型(API)

  • CreateLanguageModel 请求,请指定以下内容:

    • BaseModelName - 类型 自定义语言模型要使用的基本模型

    • InputDataConfig -指定 Amazon S3 对象位置和 IAM 培训数据的数据访问角色:

      DataAccessRoleARN —— Amazon资源名称(ARN),用于标识您的 Amazon S3 桶.

      S3Uri -训练数据的键前缀。

      (可选) TuningDataS3URI -的前缀 键 调整数据。

    • LanguageCode -培训数据所用语言的语言代码为。

      美国英语(美国)是自定义语言模型的唯一有效语言代码。

    • ModelName -自定义语言模型的名称。

    以下是 示例 成功请求:

    { "LanguageCode": "en-US", "BaseModelName": "base-model-type", "ModelName": "name-for-your-custom-language-model", "InputDataConfig": { "S3Uri": "s3://prefix-location/of-your-text-files", "DataAccessRoleArn": "arn:aws:iam::aws-account-number:role/account-role" } }

创建自定义语言模型(AWS CLI)

  • 运行以下代码。

    aws transcribe create-language-model \ --language-code en-US \ --base-model-name NarrowBand \ --model-name example-model-name \ --input-data-config S3Uri="s3://example-bucket",DataAccessRoleArn="arn:aws:iam::aws-account-number:role/IAM role"

下一步

第4步: 使用自定义语言模型转录