使用文本文件创建医疗自定义词汇 - Amazon Transcribe
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用文本文件创建医疗自定义词汇

要创建自定义词汇,您必须准备好了包含集合、单词或短语的文本文件。Amazon Transcribe Medical 使用此文本文件创建自定义词汇表,可使用此词汇表提高单词或短语的转录准确性。您可以使用创建自定义词汇表CreateMedicalVocabularyAPI 或 Amazon Transcribe 医疗控制台。

创建自定义词汇表(控制台)

要使用控制台创建自定义词汇表,您需要提供包含单词或短语的文本文件的 Amazon S3 URI。

  1. 登录到Amazon Web Services Management Console然后打开亚 Amazon Transcribe 医疗控制台Amazon Transcribe Medical 控制台.

  2. 在导航窗格中的 Amazon Transcribe Medical 下,选择自定义词汇表.

  3. 适用于名称在下词汇表设置中,为自定义词汇选择一个名称。

  4. 指定音频文件或视频文件在 Amazon S3 中的位置:

    • 适用于S3 上的词汇输入文件位置词汇表设置中,指定标识用于创建自定义词汇表的文本文件的 Amazon S3 URI。

    • 适用于Amazon S3 中的词汇表输入文件位置,选择浏览 S3浏览文本文件并选择它。

  5. 选择创建词汇表.

您可以在控制台中查看自定义词汇表的处理状态。

创建自定义医疗词汇表 (API)

  • 对于StartTranscriptionJob在 API 中,指定以下内容。

    1. 对于 LanguageCode,请指定 en-US

    2. 适用于VocabularyFileUri中,指定用于定义自定义词汇的文本文件的 Amazon S3 位置。

    3. 适用于VocabularyName中,为自定义词汇指定一个名称。指定的名称在您的内部必须唯一Amazon Web Services 账户.

要查看自定义词汇表的处理状态,请使用GetMedicalVocabularyAPI。

以下是使用Amazon SDK for Python (Boto3)创建自定义词汇表。

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe') vocab_name = "example-med-custom-vocab" text_file_uri = "https://DOC-EXAMPLE-BUCKET1.s3-Region.amazonaws.com/example_custom_vocabulary.txt" transcribe.create_medical_vocabulary( VocabularyName = vocab_name, VocabularyFileUri = text_file_uri, LanguageCode = 'en-US', ) while True: status = transcribe.get_medical_vocabulary(VocabularyName=vocab_name) if status['VocabularyState'] in ['READY', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)

使用批量转录作业识别音频文件中的扬声器(Amazon CLI)

  • 运行以下代码。

    aws transcribe create-medical-vocabulary \ --vocabulary-name your-custom-medical-vocabulary-name \ --language-code en-US \ --vocabulary-file-uri https://DOC-EXAMPLE-BUCKET1.AWS-Region.amazonaws.com/your-medical-custom-vocabulary

    以下是运行前面的 CLI 命令的响应。

    { "VocabularyName": "cli-medical-vocab-1", "LanguageCode": "en-US", "VocabularyState": "PENDING" }