第1步: 准备数据 - Amazon Transcribe
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

第1步: 准备数据

通过提供纯文本格式的培训数据创建自定义语言模型 通过选择基本模型. 您也可以提供额外的调整数据,也可以采用纯文本格式, 优化.

要准备文本数据:

  1. 正确格式化并将其保存到一个或多个文本文件中。确保每个文本文件:

    • 采用美国英语(美国)。

    • 为纯文本(不是MicrosoftWord文档、逗号分隔值文件或PDF等文件)。

    • 每行有一句话。

    • 在UTF-8中编码。

    • 不包含任何格式字符,例如HTML标记。

    • 如果您打算将文件用作培训数据,则大小小于2GB。您最多可以提供2GB的培训数据。

    • 如果您打算将文件用作调整数据,则大小小于200MB。您最多可以提供200MB的可选调谐数据。

  2. 将这些文件上传到 Amazon Simple Storage Service (人Amazon S3)。如果您打算调整模型,请将调整数据存储在单独的S3bucket中,而不是您用于训练数据的bucket中。

使用您自己的 数据处理管道 以准备您的纯文本文件。如果要从HTML中提取文本,请删除HTML标记并 逃避 实体。

以下示例显示了如何格式化文本文件中的句子:

Ribosomes help translate RNA into protein. RISC is essential in RNA interference. Interferon type 1 signaling proteins help prevent viruses from replicating their RNA or DNA. ...

上传训练或调整数据时使用的文本文件数量无关紧要。对于模型训练,如果您使用一个包含100,000字的文件或10个包含10,000字的文件,转录准确性将得到相同的改善。以最方便的方式准备文本数据。

下一步

第2步: 提供 Amazon Transcribe 具有数据权限