自动内容修订 - Amazon Transcribe
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

自动内容修订

Amazon Transcribe 的自动内容修订功能自动修订您的转录结果中的敏感个人身份信息 (PII)。它将每个已识别的 PII 实例替换为转录结果中的 [PII] 标签。您可以使用此功能来保护隐私并遵守当地法律法规。自动内容修订使您能够轻松查看和共享转录结果,以改善客户服务体验、指导客服并发现新的商业机会,同时保护敏感的个人信息。您可以通过批 API 调用将此功能用于美国英语 (en-US) 的源音频。

个人身份信息包括:

PII 实体 Definition

银行账号

唯一标识银行账户的号码。

银行汇款路径号码

用于标识银行账户的位置的号码。

信用卡号码或借记卡号码

唯一定义银行发行的支付卡的值。

信用卡或借记卡 CVV 代码 每张信用卡上的 3 位数或 4 位数安全码。

信用卡或借记卡到期日期

卡到期的年份和月份。

借记卡 PIN 或信用卡 PIN 由银行或信贷联盟签发的安全码。此号码用于银行账户和支付卡。
电子邮件地址 将邮件递送到的电子邮箱的唯一标识符。
美国邮寄地址 个人的美国邮寄地址。
姓名 人员的姓氏和名字。
美国电话号码 美国境内的 10 位电话号码。
社会保障号码 一个 9 位数号码或该号码的最后 4 位数字。发放给有工作的美国公民、永久居民和临时居民。

对于启用了自动内容修订的每个转录作业,您可以生成:

  • 仅限经过修订的转录结果。

  • 已修订的转录结果和未修订的转录结果。

已修订和未修订的转录结果都存储在同一输出 S3 存储桶中。Amazon Transcribe 将它们存储在您指定的存储桶中,或存储在由服务管理的默认 S3 存储桶中。

要启用内容修订操作,请使用控制台或 API。在控制台中,您可以启用 自动编辑内容内容删除 第节。

要使用 API 启用内容修订操作,请填写 StartTranscriptionJob 操作中 ContentRedaction 对象的请求参数。有关更多信息,请参阅 StartTranscriptionJob 操作的请求语法。要查看是否已为特定的转录作业启用内容修订,请使用 GetTranscriptionJob。要查看哪些作业启用了内容修订,请使用 ListTranscriptionJobs

已修订的转录结果已将敏感 PII 替换为 [PII] 标签,该标签显示在此页面上的第一个截断 JSON 输出中。因为 Amazon Transcribe 已经编辑了这份培训目录, isRedacted 此JSON输出的字段是 true。转录作业的每个JSON输出都有一个 results 包含转录结果的部分。每个单词、数字、标点符号或修订都具有置信度值。

使用自动内容修订的转录作业生成两种类型的 confidence 值。自动语音识别 (ASR) 置信度表示 typepronunciationpunctuation 的项目是特定的发音。在下面的成绩单输出中, Goodconfidence 第页,共页 1.0。该置信值表明 Amazon Transcribe 100%确信本交谈记录中所说的单词是 Good。的 confidencePII 标签是它标记为编辑的演讲是真正的PII的信心。在下面的转录结果输出中,confidence0.9999 表示 Amazon Transcribe 对它在转录结果中修订的实体是 PII 的置信度为 99.99%。

以下是已修订的 JSON 输出:

{ "jobName": "job id", "accountId": "account id", "isRedacted": true, "results": { "transcripts": [ { "transcript": "Good morning, everybody. My name is [PII], and today I feel like sharing a whole lot of personal information with you. Let's start with my Social Security number [PII]. My credit card number is [PII] and my C V V code is [PII]. I hope that Amazon Transcribe is doing a good job at redacting that personal information away. Let's check." } ], "items": [ { "start_time": "2.86", "end_time": "3.35", "alternatives": [ { "confidence": "1.0", "content": "Good" } ], "type": "pronunciation" }, Items removed for brevity { "start_time": "5.56", "end_time": "6.25", "alternatives": [ { "content": "[PII]", "redactions": [ { "confidence": "0.9999" } ] } ], "type": "pronunciation" }, Items removed for brevity ], }, "status": "COMPLETED" }

如果您生成其他未修订的转录结果,则其 JSON 输出看起来类似于禁用内容修订的转录作业的输出。唯一的区别是将附加的 isRedacted 字段设置为 false

以下是未修订的 JSON 输出:

{ "jobName": "job id", "accountId": "account id", "isRedacted": false, "results": { "transcripts": [ { "transcript": "Good morning, everybody. My name is Mike, and today I feel like sharing a whole lot of personal information with you. Let's start with my Social Security number 000000000. My credit card number 5555555555555555 is and my C V V code is 000. I hope that Amazon Transcribe is doing a good job at redacting that personal information away. Let's check." } ], "items": [ { "start_time": "2.86", "end_time": "3.35", "alternatives": [ { "confidence": "1.0", "content": "Good" } ], "type": "pronunciation" }, Items removed for brevity { "start_time": "5.56", "end_time": "6.25", "alternatives": [ { "confidence": "1.0", "content": "Mike" } ], "type": "pronunciation" }, Items removed for brevity ], }, "status": "COMPLETED" }

如果您在不受支持的区域使用自动内容修订,Amazon Transcribe 会引发错误消息。同样,如果您对不受支持的语言使用内容修订,则会收到一条错误消息。