自动内容修订 - Amazon Transcribe
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

自动内容修订

Amazon Transcribe 的自动内容修订功能自动修订您的转录结果中的敏感个人身份信息 (PII)。它将每个已识别的 PII 实例替换为转录结果中的 [PII] 标签。您可以使用此功能来保护隐私并遵守当地法律法规。自动内容修订使您能够轻松查看和共享转录结果,以改善客户服务体验、指导客服并发现新的商业机会,同时保护敏感的个人信息。您可以通过批 API 调用将此功能用于美国英语 (en-US) 的源音频。

个人身份信息包括:

PII 实体 定义

银行账号

唯一标识银行账户的号码。

银行汇款路径号码

用于标识银行账户的位置的号码。

信用卡号码或借记卡号码

唯一定义银行发行的支付卡的值。

信用卡或借记卡 CVV 代码 每张信用卡上的 3 位数或 4 位数安全码。

信用卡或借记卡到期日期

卡到期的年份和月份。

借记卡 PIN 或信用卡 PIN 由银行或信贷联盟签发的安全码。此号码用于银行账户和支付卡。
电子邮件地址 将邮件递送到的电子邮箱的唯一标识符。
美国邮寄地址 个人的美国邮寄地址。
姓名 人员的姓氏和名字。
美国电话号码 美国境内的 10 位电话号码。
社会保障号码 一个 9 位数号码或该号码的最后 4 位数字。发放给有工作的美国公民、永久居民和临时居民。

对于启用了自动内容修订的每个转录作业,您可以生成:

  • 仅限经过修订的转录结果。

  • 已修订的转录结果和未修订的转录结果。

已修订和未修订的转录结果都存储在同一输出 S3 存储桶中。Amazon Transcribe 将它们存储在您指定的存储桶中,或存储在由服务管理的默认 S3 存储桶中。

要启用内容修订操作,请使用控制台或 API。在控制台中,在 Content removal (内容删除) 部分中启用 Automatic content redaction (自动内容修订)

要使用 API 启用内容修订操作,请填写 StartTranscriptionJob 操作中 ContentRedaction 对象的请求参数。有关更多信息,请参阅 StartTranscriptionJob 操作的请求语法。要查看是否已为特定的转录作业启用内容修订,请使用 GetTranscriptionJob。要查看哪些作业启用了内容修订,请使用 ListTranscriptionJobs

已修订的转录结果已将敏感 PII 替换为 [PII] 标签,该标签显示在此页面上的第一个截断 JSON 输出中。由于 Amazon Transcribe 已修订此转录结果,因此,此 JSON 输出的 isRedacted 字段为 true。转录作业的每个 JSON 输出都有一个包含转录结果的 results 部分。每个单词、数字、标点符号或修订都具有置信度值。

使用自动内容修订的转录作业生成两种类型的 confidence 值。自动语音识别 (ASR) 置信度表示 typepronunciationpunctuation 的项目是特定的发音。在下面的转录结果输出中,单词 Good 具有的 confidence1.0。此置信度值表示 Amazon Transcribe 对该转录中所说的单词为 Good 的置信度是 100%。PII 标签的 confidence 值是对于标记为要修订的语音确实是 PII 的置信度。在下面的转录结果输出中,confidence0.9999 表示 Amazon Transcribe 对它在转录结果中修订的实体是 PII 的置信度为 99.99%。

以下是已修订的 JSON 输出:

{ "jobName": "job id", "accountId": "account id", "isRedacted": true, "results": { "transcripts": [ { "transcript": "Good morning, everybody. My name is [PII], and today I feel like sharing a whole lot of personal information with you. Let's start with my Social Security number [PII]. My credit card number is [PII] and my C V V code is [PII]. I hope that Amazon Transcribe is doing a good job at redacting that personal information away. Let's check." } ], "items": [ { "start_time": "2.86", "end_time": "3.35", "alternatives": [ { "confidence": "1.0", "content": "Good" } ], "type": "pronunciation" }, Items removed for brevity { "start_time": "5.56", "end_time": "6.25", "alternatives": [ { "content": "[PII]", "redactions": [ { "confidence": "0.9999" } ] } ], "type": "pronunciation" }, Items removed for brevity ], }, "status": "COMPLETED" }

如果您生成其他未修订的转录结果,则其 JSON 输出看起来类似于禁用内容修订的转录作业的输出。唯一的区别是将附加的 isRedacted 字段设置为 false

以下是未修订的 JSON 输出:

{ "jobName": "job id", "accountId": "account id", "isRedacted": false, "results": { "transcripts": [ { "transcript": "Good morning, everybody. My name is Mike, and today I feel like sharing a whole lot of personal information with you. Let's start with my Social Security number 000000000. My credit card number 5555555555555555 is and my C V V code is 000. I hope that Amazon Transcribe is doing a good job at redacting that personal information away. Let's check." } ], "items": [ { "start_time": "2.86", "end_time": "3.35", "alternatives": [ { "confidence": "1.0", "content": "Good" } ], "type": "pronunciation" }, Items removed for brevity { "start_time": "5.56", "end_time": "6.25", "alternatives": [ { "confidence": "1.0", "content": "Mike" } ], "type": "pronunciation" }, Items removed for brevity ], }, "status": "COMPLETED" }

如果您在不受支持的区域使用自动内容修订,Amazon Transcribe 会引发错误消息。同样,如果您对不受支持的语言使用内容修订,则会收到一条错误消息。