在查准率和查全率之间做出决定 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

在查准率和查全率之间做出决定

每个 FindMatches 转换均包含一个 precision-recall 参数。您可以使用此参数指定下列项之一:

  • 如果您更关心转换错误地报告两个记录匹配,而实际上它们不匹配,则您应强调 precision (查准率)

  • 如果您更关心转换未能检测到真正匹配的记录,则您应强调 recall (查全率)

您可以在 Amazon Glue 控制台上或使用 Amazon Glue 机器学习 API 操作进行此权衡。

何时倾向于查准率

如果您更关心 FindMatches 导致一对实际不匹配的记录进行匹配的风险,请倾向于查准率。要倾向于查准率,请选择 higher (较大) 查准率-查全率权衡值。对于较大的值,FindMatches 转换需要更多的证据来决定是否应匹配一对记录。将转换调整为偏向于表示记录不匹配。

例如,假设您使用 FindMatches 检测视频目录中的重复项,并且您向转换提供更大的查准率-查全率值。如果您的转换错误地检测到 Star Wars: A New HopeStar Wars: The Empire Strikes Back 相同,则可能会为需要 A New Hope 的客户显示 The Empire Strikes Back。这将是一个糟糕的客户体验。

不过,如果转换无法检测到 Star Wars: A New HopeStar Wars: Episode IV—A New Hope 是相同的项,则客户最初可能会感到困惑,不过可能最终会将其视为相同。这将是一个错误,但不像以前的情况那么糟糕。

何时倾向于查全率

如果您更关心 FindMatches 转换结果可能无法检测到实际匹配的一对记录的风险,请倾向于查全率。要倾向于查全率,请选择 lower (较小) 的查准率-查全率权衡值。对于较小的值,FindMatches 转换需要更少的证据来决定是否应匹配一对记录。将转换调整为偏向于表示记录匹配。

例如,这可能是安全组织的优先事项。假设您将客户与一系列已知的欺诈者进行匹配,并且确定客户是否为欺诈者非常重要。您使用 FindMatches 将欺诈者名单与客户名单进行匹配。每当 FindMatches 检测到两个名单之间的匹配项时,都会指派一名审计人员来验证该人员实际上是否为欺诈者。您的组织可能更愿意选择查全率而不是查准率。换句话说,当客户不是欺诈者时,您宁愿让审计人员手动审查并拒绝某些情况,而不是未能识别出客户实际上在欺诈者名单上。

如何倾向于查准率和查全率

提高查准率和查全率的最佳方法是标记更多数据。在标记更多数据时,FindMatches 转换的总体准确性将提高,从而提高查准率和查全率。然而,即使对于最准确的转换,也始终存在一个灰色区域,您需要在该区域中尝试倾向于查准率或查全率,或者在中间选择一个值。