指导查找匹配项转换 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

指导查找匹配项转换

必须为每个 FindMatches 转换指导什么应被视为匹配项,什么不应被视为匹配项。您可以通过将标签添加到文件并将您的选择上传到 Amazon Glue 来指导您的转换。

您可以在 Amazon Glue 控制台上或使用 Amazon Glue 机器学习 API 操作来编排此标签。

我应添加多少次标签? 我需要多少个标签?

这些问题的答案主要取决于您。您必须评估 FindMatches 是否提供您所需的准确性,以及您是否认为额外的标签工作对您来说是值得的。决定这一点的最佳方法是查看“查准率”、“查全率”和“查准率-查全率曲线下的面积”指标,当您选择 Amazon Glue 控制台上的 Estimate quality (估计质量) 时,可以生成这些指标。在标记多组任务后,请重新运行这些指标并验证它们是否已得到改进。如果在标记几组任务后,您没有看到您关注的指标有所改进,则转换质量可能已达到稳定水平。

为何需要真阳性和真阴性标签?

FindMatches 转换需要阳性和阴性示例来了解您认为的匹配项。如果标记 FindMatches 生成的训练数据(例如,使用 I do not have labels (我没有标签) 选项),则 FindMatches 会尝试为您生成一组“标签集 ID”。在每个任务中,您向一些记录添加相同的“标签”,向其他记录添加不同的“标签”。换句话说,任务通常不是完全相同的,也不是完全不同的(但如果某个特定任务完全“相同”或完全“不相同”,也没关系)。

如果使用 Upload labels from S3 (从 S3 上载标签) 选项来设定 FindMatches 转换,请尝试同时包含匹配记录和不匹配记录的示例。仅具有一种类型是可以接受的。这些标签可帮助您构建更准确的 FindMatches 转换,但您仍需使用 Generate labeling file (生成标签文件) 选项来为生成的部分记录添加标签。

如何强制转换过程与我必须的内容完全匹配?

FindMatches 转换从您提供的标签中学习,因此它可能会生成不遵循提供的标签的记录对。要强制 FindMatches 转换遵守标签,请在 FindMatchesParameter 中选择 EnforceProvidedLabels

当 ML 转换将项目标识为非真匹配项的匹配项时,您可以使用哪些方法?

您可以使用以下方法:

  • precisionRecallTradeoff 增至更大的值。这最终会导致找到较少的匹配项,但是当它达到足够高的值时,它也应分解您的大集群。

  • 接受与错误结果对应的输出行并将其重新格式化为标签集(删除 match_id 列并添加 labeling_set_idlabel 列)。如有必要,可拆分(细分)成多个标签集,以确保贴标签者在分配标签时能记住每个标签集。然后,正确标记匹配集,上传标签文件并将其附加到现有标签。这可能会让您的转换器充分了解它需要什么来理解模式。

  • (高级)最后,查看该数据以了解是否存在可以检测到系统未注意到的模式。通过使用标准 Amazon Glue 函数规范化数据来预处理数据。通过将重要程度不同的数据分离到它们自己的列中,突出显示您希望算法从中学到的内容。或者,从已知其数据相关的列构造组合列。