在准确性和成本之间做出决定 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在准确性和成本之间做出决定

每个 FindMatches 转换均包含一个 accuracy-cost 参数。您可以使用此参数指定下列项之一:

  • 如果您更关心准确报告两个记录匹配的转换,则应强调准确性

  • 如果您更关心转换的运行成本或速度,则应强调更低成本

您可以在 Amazon Glue 控制台上或使用 Amazon Glue 机器学习 API 操作进行此权衡。

何时倾向于准确性

如果您更关心 find matches 结果不包含匹配项的风险,则倾向于准确性。要倾向于准确性,请选择较大准确性-成本权衡值。对于较大的值,FindMatches 转换需要更多时间来更详细地搜索正确匹配的记录。请注意,此参数不会使错误地将不匹配记录对称为匹配项的可能性降低。转换将调整为倾向于花更多时间查找匹配项。

何时倾向于成本

如果您更关心运行 find matches 转换的成本,而不是找到多少匹配项,请倾向于成本。要倾向于成本,请选择较小 准确性-成本权衡值。对于较小的值,运行 FindMatches 转换所需的资源更少。转换将调整为倾向于查找更少的匹配项。如果在倾向于较低成本时结果是可接受的,请使用此设置。

如何倾向于准确性和较低成本

检查更多记录对以确定它们是否匹配需要更多的机器时间。如果您想减少成本而不降低质量,则可执行以下几个步骤:

  • 消除数据源中您不关心匹配的记录。

  • 从您的数据源中消除您确信在做出匹配/不匹配决策时没有用的列。确定这一点的一个好方法是消除您认为不会影响您就一组记录是否“相同”做出决定的列。