在 Amazon Glue 中优化机器学习转换 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

在 Amazon Glue 中优化机器学习转换

您可以在 Amazon Glue 中优化机器学习转换来改进数据清理作业的结果,从而实现您的目标。要改进转换,您可以通过生成标记集,添加标签,然后重复这些步骤几次,直到获得所需结果来指导转换。您也可以通过更改一些机器学习参数来进行优化。

有关机器学习转换的更多信息,请参阅使用 Amazon Lake Formation FindMatches 匹配记录

要了解用于优化机器学习转换的测量值,您应熟悉以下术语:

真阳性 (TP)

转换正确找到的数据中的匹配项有时称作命中

真阴性 (TN)

转换正确拒绝的数据中的不匹配项。

假阳性 (FP)

转换错误地分类为匹配项的数据中的不匹配项有时称作假警报

假阴性 (FN)

转换未找到的数据中的匹配项有时称作未命中

有关机器学习中使用的术语的更多信息,请参阅 Wikipedia 中的 混淆矩阵

要优化您的机器学习转换,您可以在转换的 Advanced properties (高级属性) 中更改以下测量值。

  • Precision (查准率) 衡量转换在其标识为阳性的记录总数(真阳性和假阳性)中找到真阳性的程度。有关更多信息,请参阅 Wikipedia 中的查准率和查全率

  • Recall (查全率) 衡量转换从源数据中的全部记录中找到真阳性的程度。有关更多信息,请参阅 Wikipedia 中的查准率和查全率

  • Accuracy (准确性) 衡量转换发现真阳性和真阴性的程度。提高准确性需要更多的机器资源和成本。但这也会导致查全率提高。有关更多信息,请参阅 Wikipedia 中的准确性和查准率

  • Cost (成本) 衡量运行转换所消耗的计算资源(从而产生资金)的数量。