在 AWS Glue 控制台上使用机器学习转换 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

在 AWS Glue 控制台上使用机器学习转换

您可以使用 AWS Glue 创建可用于清理数据的自定义机器学习转换。在 AWS Glue 控制台上创建作业时,可以使用这些转换。

有关如何创建机器学习转换的信息,请参阅 使用 AWS Lake Formation FindMatches 匹配记录

转换属性

要查看现有机器学习转换,请登录 AWS 管理控制台,然后在以下位置打开 AWS Glue 控制台:https://console.amazonaws.cn/glue/。然后,选择 ML transforms (ML 转换) 选项卡。

Machine Learning Transforms (机器学习转换) 列表显示每个转换的以下属性:

转换名称

在创建转换时为其提供的唯一名称。

转换 ID

转换的唯一标识符。

类型

机器学习转换的类型;例如,Find matching records (查找匹配记录)

Glue 版本

此值确定与此机器学习转换兼容的 AWS Glue 版本。建议大多数用户使用 Glue 1.0。如果未设置此值,则 Glue 兼容性默认为 Glue 0.9。有关更多信息,请参阅 AWS Glue 版本

状态

指示转换是否为 Ready (准备)Needs teaching (需要指导)。要在作业中成功运行机器学习转换,它必须是 Ready

在创建 FindMatches 转换时,您需要指定以下配置信息:

主键

唯一标识源表中的行的列名称。

类型

机器学习转换的类型;例如,Find matches (查找匹配项)

合并匹配的记录

指示转换是否要删除目标中的重复项。具有最小主键值的记录将写入转换的输出。

添加和编辑机器学习转换

您可以在 AWS Glue 控制台上查看、删除、设置和指导或优化转换。选中列表中转换旁边的复选框,选择 Action (操作),然后选择要采取的操作。

要添加新的机器学习转换,请选择 Jobs (作业) 选项卡,然后选择 Add job (添加作业)。按照 Add job (添加作业) 向导中的说明操作,添加带机器学习转换(例如 FindMatches)的作业。有关更多信息,请参阅 使用 AWS Lake Formation FindMatches 匹配记录

查看转换详细信息

转换详细信息包括您在创建转换时定义的信息。要查看某个转换的详细信息,请在 Machine learning transforms (机器学习转换) 列表中选择该转换,然后查看以下选项卡上的信息:

  • 历史记录

  • 详细信息

  • Estimate quality (估计质量)

历史记录

History (历史记录) 选项卡显示转换任务运行历史记录。运行几种类型的任务来指导转换。对于每个任务,运行指标包括:

  • Run ID (运行 ID) 是 AWS Glue 为此任务的每次运行创建的标识符。

  • Task type (任务类型) 显示任务运行的类型。

  • Status (状态) 显示列出的每个任务的成功状态,其中最新运行位于顶部。

  • Error (错误) 在运行不成功时显示错误消息的详细信息。

  • Start time (开始时间) 显示任务的开始日期和时间(本地时间)。

  • Execution time (执行时间) 显示作业运行消耗资源的时间长度。计算长度时从作业运行开始消耗资源时算起,直至完成。

  • Last modified (上次修改日期和时间) 显示任务的上次修改日期和时间(本地时间)。

  • Logs (日志) 链接到写入此作业运行的 stdout 的日志。

    Logs (日志) 链接会将您带到 Amazon CloudWatch Logs。您可以在其中查看有关在 AWS Glue 数据目录 中创建的表和遇到的任何错误的详细信息。您可以在 CloudWatch 控制台中管理日志保留期。默认日志保留为 Never Expire。有关如何更改保留期的更多信息,请参阅 Amazon CloudWatch Logs 用户指南 中的更改 CloudWatch Logs 中的日志数据保留

  • Error logs (错误日志) 链接到写入此任务运行的 stderr 的日志。

    此链接会将您带到 CloudWatch Logs,您可以在其中查看有关遇到的任何错误的详细信息。您可以在 CloudWatch 控制台中管理日志保留期。默认日志保留为 Never Expire。有关如何更改保留期的更多信息,请参阅 Amazon CloudWatch Logs 用户指南 中的更改 CloudWatch Logs 中的日志数据保留

  • Download label file (下载标签文件) 显示生成的标签文件的 Amazon S3 的链接。

详细信息

Details (详细信息) 选项卡包含转换的属性。它显示有关转换定义的详细信息,包括:

  • Transform name (转换名称) 显示转换的名称。

  • Type (类型) 列出了转换的类型。

  • Status (状态) 显示是否可在脚本或作业中使用转换。

  • Force output to match labels (强制输出与标签匹配) 显示转换是否强制输出与用户提供的标签匹配。

Estimate quality (估计质量)

Estimate quality (估计质量) 选项卡显示用于测量转换质量的指标。通过使用标签数据的子集与您提供的标签比较变换匹配预测来计算估计值。这些估计值是近似值。您可以从此选项卡调用 Estimate quality (估计质量) 任务。

Estimate quality (估计质量) 选项卡显示了上次 Estimate quality (估计质量) 运行的指标,包括以下属性:

  • Area under the Precision-Recall curve (查准率-查全率曲线下的面积) 是估算变换整体质量上限的单个数字。它与查准率-查全率参数的选择无关。较高的值表明您具有更有吸引力的查准率-查全率权衡。

  • Precision (查准率) 估算转换在预测匹配时正确的频率。

  • Recall upper limit (查全率上限) 估算,对于实际匹配,转换预测匹配项的频率。

  • Max F1 (最大 F1) 估算转换的准确性介于 0 和 1 之间,其中 1 是最大准确性。有关更多信息,请参阅 Wikipedia 中的 F1 分数

有关理解质量估计与实际质量的信息,请参阅 质量估计与端到端(实际)质量

有关优化您的转换的更多信息,请参阅 在 AWS Glue 中优化机器学习转换

质量估计与端到端(实际)质量

FindMatches 机器学习转换中,AWS Glue 通过向内部机器学习模型显示一些记录对来估计转换的质量,这些记录对您提供了匹配的标签,但是模型以前没有看到过。这些质量估计是机器学习模型质量的函数(受标记为“指导”转换的记录数量的影响)。端到端或实际查全率(不是由 FindMatches 转换自动计算)也受 FindMatches 筛选机制的影响,该机制建议了与机器学习模型匹配的各种可能的匹配项。

90您可以使用 Lower Cost-Accuracy (较低成本-准确性) 滑块优化此筛选方法。在将此滑块移至更接近 Accuracy (准确性) 端的位置时,系统对可能匹配的记录对进行更彻底和高成本的搜索。更多记录对被提供给机器学习模型,并且您的 FindMatches 转换的端到端或实际查全率更接近估计的查全率指标。因此,由于匹配项的成本/准确性权衡的变化,匹配项的端到端质量的变化通常不会反映在质量估算中。