在 AWS Glue 控制台上使用 Machine Learning 转换 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 AWS Glue 控制台上使用 Machine Learning 转换

您可以使用 AWS Glue 创建可用于清理数据的自定义机器学习转换。在 AWS Glue 控制台上创建作业时,可以使用这些转换。

有关如何创建机器学习转换的信息,请参阅 使用 AWS Lake Formation FindMatches 匹配记录

转换属性

要查看现有机器学习转换,请登录 AWS 管理控制台,然后在以下位置打开 AWS Glue 控制台:https://console.aws.amazon.com/glue/。然后,选择 ML transforms (ML 转换) 选项卡。

Machine Learning Transforms (机器学习转换) 列表显示每个转换的以下属性:

转换名称

在创建转换时为其提供的唯一名称。

转换 ID

转换的唯一标识符。

类型

机器学习转换的类型;例如,Find matching records (查找匹配记录)

AWS Glue 版本

此值确定该机器学习转换与哪个版本的 AWS Glue 兼容。建议大多数用户使用 AWS Glue 1.0。如果未设置此值,则 AWS Glue 兼容性默认为 AWS Glue 0.9。有关更多信息,请参阅 AWS Glue 版本

状态

指示转换是否为 Ready (准备)Needs teaching (需要指导)。要在作业中成功运行机器学习转换,它必须是 Ready

在创建 FindMatches 转换时,您需要指定以下配置信息:

主键

唯一标识源表中的行的列名称。

类型

机器学习转换的类型;例如,Find matches (查找匹配项)

添加和编辑机器学习转换

您可以在 AWS Glue 控制台上查看、删除、设置和指导或优化转换。选中列表中转换旁边的复选框,选择 Action (操作),然后选择要采取的操作。

要添加新的机器学习转换,请选择 Jobs (作业) 选项卡,然后选择 Add job (添加作业)。按照 Add job (添加作业) 向导中的说明操作,添加带机器学习转换(例如 FindMatches)的作业。有关更多信息,请参阅 使用 AWS Lake Formation FindMatches 匹配记录

查看转换详细信息

转换详细信息包括您在创建转换时定义的信息。要查看某个转换的详细信息,请在 Machine learning transforms (机器学习转换) 列表中选择该转换,然后查看以下选项卡上的信息:

  • 历史记录

  • 详细信息

  • Estimate quality (估计质量)

History

History (历史记录) 选项卡显示转换任务运行历史记录。运行几种类型的任务来指导转换。对于每个任务,运行指标包括:

  • 运行编号是 AWS Glue 为此任务的每次运行创建的标识符。

  • Task type (任务类型) 显示任务运行的类型。

  • Status (状态) 显示列出的每个任务的成功状态,其中最新运行位于顶部。

  • Error (错误) 在运行不成功时显示错误消息的详细信息。

  • Start time (开始时间) 显示任务的开始日期和时间(本地时间)。

  • Execution time (执行时间) 显示作业运行消耗资源的时间长度。计算长度时从作业运行开始消耗资源时算起,直至完成。

  • Last modified (上次修改日期和时间) 显示任务的上次修改日期和时间(本地时间)。

  • Logs (日志) 链接到写入此作业运行的 stdout 的日志。

    这些区域有:日志链接会将您带到 Amazon CloudWatch Logs。您可以在其中查看有关在 AWS Glue Data 目录中创建的表和遇到的任何错误的详细信息。您可以在 CloudWatch 控制台中管理日志保留期。默认日志保留为 Never Expire。有关如何更改保留期的更多信息,请参阅更改 CloudWatch Logs 中的日志数据保留期中的Amazon CloudWatch Logs 用户指南

  • Error logs (错误日志) 链接到写入此任务运行的 stderr 的日志。

    此链接会将您带到 CloudWatch Logs,您可以在其中查看有关遇到的任何错误的详细信息。您可以在 CloudWatch 控制台中管理日志保留期。默认日志保留为 Never Expire。有关如何更改保留期的更多信息,请参阅更改 CloudWatch Logs 中的日志数据保留期中的Amazon CloudWatch Logs 用户指南

  • 下载标签文件显示生成的标签文件的 Amazon S3 的链接。

Details

Details (详细信息) 选项卡包含转换的属性。它显示有关转换定义的详细信息,包括:

  • Transform name (转换名称) 显示转换的名称。

  • Type (类型) 列出了转换的类型。

  • Status (状态) 显示是否可在脚本或作业中使用转换。

  • Force output to match labels (强制输出与标签匹配) 显示转换是否强制输出与用户提供的标签匹配。

Estimate quality (估计质量)

Estimate quality (估计质量) 选项卡显示用于测量转换质量的指标。通过使用标签数据的子集与您提供的标签比较变换匹配预测来计算估计值。这些估计值是近似值。您可以从此选项卡调用 Estimate quality (估计质量) 任务。

Estimate quality (估计质量) 选项卡显示了上次 Estimate quality (估计质量) 运行的指标,包括以下属性:

  • Area under the Precision-Recall curve (查准率-查全率曲线下的面积) 是估算变换整体质量上限的单个数字。它与查准率-查全率参数的选择无关。较高的值表明您具有更有吸引力的查准率-查全率权衡。

  • Precision (查准率) 估算转换在预测匹配时正确的频率。

  • Recall upper limit (查全率上限) 估算,对于实际匹配,转换预测匹配项的频率。

  • Max F1 (最大 F1) 估算转换的准确性介于 0 和 1 之间,其中 1 是最大准确性。有关更多信息,请参阅 Wikipedia 中的 F1 分数

  • 这些区域有:column 重要性表显示了每列的列名和重要性分数。列重要性通过识别记录中的哪些列用于进行匹配,可帮助您了解列对模型的贡献。此数据可能会提示您添加或更改标签集以提高或降低列的重要性。

    “重要性” 列提供每列的数值分数,以小数不大于 1.0。

有关理解质量估计与实际质量的信息,请参阅 质量估计与端到端(实际)质量

有关优化您的转换的更多信息,请参阅 在 AWS Glue 中优化 Machine Learning 转换

质量估计与端到端(实际)质量

FindMatches机器学习转换,AWS Glue 通过向内部机器学习模型显示一些记录对来估计转换的质量,这些记录对您提供了匹配的标签,但是模型以前没有看到过。这些质量估计是机器学习模型质量的函数(受标记为“指导”转换的记录数量的影响)。端到端或实际查全率(不是由 FindMatches 转换自动计算)也受 FindMatches 筛选机制的影响,该机制建议了与机器学习模型匹配的各种可能的匹配项。

90您可以使用 Lower Cost-Accuracy (较低成本-准确性) 滑块优化此筛选方法。在将此滑块移至更接近 Accuracy (准确性) 端的位置时,系统对可能匹配的记录对进行更彻底和高成本的搜索。更多记录对被提供给机器学习模型,并且您的 FindMatches 转换的端到端或实际查全率更接近估计的查全率指标。因此,由于匹配项的成本/准确性权衡的变化,匹配项的端到端质量的变化通常不会反映在质量估算中。