在 Amazon Glue 控制台上使用 Machine Learning 转换 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

在 Amazon Glue 控制台上使用 Machine Learning 转换

您可以使用 Amazon Glue 创建可用于清理数据的自定义机器学习转换。在 Amazon Glue 控制台上创建作业时,可以使用这些转换。

有关如何创建机器学习转换的信息,请参阅 使用 Amazon Lake Formation FindMatches 匹配记录

转换属性

要查看现有机器学习转换,请登录 Amazon Web Services Management Console,然后通过以下网址打开 Amazon Glue 控制台:https://console.aws.amazon.com/glue/。然后从左侧导航菜单中选择 ML transforms (机器学习转换)

Machine learning transforms (机器学习转换) 列表显示每个转换的以下属性:

转换名称

在创建转换时为其提供的唯一名称。

转换 ID

转换的唯一标识符。

类型

机器学习转换的类型;例如,Find matching records (查找匹配记录)

标签数

为帮助指导转换而提供的标签文件中的标签数。

状态

指示转换是否为 Ready (准备)Needs training (需要培训)。要在任务中成功运行机器学习转换,则必须是 Ready (准备)

创建日期

创建转换的日期。

Last modified

上次更新转换的日期。

描述

为转换提供的描述(如果已提供)。

在创建 FindMatches 转换时,您需要指定以下配置信息:

主键

唯一标识源表中的行的列名称。

类型

机器学习转换的类型;例如,Find matches (查找匹配项)

添加和编辑 Machine Learning 转换

您可以在 Amazon Glue 控制台上查看、删除、设置和指导或优化转换。选中列表中转换旁边的复选框,选择 Action (操作),然后选择要采取的操作。

要添加新的机器学习转换,请选择 Jobs (作业) 选项卡,然后选择 Add job (添加作业)。按照 Add job (添加作业) 向导中的说明操作,添加带机器学习转换(例如 FindMatches)的作业。有关更多信息,请参阅 使用 Amazon Lake Formation FindMatches 匹配记录

将数据加密与 Machine Learning 转换结合使用

在将机器学习转换添加到 Amazon Glue 时,您可以选择指定与数据源或数据目标关联的安全配置。如果用于存储数据的 Amazon S3 存储桶使用安全配置加密,请在创建转换时指定相同的安全配置。

您还可以选择将服务器端加密(SSE-KMS)与 Amazon KMS对模型和标签进行加密,以防止未经授权的人员对其进行检查。如果选择此选项,则会提示您按名称选择 Amazon KMS key,也可以选择 Enter a key ARN (输入密钥 ARN)。如果选择输入 KMS 密钥的 ARN,则会出现第二个字段,您可以在其中输入 KMS 密钥 ARN。

注意

目前,在以下区域不支持使用自定义加密密钥的 FindMatches 转换:

  • 亚太地区(大阪)- ap-northeast-3

查看转换详细信息

转换详细信息包括您在创建转换时定义的信息。要查看某个转换的详细信息,请在 Machine learning transforms (机器学习转换) 列表中选择该转换,然后查看以下选项卡上的信息:

  • 历史记录

  • 详细信息

  • 估计质量

History

History (历史记录) 选项卡显示转换任务运行历史记录。运行几种类型的任务来指导转换。对于每个任务,运行指标包括:

  • Run ID (运行 ID) 是 Amazon Glue 为此任务的每次运行创建的标识符。

  • Task type (任务类型) 显示任务运行的类型。

  • Status (状态) 显示列出的每个任务的成功状态,其中最新运行位于顶部。

  • Error (错误) 在运行不成功时显示错误消息的详细信息。

  • Start time (开始时间) 显示任务的开始日期和时间(本地时间)。

  • Execution time (执行时间) 显示作业运行消耗资源的时间长度。计算长度时从作业运行开始消耗资源时算起,直至完成。

  • Last modified (上次修改日期和时间) 显示任务的上次修改日期和时间(本地时间)。

  • Logs (日志) 链接到写入此作业运行的 stdout 的日志。

    Logs (日志) 链接会将您带到 Amazon CloudWatch Logs。您可以在其中查看有关在 Amazon Glue Data Catalog 中创建的表和遇到的任何错误的详细信息。您可以在 CloudWatch 控制台中管理日志保留期。默认日志保留为 Never Expire。有关更多如何更改保留期的信息,请参阅《Amazon CloudWatch Logs 用户指南》中的更改 CloudWatch Logs 中的日志数据留存

  • Error logs (错误日志) 链接到写入此任务运行的 stderr 的日志。

    此链接会将您带到 CloudWatch Logs,您可以在其中查看有关遇到的任何错误的详细信息。您可以在 CloudWatch 控制台中管理日志保留期。默认日志保留为 Never Expire。有关更多如何更改保留期的信息,请参阅《Amazon CloudWatch Logs 用户指南》中的更改 CloudWatch Logs 中的日志数据留存

  • Download label file (下载标签文件) 显示生成的标签文件的 Amazon S3 的链接。

Details

Details (详细信息) 选项卡包含转换的属性。它显示有关转换定义的详细信息,包括:

  • Transform name (转换名称) 显示转换的名称。

  • Type (类型) 列出了转换的类型。

  • Status (状态) 显示是否可在脚本或作业中使用转换。

  • Force output to match labels (强制输出与标签匹配) 显示转换是否强制输出与用户提供的标签匹配。

  • Spark 版本与添加转换时在 Task run properties (任务运行属性) 中选择的 Amazon Glue 版本有关。建议大多数用户使用 Amazon Glue 1.0 和 Spark 2.4。有关更多信息,请参阅 Amazon Glue 版本

估计质量

Estimate quality (估计质量) 选项卡显示用于测量转换质量的指标。通过使用标签数据的子集与您提供的标签比较变换匹配预测来计算估计值。这些估计值是近似值。您可以从此选项卡调用 Estimate quality (估计质量) 任务。

Estimate quality (估计质量) 选项卡显示了上次 Estimate quality (估计质量) 运行的指标,包括以下属性:

  • Area under the Precision-Recall curve (查准率-查全率曲线下的面积) 是估算变换整体质量上限的单个数字。它与查准率-查全率参数的选择无关。较高的值表明您具有更有吸引力的查准率-查全率权衡。

  • Precision (查准率) 估算转换在预测匹配时正确的频率。

  • Recall upper limit (查全率上限) 估算,对于实际匹配,转换预测匹配项的频率。

  • Max F1 (最大 F1) 估算转换的准确性介于 0 和 1 之间,其中 1 是最大准确性。有关更多信息,请参阅 Wikipedia 中的 F1 分数

  • Column importance (列重要性) 表显示了每列的列名和重要性分数。列重要性通过识别记录中最常用于匹配的列,帮助您了解列对模型的贡献。此数据可以提示您添加或更改标签集以提高或降低列的重要性。

    重要性列提供每列的数值分数,作为不大于 1.0 的小数。

有关理解质量估计与实际质量的信息,请参阅 质量估计与端到端(实际)质量

有关优化您的转换的更多信息,请参阅 在 Amazon Glue 中优化机器学习转换

质量估计与端到端(实际)质量

FindMatches 机器学习转换中,Amazon Glue 通过向内部机器学习模型显示一些记录对来估计转换的质量,这些记录对您提供了匹配的标签,但是模型以前没有看到过。这些质量估计是机器学习模型质量的函数(受标记为“指导”转换的记录数量的影响)。端到端或实际查全率(不是由 FindMatches 转换自动计算)也受 FindMatches 筛选机制的影响,该机制建议了与机器学习模型匹配的各种可能的匹配项。

90您可以使用 Lower Cost-Accuracy (较低成本-准确性) 滑块优化此筛选方法。在将此滑块移至更接近 Accuracy (准确性) 端的位置时,系统对可能匹配的记录对进行更彻底和高成本的搜索。更多记录对被提供给机器学习模型,并且您的 FindMatches 转换的端到端或实际查全率更接近估计的查全率指标。因此,由于匹配项的成本/准确性权衡的变化,匹配项的端到端质量的变化通常不会反映在质量估算中。