AWS Glue 机器学习 API - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWS Glue 机器学习 API

机器学习 API 介绍机器学习数据类型,并包含用于创建、删除或更新转换或启动机器学习任务运行的 API。

数据类型

TransformParameters结构

与机器学习转换关联的特定于算法的参数。

Fields

  • TransformType必需:UTF-8 字符串(有效值:FIND_MATCHES)。

    机器学习转换的类型。

    有关机器学习转换的类型的信息,请参阅创建机器学习转换

  • FindMatchesParameters – 一个 FindMatchesParameters 对象。

    查找匹配算法的参数。

EvaluationMetrics结构

评估指标提供了对机器学习转换质量的估计。

Fields

  • TransformType必需:UTF-8 字符串(有效值:FIND_MATCHES)。

    机器学习转换的类型。

  • FindMatchesMetrics – 一个 FindMatchesMetrics 对象。

    查找匹配项算法的评估指标。

MLTransform结构

机器学习转换的结构。

Fields

  • TransformId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    为机器学习转换生成的唯一转换 ID。该 ID 保证是唯一的,不会更改。

  • Name – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    机器学习转换的用户定义的名称。名称不能保证是唯一的,可以随时更改。

  • Description – 描述字符串,不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    机器学习转换的用户定义的长格式描述文本。说明不能保证是唯一的,可以随时更改。

  • Status – UTF-8 字符串(有效值:NOT_READY | READY | DELETING)。

    机器学习转换的当前状态。

  • CreatedOn – 时间戳。

    时间戳。创建此机器学习转换的时间和日期。

  • LastModifiedOn – 时间戳。

    时间戳。修改此机器学习转换时的最后一个时间点。

  • InputRecordTables – 对象的数组,不超过 10 个结构。GlueTable

    转换使用的 AWS Glue 表定义的列表。

  • Parameters – 一个 TransformParameters 对象。

    一个 TransformParameters 对象。您可以使用参数来调整(自定义)机器学习转换的行为,方法是指定它从中学习的数据,并指定您对各种权衡(例如,宝贵的查全率或准确性与成本)的首选项。

  • EvaluationMetrics – 一个 EvaluationMetrics 对象。

    一个 EvaluationMetrics 对象。评估指标提供了对机器学习转换质量的估计。

  • LabelCount – 数字(整数)。

    AWS Glue 为该转换生成的标签文件的计数标识符。在创建更好的转换时,您可以迭代方式下载、标记和上传标签文件。

  • Schema – 对象的数组,不超过 100 个结构。SchemaColumn

    表示可对其运行此转换的列和数据类型的键值对的映射。具有 100 列的上限。

  • Role – UTF-8 字符串。

    具有所需权限的 IAM 角色的名称或 Amazon 资源名称 (ARN)。所需的权限包括 AWS Glue 服务角色对 AWS Glue 资源的权限,以及转换所需的 Amazon S3 权限。

    • 此角色需要 AWS Glue 服务角色权限以允许访问 AWS Glue 中的资源。请参阅将策略附加到访问 AWS Glue 的 IAM 用户

    • 此角色需要对您的 Amazon Simple Storage Service (Amazon S3) 源、目标、临时目录、脚本以及此转换的任务运行所使用的任何库的权限。

  • GlueVersion – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Custom string pattern #15 匹配。

    此值确定该机器学习转换与哪个版本的 AWS Glue 兼容。建议大多数用户使用 Glue 1.0。如果未设置此值,则 Glue 兼容性默认为 Glue 0.9。有关更多信息,请参阅《开发人员指南》中的 AWS Glue 版本

  • MaxCapacity – 数字(双精度)。

    分配给此转换的任务运行的 AWS Glue 数据处理单元 (DPU) 的数量。您可以分配 2 到 100 个 DPUs;默认值为 10。DPU 是对处理能力的相对度量,它由 4 vCPUs 的计算容量和 16 GB 内存组成。有关更多信息,请参阅 AWS Glue 定价页

    MaxCapacity 是与 NumberOfWorkersWorkerType 相互排斥的选项。

    • 如果设置了 NumberOfWorkersWorkerType,则无法设置 MaxCapacity

    • 如果设置了 MaxCapacity,则不能设置 NumberOfWorkersWorkerType

    • 如果已设置 WorkerType,则 NumberOfWorkers 为必填项(反之亦然)。

    • MaxCapacityNumberOfWorkers 都必须至少为 1。

    在将 WorkerType 字段设置为 Standard 之外的值时,MaxCapacity 字段将自动设置并变为只读。

  • WorkerType – UTF-8 字符串(有效值:Standard="" | G.1X="" | G.2X="")。

    在此转换的任务运行时分配的预定义工作线程的类型。接受的值为 Standard、G.1X 或 G.2X。

    • 对于 Standard 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 50GB 磁盘,并且每个工作线程提供 2 个执行器。

    • 对于 G.1X 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 64 GB 磁盘,并且每个工作线程提供 1 个执行器。

    • 对于 G.2X 工作线程类型,每个工作线程提供 8 个 vCPU、32 GB 内存和 128 GB 磁盘,并且每个工作线程提供 1 个执行器。

    MaxCapacity 是与 NumberOfWorkersWorkerType 相互排斥的选项。

    • 如果设置了 NumberOfWorkersWorkerType,则无法设置 MaxCapacity

    • 如果设置了 MaxCapacity,则不能设置 NumberOfWorkersWorkerType

    • 如果已设置 WorkerType,则 NumberOfWorkers 为必填项(反之亦然)。

    • MaxCapacityNumberOfWorkers 都必须至少为 1。

  • NumberOfWorkers – 数字(整数)。

    在转换的任务运行时分配的已定义 workerType 的工作线程数。

    如果已设置 WorkerType,则 NumberOfWorkers 为必填项(反之亦然)。

  • Timeout – 数字(整数),至少为 1。

    机器学习转换的超时(以分钟为单位)。

  • MaxRetries – 数字(整数)。

    在机器学习转换的 MLTaskRun 失败后重试的最大次数。

  • TransformEncryption – 一个 TransformEncryption 对象。

    适用于访问用户数据的转换的静态加密设置。机器学习转换可以访问使用 KMS 在 Amazon S3 中加密的用户数据。

FindMatchesParameters结构

用于配置查找匹配项转换的参数。

Fields

  • PrimaryKeyColumnName – UTF-8 字符串,长度不少于 1 个字节或超过 1024 个字节,与 Single-line string pattern 匹配。

    唯一标识源表中的行的列名称。用于帮助标识匹配的记录。

  • PrecisionRecallTradeoff – 数字(双精度),至多为 1.0。

    调整转换以在查准率与查全率之间取得平衡时选择的值。值 0.5 表示无首选项;值 1.0 表示精度的偏差,0.0 表示召回率的偏差。由于这是一个权衡,选择接近 1.0 的值意味着查全率非常低,而选择接近 0.0 的值会导致精度非常低。

    精度指标指示模型在预测匹配时的正确频率。

    查全率指标表示,对于实际匹配,您的模型预测匹配的频率。

  • AccuracyCostTradeoff – 数字(双精度),至多为 1.0。

    调整转换以在准确性与成本之间取得平衡时选择的值。值 0.5 意味着系统平衡准确性和成本问题。值为 1.0 意味着准确性的偏移,这通常会导致成本较高,有时会大幅提高。值 0.0 意味着成本只有一个偏差,这会导致进行不太准确的 FindMatches 转换,有时准确性是不可接受的。

    Accuracy (准确性) 衡量转换发现真阳性和真阴性的程度。提高准确性需要更多的机器资源和成本。但这也会导致查全率提高。

    成本衡量运行转换所消耗的计算资源(从而产生成本)的数量。

  • EnforceProvidedLabels – 布尔值。

    要启用或禁用的值,以强制输出与用户提供的标签相匹配。如果值为 True,则 find matches 转换强制输出与提供的标签匹配。结果会覆盖正常合并结果。如果值为 False,则 find matches 转换不能确保遵循提供的所有标签,并且结果依赖于训练后的模型。

    请注意,将此值设置为 true 可能会增加合并执行时间。

FindMatchesMetrics结构

查找匹配项算法的评估指标。机器学习转换的质量是通过获取转换以预测一些匹配项并将结果与来自同一数据集的已知匹配项进行比较来衡量的。质量指标基于一部分数据,因此不准确。

Fields

  • AreaUnderPRCurve – 数字(双精度),至多为 1.0。

    查准率/查全率曲线 (AUPRC) 下的面积是一个数字,用于测量转换的整体质量,该数字独立于针对查准率与查全率做出的选择。较高的值表明您具有更吸引性的查准率与查全率权衡。

    有关更多信息,请参阅 Wikipedia 中的查准率和查全率

  • Precision – 数字(双精度),至多为 1.0。

    精度指标指示转换在预测匹配时通常是正确的。具体来说,它衡量转换从可能的总真阳性中找到真阳性的程度。

    有关更多信息,请参阅 Wikipedia 中的查准率和查全率

  • Recall – 数字(双精度),至多为 1.0。

    查全率指标指示,对于实际匹配,转换预测匹配的频率。具体而言,它衡量转换从源数据中的总记录数中找到真阳性的程度。

    有关更多信息,请参阅 Wikipedia 中的查准率和查全率

  • F1 – 数字(双精度),至多为 1.0。

    最大 F1 指标指示转换的准确性介于 0 和 1 之间,其中 1 是最佳准确性。

    有关更多信息,请参阅 Wikipedia 中的 F1 分数

  • ConfusionMatrix – 一个 ConfusionMatrix 对象。

    混淆矩阵显示了您的转换预测的准确性以及预测出错的类型。

    有关更多信息,请参阅 Wikipedia 中的混淆矩阵

  • ColumnImportances – 对象的数组,不超过 100 个结构。ColumnImportance

    包含列重要性指标的 ColumnImportance 结构的列表,这些指标按降序重要性排序。

ConfusionMatrix结构

混淆矩阵显示了您的转换预测的准确性以及预测出错的类型。

有关更多信息,请参阅 Wikipedia 中的混淆矩阵

Fields

  • NumTruePositives – 数字 (long)。

    转换在转换的混淆矩阵中找到的数据中的匹配项数量。

  • NumFalsePositives – 数字 (long)。

    转换的混淆矩阵中转换错误分类为匹配项的数据中的不匹配项的数量。

  • NumTrueNegatives – 数字 (long)。

    转换的混淆矩阵中转换正确拒绝的数据中的不匹配项的数量。

  • NumFalseNegatives – 数字 (long)。

    转换在混淆矩阵中没有找到的数据中的匹配项数。

GlueTable结构

用于输入或输出数据的 AWS Glue 数据目录中的数据库和表。

Fields

  • DatabaseName必需:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    AWS Glue 数据目录中的数据库名称。

  • TableName必需:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    AWS Glue 数据目录中的表名称。

  • CatalogId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    AWS Glue 数据目录的唯一标识符。

  • ConnectionName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与 AWS Glue 数据目录的连接的名称。

TaskRun结构

与机器学习转换关联的采样参数。

Fields

  • TransformId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    转换的唯一标识符。

  • TaskRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    此任务运行的唯一标识符。

  • Status – UTF-8 字符串(有效值:STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT)。

    请求的任务运行的当前状态。

  • LogGroupName – UTF-8 字符串。

    与此任务运行关联的安全日志记录的日志组的名称。

  • Properties – 一个 TaskRunProperties 对象。

    指定与此任务运行关联的配置属性。

  • ErrorString – UTF-8 字符串。

    与此任务运行关联的错误字符串的列表。

  • StartedOn – 时间戳。

    此任务运行的开始日期和时间。

  • LastModifiedOn – 时间戳。

    更新请求的任务运行的最后一个时间点。

  • CompletedOn – 时间戳。

    请求的任务运行的最后一个时间点已完成。

  • ExecutionTime – 数字(整数)。

    任务运行消耗资源的时间长度(以秒为单位)。

TransformFilterCriteria结构

用于筛选机器学习转换的条件。

Fields

  • Name – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    用于筛选机器学习转换的唯一转换名称。

  • TransformType – UTF-8 字符串(有效值:FIND_MATCHES)。

    用于筛选机器学习转换的机器学习转换的类型。

  • Status – UTF-8 字符串(有效值:NOT_READY | READY | DELETING)。

    按转换的上一个已知状态筛选机器学习转换的列表(以指示能否使用转换)。“NOT_READY”、“READY”或“DELETING”之一。

  • GlueVersion – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Custom string pattern #15 匹配。

    此值确定该机器学习转换与哪个版本的 AWS Glue 兼容。建议大多数用户使用 Glue 1.0。如果未设置此值,则 Glue 兼容性默认为 Glue 0.9。有关更多信息,请参阅《开发人员指南》中的 AWS Glue 版本

  • CreatedBefore – 时间戳。

    创建转换的日期和时间。

  • CreatedAfter – 时间戳。

    创建转换的日期和时间。

  • LastModifiedBefore – 时间戳。

    针对此日期之前上次修改的转换的筛选条件。

  • LastModifiedAfter – 时间戳。

    针对此日期之后上次修改的转换的筛选条件。

  • Schema – 对象的数组,不超过 100 个结构。SchemaColumn

    筛选具有特定架构的数据集。对象是表示此转换接受的架构的键值对的数组,其中 Map<Column, Type> 是列的名称,而 Column 是数据的类型,例如整数或字符串。Type具有 100 列的上限。

TransformSortCriteria结构

与机器学习转换关联的排序标准。

Fields

  • Column必需:UTF-8 字符串(有效值:NAME | TRANSFORM_TYPE | STATUS | CREATED | LAST_MODIFIED)。

    在与机器学习转换关联的排序标准中使用的列。

  • SortDirection必需:UTF-8 字符串(有效值:DESCENDING | ASCENDING)。

    在与机器学习转换关联的排序标准中使用的排序方向。

TaskRunFilterCriteria结构

用于筛选任务运行用于机器学习转换的条件。

Fields

  • TaskRunType – UTF-8 字符串(有效值:EVALUATION | LABELING_SET_GENERATION | IMPORT_LABELS | EXPORT_LABELS | FIND_MATCHES)。

    任务运行的类型。

  • Status – UTF-8 字符串(有效值:STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT)。

    任务运行的当前状态。

  • StartedBefore – 时间戳。

    针对在此日期之前启动的任务运行的筛选条件。

  • StartedAfter – 时间戳。

    针对在此日期后启动的任务运行的筛选条件。

TaskRunSortCriteria结构

用于对机器学习转换的任务列表进行排序的排序标准。

Fields

  • Column必需:UTF-8 字符串(有效值:TASK_RUN_TYPE | STATUS | STARTED)。

    用于对机器学习转换的任务运行列表进行排序的列。

  • SortDirection必需:UTF-8 字符串(有效值:DESCENDING | ASCENDING)。

    用于对机器学习转换的任务列表进行排序的排序方向。

TaskRunProperties结构

任务运行的配置属性。

Fields

  • TaskType – UTF-8 字符串(有效值:EVALUATION | LABELING_SET_GENERATION | IMPORT_LABELS | EXPORT_LABELS | FIND_MATCHES)。

    任务运行的类型。

  • ImportLabelsTaskRunProperties – 一个 ImportLabelsTaskRunProperties 对象。

    导入标签任务的配置属性运行。

  • ExportLabelsTaskRunProperties – 一个 ExportLabelsTaskRunProperties 对象。

    导出标签任务的配置属性运行。

  • LabelingSetGenerationTaskRunProperties – 一个 LabelingSetGenerationTaskRunProperties 对象。

    标记集生成任务的配置属性运行。

  • FindMatchesTaskRunProperties – 一个 FindMatchesTaskRunProperties 对象。

    查找匹配任务运行的配置属性。

FindMatchesTaskRunProperties结构

指定“查找匹配项”任务运行的配置属性。

Fields

  • JobId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    查找匹配项任务运行的作业 ID。

  • JobName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    为 Find Matches 任务运行的作业分配的名称。

  • JobRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    查找匹配项任务运行的作业运行 ID。

ImportLabelsTaskRunProperties结构

指定导入标签任务运行的配置属性。

Fields

  • InputS3Path – UTF-8 字符串。

    您将从中导入标签的 Amazon Simple Storage Service (Amazon S3) 路径。

  • Replace – 布尔值。

    指示是否覆盖现有标签。

ExportLabelsTaskRunProperties结构

指定导出标签任务运行的配置属性。

Fields

  • OutputS3Path – UTF-8 字符串。

    您将在其中导出标签的 Amazon Simple Storage Service (Amazon S3) 路径。

LabelingSetGenerationTaskRunProperties结构

为标记集生成任务运行指定配置属性。

Fields

  • OutputS3Path – UTF-8 字符串。

    您将在其中生成标签集的 Amazon Simple Storage Service (Amazon S3) 路径。

SchemaColumn结构

一个键/值对,表示可对其运行此转换的列和数据类型。的 Schema 参数最多可以包含 100 个这些结构。MLTransform

Fields

  • Name – UTF-8 字符串,长度不少于 1 个字节或超过 1024 个字节,与 Single-line string pattern 匹配。

    列的名称。

  • DataType – UTF-8 字符串,不超过 131072 个字节,与 Single-line string pattern 匹配。

    列中的数据类型。

TransformEncryption结构

适用于访问用户数据的转换的静态加密设置。机器学习转换可以访问使用 KMS 在 Amazon S3 中加密的用户数据。

此外,现在可以使用客户提供的 KMS 密钥对导入的标签和训练的转换进行加密。

Fields

  • MlUserDataEncryption – 一个 MLUserDataEncryption 对象。

    一个 MLUserDataEncryption 对象,其中包含加密模式和客户提供的 KMS 密钥 ID。

  • TaskRunSecurityConfigurationName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    安全配置的名称。

MLUserDataEncryption结构

适用于访问用户数据的转换的静态加密设置。

Fields

  • MlUserDataEncryptionMode必需:UTF-8 字符串(有效值:DISABLED | SSE-KMS="SSEKMS")。

    应用于用户数据的加密模式。有效值为:

    • DISABLED:已禁用加密

    • SSEKMS:对存储在 Amazon S3 中的用户数据使用 AWS Key Management Service (SSE-KMS) 的服务器端加密。

  • KmsKeyId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    客户提供的 KMS 密钥的 ID。

ColumnImportance结构

包含列名和列重要性分数的结构。

列重要性通过标识记录中的哪些列比其他列更重要,可帮助您了解列如何对模型有贡献。

Fields

  • ColumnName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    列的名称。

  • Importance – 数字(双精度),至多为 1.0。

    列的列重要性分数,以小数形式表示。

Operations

CreateMLTransform 操作(Python:create_ml_transform)

创建 AWS Glue 机器学习转换。该操作创建转换以及训练它所需的所有参数。

调用此操作作为使用机器学习转换(例如 FindMatches 转换)来复制数据的过程的第一步。除了要用于算法的参数之外,您还可以提供可选的 Description

在从数据中学习和创建高质量机器学习转换时,您还必须为 AWS Glue 代表您运行的任务指定某些参数。这些参数包括 Role,以及可选的 AllocatedCapacityTimeoutMaxRetries。 有关更多信息,请参阅作业

Request

  • Name必需:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    在创建转换时为转换提供的唯一名称。

  • Description – 描述字符串,不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    正在定义的机器学习转换的描述。默认值是空字符串。

  • InputRecordTables必需:对象的数组,不超过 10 个结构。GlueTable

    转换使用的 AWS Glue 表定义的列表。

  • Parameters必需:一个 TransformParameters 对象。

    特定于所用转换类型的算法参数。有条件地取决于转换类型。

  • Role必需:UTF-8 字符串。

    具有所需权限的 IAM 角色的名称或 Amazon 资源名称 (ARN)。所需的权限包括 AWS Glue 服务角色对 AWS Glue 资源的权限,以及转换所需的 Amazon S3 权限。

    • 此角色需要 AWS Glue 服务角色权限以允许访问 AWS Glue 中的资源。请参阅将策略附加到访问 AWS Glue 的 IAM 用户

    • 此角色需要对您的 Amazon Simple Storage Service (Amazon S3) 源、目标、临时目录、脚本以及此转换的任务运行所使用的任何库的权限。

  • GlueVersion – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Custom string pattern #15 匹配。

    此值确定该机器学习转换与哪个版本的 AWS Glue 兼容。建议大多数用户使用 Glue 1.0。如果未设置此值,则 Glue 兼容性默认为 Glue 0.9。有关更多信息,请参阅《开发人员指南》中的 AWS Glue 版本

  • MaxCapacity – 数字(双精度)。

    分配给此转换的任务运行的 AWS Glue 数据处理单元 (DPU) 的数量。您可以分配 2 到 100 个 DPUs;默认值为 10。DPU 是对处理能力的相对度量,它由 4 vCPUs 的计算容量和 16 GB 内存组成。有关更多信息,请参阅 AWS Glue 定价页

    MaxCapacity 是与 NumberOfWorkersWorkerType 相互排斥的选项。

    • 如果设置了 NumberOfWorkersWorkerType,则无法设置 MaxCapacity

    • 如果设置了 MaxCapacity,则不能设置 NumberOfWorkersWorkerType

    • 如果已设置 WorkerType,则 NumberOfWorkers 为必填项(反之亦然)。

    • MaxCapacityNumberOfWorkers 都必须至少为 1。

    在将 WorkerType 字段设置为 Standard 之外的值时,MaxCapacity 字段将自动设置并变为只读。

    在将 WorkerType 字段设置为 Standard 之外的值时,MaxCapacity 字段将自动设置并变为只读。

  • WorkerType – UTF-8 字符串(有效值:Standard="" | G.1X="" | G.2X="")。

    在此任务运行时分配的预定义工作线程的类型。接受的值为 Standard、G.1X 或 G.2X。

    • 对于 Standard 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 50GB 磁盘,并且每个工作线程提供 2 个执行器。

    • 对于 G.1X 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 64 GB 磁盘,并且每个工作线程提供 1 个执行器。

    • 对于 G.2X 工作线程类型,每个工作线程提供 8 个 vCPU、32 GB 内存和 128 GB 磁盘,并且每个工作线程提供 1 个执行器。

    MaxCapacity 是与 NumberOfWorkersWorkerType 相互排斥的选项。

    • 如果设置了 NumberOfWorkersWorkerType,则无法设置 MaxCapacity

    • 如果设置了 MaxCapacity,则不能设置 NumberOfWorkersWorkerType

    • 如果已设置 WorkerType,则 NumberOfWorkers 为必填项(反之亦然)。

    • MaxCapacityNumberOfWorkers 都必须至少为 1。

  • NumberOfWorkers – 数字(整数)。

    在此任务运行时分配的已定义 workerType 的工作线程数。

    如果已设置 WorkerType,则 NumberOfWorkers 为必填项(反之亦然)。

  • Timeout – 数字(整数),至少为 1。

    此转换的任务运行的超时(以分钟为单位)。这是针对此转换运行的任务在终止并进入 TIMEOUT 状态之前可以使用资源的最长时间。默认值为 2880 分钟 (48 小时)。

  • MaxRetries – 数字(整数)。

    在任务运行失败后,为此转换重试任务的最大次数。

  • Tags – 键值对的映射数组,不超过 50 对。

    每个键都是一个 UTF-8 字符串,长度不少于 1 个字节或超过 128 个字节。

    每个值是一个 UTF-8 字符串,不超过 256 个字节。

    要用于此机器学习转换的标签。您可以使用标签来限制对机器学习转换的访问。有关 AWS Glue 中的标签的更多信息,请参阅开发人员指南中的 AWS Glue 中的 AWS 标签

  • TransformEncryption – 一个 TransformEncryption 对象。

    适用于访问用户数据的转换的静态加密设置。机器学习转换可以访问使用 KMS 在 Amazon S3 中加密的用户数据。

Response

  • TransformId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    为转换生成的唯一标识符。

Errors

  • AlreadyExistsException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • AccessDeniedException

  • ResourceNumberLimitExceededException

  • IdempotentParameterMismatchException

UpdateMLTransform 操作 (Python:update_ml_transform)

更新现有的机器学习转换。调用此操作以优化算法参数,以获得更好的结果。

调用此操作后,您可以调用 StartMLEvaluationTaskRun 操作来评估新参数实现目标的程度(例如,改进机器学习转换的质量或使其更具成本效益)。

Request

  • TransformId必需:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    创建转换时生成的唯一标识符。

  • Name – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    在创建转换时为其提供的唯一名称。

  • Description – 描述字符串,不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    转换的描述。默认值是空字符串。

  • Parameters – 一个 TransformParameters 对象。

    特定于使用的转换类型(算法)的配置参数。有条件地取决于转换类型。

  • Role – UTF-8 字符串。

    具有所需权限的 IAM 角色的名称或 Amazon 资源名称 (ARN)。

  • GlueVersion – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Custom string pattern #15 匹配。

    此值确定该机器学习转换与哪个版本的 AWS Glue 兼容。建议大多数用户使用 Glue 1.0。如果未设置此值,则 Glue 兼容性默认为 Glue 0.9。有关更多信息,请参阅《开发人员指南》中的 AWS Glue 版本

  • MaxCapacity – 数字(双精度)。

    分配给此转换的任务运行的 AWS Glue 数据处理单元 (DPU) 的数量。您可以分配 2 到 100 个 DPUs;默认值为 10。DPU 是对处理能力的相对度量,它由 4 vCPUs 的计算容量和 16 GB 内存组成。有关更多信息,请参阅 AWS Glue 定价页

    在将 WorkerType 字段设置为 Standard 之外的值时,MaxCapacity 字段将自动设置并变为只读。

  • WorkerType – UTF-8 字符串(有效值:Standard="" | G.1X="" | G.2X="")。

    在此任务运行时分配的预定义工作线程的类型。接受的值为 Standard、G.1X 或 G.2X。

    • 对于 Standard 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 50GB 磁盘,并且每个工作线程提供 2 个执行器。

    • 对于 G.1X 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 64 GB 磁盘,并且每个工作线程提供 1 个执行器。

    • 对于 G.2X 工作线程类型,每个工作线程提供 8 个 vCPU、32 GB 内存和 128 GB 磁盘,并且每个工作线程提供 1 个执行器。

  • NumberOfWorkers – 数字(整数)。

    在此任务运行时分配的已定义 workerType 的工作线程数。

  • Timeout – 数字(整数),至少为 1。

    此转换的任务运行的超时(以分钟为单位)。这是针对此转换运行的任务在终止并进入 TIMEOUT 状态之前可以使用资源的最长时间。默认值为 2880 分钟 (48 小时)。

  • MaxRetries – 数字(整数)。

    在任务运行失败后,为此转换重试任务的最大次数。

Response

  • TransformId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    已更新的转换的唯一标识符。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • AccessDeniedException

DeleteMLTransform 操作 (Python:delete_ml_transform)

删除 AWS Glue 机器学习转换。机器学习转换是一种特殊类型的转换,它使用机器学习来通过从人类提供的示例学习来执行的转换的详细信息。然后,AWS Glue 将保存这些转换。如果不再需要某个转换,您可以通过调用 DeleteMLTransforms 将其删除。 但是,任何仍引用已删除转换的 AWS Glue 作业都将无法再成功。

Request

  • TransformId必需:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    要删除的转换的唯一标识符。

Response

  • TransformId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    已删除的转换的唯一标识符。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetMLTransform 操作 (Python:get_ml_transform)

获取 AWS Glue 机器学习转换项目及其所有相应的元数据。机器学习转换是一种特殊类型的转换,它使用机器学习来通过从人类提供的示例学习来执行的转换的详细信息。然后,AWS Glue 将保存这些转换。您可以通过调用 GetMLTransform 来检索其元数据。

Request

  • TransformId必需:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    在创建转换时生成的转换的唯一标识符。

Response

  • TransformId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    在创建转换时生成的转换的唯一标识符。

  • Name – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    在创建转换时为转换提供的唯一名称。

  • Description – 描述字符串,不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    转换的描述。

  • Status – UTF-8 字符串(有效值:NOT_READY | READY | DELETING)。

    转换的上一个已知状态 (用于指示它是否可用)。“NOT_READY”、“READY”或“DELETING”之一。

  • CreatedOn – 时间戳。

    创建转换的日期和时间。

  • LastModifiedOn – 时间戳。

    上次修改转换的日期和时间。

  • InputRecordTables – 对象的数组,不超过 10 个结构。GlueTable

    转换使用的 AWS Glue 表定义的列表。

  • Parameters – 一个 TransformParameters 对象。

    特定于所用算法的配置参数。

  • EvaluationMetrics – 一个 EvaluationMetrics 对象。

    最新的评估指标。

  • LabelCount – 数字(整数)。

    可用于此转换的标签的数量。

  • Schema – 对象的数组,不超过 100 个结构。SchemaColumn

    表示此转换接受的架构的 Map<Column, Type> 对象。具有 100 列的上限。

  • Role – UTF-8 字符串。

    具有所需权限的 IAM 角色的名称或 Amazon 资源名称 (ARN)。

  • GlueVersion – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Custom string pattern #15 匹配。

    此值确定该机器学习转换与哪个版本的 AWS Glue 兼容。建议大多数用户使用 Glue 1.0。如果未设置此值,则 Glue 兼容性默认为 Glue 0.9。有关更多信息,请参阅《开发人员指南》中的 AWS Glue 版本

  • MaxCapacity – 数字(双精度)。

    分配给此转换的任务运行的 AWS Glue 数据处理单元 (DPU) 的数量。您可以分配 2 到 100 个 DPUs;默认值为 10。DPU 是对处理能力的相对度量,它由 4 vCPUs 的计算容量和 16 GB 内存组成。有关更多信息,请参阅 AWS Glue 定价页

    在将 WorkerType 字段设置为 Standard 之外的值时,MaxCapacity 字段将自动设置并变为只读。

  • WorkerType – UTF-8 字符串(有效值:Standard="" | G.1X="" | G.2X="")。

    在此任务运行时分配的预定义工作线程的类型。接受的值为 Standard、G.1X 或 G.2X。

    • 对于 Standard 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 50GB 磁盘,并且每个工作线程提供 2 个执行器。

    • 对于 G.1X 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 64 GB 磁盘,并且每个工作线程提供 1 个执行器。

    • 对于 G.2X 工作线程类型,每个工作线程提供 8 个 vCPU、32 GB 内存和 128 GB 磁盘,并且每个工作线程提供 1 个执行器。

  • NumberOfWorkers – 数字(整数)。

    在此任务运行时分配的已定义 workerType 的工作线程数。

  • Timeout – 数字(整数),至少为 1。

    此转换的任务运行的超时(以分钟为单位)。这是针对此转换运行的任务在终止并进入 TIMEOUT 状态之前可以使用资源的最长时间。默认值为 2880 分钟 (48 小时)。

  • MaxRetries – 数字(整数)。

    在任务运行失败后,为此转换重试任务的最大次数。

  • TransformEncryption – 一个 TransformEncryption 对象。

    适用于访问用户数据的转换的静态加密设置。机器学习转换可以访问使用 KMS 在 Amazon S3 中加密的用户数据。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetMLTransforms 操作 (Python:get_ml_transforms)

获取现有 AWS Glue 机器学习转换的可排序、可筛选列表。机器学习转换是一种特殊类型的转换,它使用机器学习来通过从人类提供的示例学习来执行的转换的详细信息。然后,AWS Glue 将保存这些转换,您可以通过调用 GetMLTransforms 来检索其元数据。

Request

  • NextToken – UTF-8 字符串。

    用于偏移结果的分页标记。

  • MaxResults – 数字(整数),不小于 1 或大于 1000。

    要返回的最大结果数量。

  • Filter – 一个 TransformFilterCriteria 对象。

    筛选转换标准。

  • Sort – 一个 TransformSortCriteria 对象。

    排序标准。

Response

  • Transforms必需:MLTransform 数据元数组。

    机器学习转换的列表。

  • NextToken – UTF-8 字符串。

    分页标记 (如果有更多结果可用)。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

ListMLTransforms 操作 (Python:list_ml_transforms)

检索此 AWS 账户中现有 AWS Glue 机器学习转换的可排序、可筛选列表,或带指定标签的资源。此操作采用可选的 Tags 字段,您可以将其用作响应的筛选条件,以便将标记的资源作为一个组进行检索。如果您选择使用标签筛选,则仅检索具有标签的资源。

Request

  • NextToken – UTF-8 字符串。

    延续令牌 (如果这是延续请求)。

  • MaxResults – 数字(整数),不小于 1 或大于 1000。

    要返回的列表的最大大小。

  • Filter – 一个 TransformFilterCriteria 对象。

    用于筛选机器学习转换的 TransformFilterCriteria

  • Sort – 一个 TransformSortCriteria 对象。

    用于对机器学习转换进行排序的 TransformSortCriteria

  • Tags – 键值对的映射数组,不超过 50 对。

    每个键都是一个 UTF-8 字符串,长度不少于 1 个字节或超过 128 个字节。

    每个值是一个 UTF-8 字符串,不超过 256 个字节。

    指定仅返回这些已标记的资源。

Response

  • TransformIds必需:UTF-8 字符串数组。

    账户中所有机器学习转换的标识符,或具有指定标签的机器学习转换。

  • NextToken – UTF-8 字符串。

    延续令牌 (如果返回的列表不包含上一个可用的指标)。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

StartMLEvaluationTaskRun 操作 (Python:start_ml_evaluation_task_run)

启动任务以估算转换的质量。

当您提供标签集作为可信示例时,AWS Glue 机器学习会使用其中的一些示例来学习它们。其余标签将用作测试来估算质量。

返回运行的唯一标识符。您可以调用 GetMLTaskRun 来获取有关 EvaluationTaskRun 的统计数据的更多信息。

Request

  • TransformId必需:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    机器学习转换的唯一标识符。

Response

  • TaskRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与此运行关联的唯一标识符。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • ConcurrentRunsExceededException

  • MLTransformNotReadyException

StartMLLabelingSetGenerationTaskRun 操作 (Python:start_ml_labeling_set_generation_task_run)

启动机器学习转换的主动学习工作流,以通过生成标签集并添加标签来提高转换的质量。

完成 StartMLLabelingSetGenerationTaskRun 后,AWS Glue 将生成一组“标签集”或一组问题供人们回答。

对于 FindMatches 转换,这些问题的形式是:“将这些行分组到完全由匹配记录组成的组中的正确方法是什么?”

在标记过程完成后,您可以通过调用 StartImportLabelsTaskRun 来上传标签。 在 StartImportLabelsTaskRun 完成之后,机器学习转换的所有将来运行都将使用新的和改进的标签并执行更高质量的转换。

Request

  • TransformId必需:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    机器学习转换的唯一标识符。

  • OutputS3Path必需:UTF-8 字符串。

    您生成标签集的 Amazon Simple Storage Service (Amazon S3) 路径。

Response

  • TaskRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与此任务运行关联的唯一运行标识符。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • ConcurrentRunsExceededException

GetMLTaskRun 操作 (Python:get_ml_task_run)

获取在机器学习转换上运行的特定任务的详细信息。机器学习任务运行是 AWS Glue 作为各种机器学习工作流程的一部分代表您运行的异步任务。您可以通过使用 GetMLTaskRun 及其父转换的 TaskRunID 调用 TransformID 来检查运行的任何任务的统计数据。

Request

  • TransformId必需:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    机器学习转换的唯一标识符。

  • TaskRunId必需:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    任务运行的唯一标识符。

Response

  • TransformId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    任务运行的唯一标识符。

  • TaskRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与此运行关联的唯一运行标识符。

  • Status – UTF-8 字符串(有效值:STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT)。

    此任务运行的状态。

  • LogGroupName – UTF-8 字符串。

    与任务运行关联的日志组的名称。

  • Properties – 一个 TaskRunProperties 对象。

    与任务运行关联的属性的列表。

  • ErrorString – UTF-8 字符串。

    与任务运行关联的错误字符串。

  • StartedOn – 时间戳。

    此任务运行的开始日期和时间。

  • LastModifiedOn – 时间戳。

    上次修改此任务运行的日期和时间。

  • CompletedOn – 时间戳。

    完成此任务运行的日期和时间。

  • ExecutionTime – 数字(整数)。

    任务运行消耗资源的时间长度(以秒为单位)。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetMLTaskRuns 操作 (Python:get_ml_task_runs)

获取机器学习转换的运行列表。机器学习任务运行是 AWS Glue 作为各种机器学习工作流程的一部分代表您运行的异步任务。您可以通过使用其父转换的 GetMLTaskRuns 和其他可选参数调用 TransformID 来获取机器学习任务运行的可排序、可筛选列表,如本节中所述。

此操作会返回历史运行的列表,并且必须对其进行分页。

Request

  • TransformId必需:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    机器学习转换的唯一标识符。

  • NextToken – UTF-8 字符串。

    用于对结果进行分页的令牌。默认值为空。

  • MaxResults – 数字(整数),不小于 1 或大于 1000。

    要返回的最大结果数量。

  • Filter – 一个 TaskRunFilterCriteria 对象。

    任务运行的筛选条件(在 TaskRunFilterCriteria 结构中)。

  • Sort – 一个 TaskRunSortCriteria 对象。

    任务运行的排序条件(在 TaskRunSortCriteria 结构中)。

Response

  • TaskRuns – 对象的数组。TaskRun

    与转换关联的任务运行的列表。

  • NextToken – UTF-8 字符串。

    分页标记 (如果有更多结果可用)。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

CancelMLTaskRun 操作 (Python: cancel_ml_task_run)

取消(停止)任务运行。机器学习任务运行是 AWS Glue 作为各种机器学习工作流程的一部分代表您运行的异步任务。您可以随时使用任务运行的父转换的 CancelMLTaskRun 和任务运行的 TransformID 调用 TaskRunId,以取消运行机器学习任务。

Request

  • TransformId必需:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    机器学习转换的唯一标识符。

  • TaskRunId必需:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    任务运行的唯一标识符。

Response

  • TransformId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    机器学习转换的唯一标识符。

  • TaskRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    任务运行的唯一标识符。

  • Status – UTF-8 字符串(有效值:STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT)。

    此运行的状态。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

StartExportLabelsTaskRun 操作 (Python:start_export_labels_task_run)

开始执行异步任务以导出特定转换的所有已标记数据。此任务是唯一不属于典型的主动学习工作流程的与标签相关的 API 调用。当您要同时处理所有现有标签时,例如,当您要删除或更改之前作为真实提交的标签时,通常会使用 StartExportLabelsTaskRun。此 API 操作接受要导出其标签的 TransformId 和要将标签导出到的 Amazon Simple Storage Service (Amazon S3) 路径。此操作将返回 TaskRunId。 您可以通过调用 GetMLTaskRun API 来检查任务运行的状态。

Request

  • TransformId必需:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    机器学习转换的唯一标识符。

  • OutputS3Path必需:UTF-8 字符串。

    导出标签的 Amazon S3 路径。

Response

  • TaskRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    任务运行的唯一标识符。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

StartImportLabelsTaskRun 操作 (Python:start_import_labels_task_run)

使您能够提供其他标签(可信示例),这些标签用于指导机器学习转换并提高其质量。此 API 操作通常用作主动学习工作流的一部分,该工作流以 StartMLLabelingSetGenerationTaskRun 调用开头,并最终改善机器学习转换的质量。

完成 StartMLLabelingSetGenerationTaskRun 后,AWS Glue 机器学习将生成一系列问题供人们回答。(在机器学习工作流中,回答这些问题通常称为“标记”)。在 FindMatches 转换的情况下,这些问题的形式是:“将这些行分组到完全由匹配记录组成的组中的正确方法是什么?” 在标记过程完成后,用户通过调用 StartImportLabelsTaskRun 来上传其答案/标签。 在 StartImportLabelsTaskRun 完成之后,机器学习转换的所有将来运行都将使用新的和改进的标签并执行更高质量的转换。

默认情况下,StartMLLabelingSetGenerationTaskRun 从 持续学习并合并您上传的所有标签,除非您将 Replace 设置为 true。如果您将 Replace 设置为 true,StartImportLabelsTaskRun 将删除和忘记所有之前上传的标签,并且仅从您上传的确切集合中学习。如果您意识到您之前上传了不正确的标签,并且您认为这些标签对您的转换质量有负面影响,则替换标签会很有用。

您可以通过调用 GetMLTaskRun 操作来检查任务运行的状态。

Request

  • TransformId必需:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    机器学习转换的唯一标识符。

  • InputS3Path必需:UTF-8 字符串。

    导入标签的 Amazon Simple Storage Service (Amazon S3) 路径。

  • ReplaceAllLabels – 布尔值。

    指示是否覆盖现有标签。

Response

  • TaskRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    任务运行的唯一标识符。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

  • InternalServiceException