AWS Glue Machine Learning API - Amazon连接词
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWS Glue Machine Learning API

Machine Learning API 描述了机器学习数据类型,并包括用于创建、删除或更新转换或启动机器学习任务运行的 API。

数据类型

TransformParameters 结构

与机器学习转换关联的特定于算法的参数。

Fields

  • TransformType:必需 UTF-8 字符串(有效值:FIND_MATCHES)。

    机器学习转换的类型。

    有关机器学习转换的类型的信息,请参阅创建机器学习转换

  • FindMatchesParameters— AFindMatchesParameters对象。

    查找匹配算法的参数。

EvaluationMetrics 结构

评估指标提供机器学习转换的质量估计。

Fields

  • TransformType:必需 UTF-8 字符串(有效值:FIND_MATCHES)。

    机器学习转换的类型。

  • FindMatchesMetrics— AFindMatchesMetrics对象。

    查找匹配算法的评估度量。

MlTable 结构

机器学习转换的结构。

Fields

  • TransformId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    为机器学习转换生成的唯一转换 ID。ID 保证是唯一的,不会改变。

  • Name – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    机器学习转换的用户定义的名称。名称不能保证唯一,可以随时更改。

  • Description – 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    机器学习转换的用户定义的长格式描述文本。描述不保证唯一,可以随时更改。

  • Status— UTF-8 字符串(有效值:NOT_READY|READY|DELETING)。

    机器学习转换的当前状态。

  • CreatedOn – 时间戳.

    时间戳。创建此机器学习转换的时间和日期。

  • LastModifiedOn – 时间戳.

    时间戳。修改此机器学习转换时的最后一个时间点。

  • InputRecordTables— 数组GlueTable对象,不超过 10 个结构。

    转换使用的 AWS Glue 表定义的列表。

  • Parameters— ATransformParameters对象。

    一个 TransformParameters 对象。您可以使用参数来调整(自定义)机器学习转换的行为,方法是指定它从哪些数据中学习,以及您对各种权衡的偏好(例如珍贵与召回,或精度与成本)。

  • EvaluationMetrics – 一个 EvaluationMetrics 对象。

    一个 EvaluationMetrics 对象。评估指标提供机器学习转换的质量估计。

  • LabelCount – 数字 (integer)。

    AWS Glue 为此转换生成的标签文件的计数标识符。在创建更好的转换时,您可以迭代方式下载、标记和上传标签文件。

  • Schema— 数组SchemaColumn对象,不超过 100 个结构。

    表示转换可运行的列和数据类型的键值对的映射。具有 100 列的上限。

  • Role – UTF-8 字符串。

    具有所需权限的 IAM 角色的名称或 Amazon 资源名称 (ARN)。所需权限包括 AWS Glue 资源的 AWS Glue 服务角色权限和转换所需的 Amazon S3 权限。

    • 此角色需要 AWS Glue 服务角色权限才能访问 AWS Glue 中的资源。请参阅将策略附加到访问 AWS Glue 的 IAM 用户

    • 此角色需要对您的 Amazon Simple Storage Service (Amazon S3) 源、目标、临时目录、脚本以及此转换的任务运行所使用的任何库的权限。

  • GlueVersion – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Custom string pattern #15 匹配。

    此值确定该机器学习转换与哪个版本的 AWS Glue 兼容。建议大多数用户使用 Glue 1.0。如果未设置此值,则 Glue 兼容性默认为 Glue 0.9。有关更多信息,请参阅《开发人员指南》中的 AWS Glue 版本

  • MaxCapacity – 数字 (double)。

    分配给此转换的任务运行的 AWS Glue 数据处理单元 (DPU) 的数量。您可以分配 2 到 100 个 DPU;默认值为 10。DPU 是对处理能力的相对度量,它由 4 个 vCPU 的计算容量和 16GB 内存组成。有关更多信息,请参阅 AWS Glue 定价页

    MaxCapacity 是具有 NumberOfWorkersWorkerType 的互斥选项。

    • 如果已设置 NumberOfWorkersWorkerType,则不能设置 MaxCapacity

    • 如果已设置 MaxCapacity,则不能设置 NumberOfWorkersWorkerType

    • 如果已设置 WorkerType,则 NumberOfWorkers 为必填项(反之亦然)。

    • MaxCapacityNumberOfWorkers 都必须至少为 1。

    在将 WorkerType 字段设置为 Standard 之外的值时,MaxCapacity 字段将自动设置并变为只读。

  • WorkerType— UTF-8 字符串(有效值:Standard=""|G.1X=""|G.2X="")。

    在此转换的任务运行时分配的预定义工作线程的类型。接受的值为 Standard、G.1X 或 G.2X。

    • 对于 Standard 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 50GB 磁盘,并且每个工作线程提供 2 个执行器。

    • 对于 G.1X 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 64GB 磁盘,并且每个工作线程提供 1 个执行器。

    • 对于 G.2X 工作线程类型,每个工作线程提供 84 个 vCPU、32 GB 内存和 128GB 磁盘,并且每个工作线程提供 1 个执行器。

    MaxCapacity 是具有 NumberOfWorkersWorkerType 的互斥选项。

    • 如果已设置 NumberOfWorkersWorkerType,则不能设置 MaxCapacity

    • 如果已设置 MaxCapacity,则不能设置 NumberOfWorkersWorkerType

    • 如果已设置 WorkerType,则 NumberOfWorkers 为必填项(反之亦然)。

    • MaxCapacityNumberOfWorkers 都必须至少为 1。

  • NumberOfWorkers – 数字 (integer)。

    在转换的任务运行时分配的已定义 workerType 的工作线程数。

    如果已设置 WorkerType,则 NumberOfWorkers 为必填项(反之亦然)。

  • Timeout - 数字(整数),至少为 1。

    机器学习转换的超时(以分钟为单位)。

  • MaxRetries – 数字 (integer)。

    在机器学习转换的 MLTaskRun 失败后重试的最大次数。

  • TransformEncryption— ATransformEncryption对象。

    应用于访问用户数据的转换的静态加密设置。机器学习转换可以访问在 Amazon S3 中使用 KMS 加密的用户数据。

FindMatchesParameters 结构

用于配置查找匹配项转换的参数。

Fields

  • PrimaryKeyColumnName— UTF-8 字符串,长度不少于 1 个字节或超过 1024 个字节,与匹配。Single-line string pattern

    唯一标识源表中的行的列名称。用于帮助标识匹配的记录。

  • PrecisionRecallTradeoff— 数字(双数),至多为 1.0。

    调整转换以在查准率与查全率之间取得平衡时选择的值。值 0.5 表示没有首选项;值 1.0 表示纯粹出于精度偏差,值 0.0 表示召回偏差。因为这是一种权衡,所以选择接近 1.0 的值意味着非常低的召回率,选择接近 0.0 的值会导致非常低的精度。

    精度指标指标指示模型在预测匹配时正确的频率。

    查全率指标表示,对于实际匹配,您的模型预测匹配的频率。

  • AccuracyCostTradeoff— 数字(双数),至多为 1.0。

    调整转换以在准确性与成本之间取得平衡时选择的值。值 0.5 表示系统平衡精度和成本问题。值为 1.0 意味着纯粹为了精度而存在偏差,这通常会导致成本更高,有时会高得多。值为 0.0 表示纯粹针对成本的偏差,这会导致FindMatches转换,有时具有不可接受的准确性。

    Accuracy (准确性) 衡量转换发现真阳性和真阴性的程度。提高准确性需要更多的机器资源和成本。但这也会导致查全率提高。

    成本衡量运行转换所消耗的计算资源(从而产生成本)的数量。

  • EnforceProvidedLabels – Boolean.

    要启用或禁用的值,以强制输出与用户提供的标签相匹配。如果值为Truefind matches变换会强制输出与提供的标签匹配。结果将覆盖法线合并结果。如果值为 False,则 find matches 转换不能确保遵循提供的所有标签,并且结果依赖于训练后的模型。

    请注意,将此值设置为 true 可能会增加合并执行时间。

FindMatchesMetrics 结构

查找匹配算法的评估度量。机器学习转换的质量是通过让变换预测一些匹配项并将结果与同一数据集中的已知匹配项进行比较来衡量的。质量指标基于数据的子集,因此它们并不精确。

Fields

  • AreaUnderPRCurve— 数字(双数),至多为 1.0。

    精度/召回曲线 (AUPRC) 下的区域是衡量变换整体质量的单个数字,这与精度与召回的选择无关。较高的值表明您具有更有吸引力的精度与查全率权衡。

    有关更多信息,请参阅 Wikipedia 中的查准率和查全率

  • Precision— 数字(双数),至多为 1.0。

    Precision 度量指标指示转换在预测匹配时正确的频率。具体而言,它衡量转换从可能的全部真阳性中找到真阳性的程度。

    有关更多信息,请参阅 Wikipedia 中的查准率和查全率

  • Recall— 数字(双数),至多为 1.0。

    调整指标表示,对于实际匹配,您的转换预测匹配的频率。具体而言,它衡量转换从源数据中的全部记录中找到真阳性的程度。

    有关更多信息,请参阅 Wikipedia 中的查准率和查全率

  • F1— 数字(双数),至多为 1.0。

    F1 的最大 F1 衡量指示转换的准确性介于 0 和 1 之间,其中 1 是最大准确性。

    有关更多信息,请参阅 Wikipedia 中的 F1 分数

  • ConfusionMatrix— AConfusionMatrix对象。

    混淆矩阵显示您的转换正在准确预测的内容以及它所产生的错误类型。

    有关更多信息,请参阅 。混淆矩阵在维基百科。

  • ColumnImportances— 数组列重要性对象,不超过 100 个结构。

    列表ColumnImportance结构,其中包含列重要性指标,按重要性降序排序。

耦 ConfusionMatrix 构

混淆矩阵显示您的转换正在准确预测的内容以及它所产生的错误类型。

有关更多信息,请参阅 。混淆矩阵在维基百科。

Fields

  • NumTruePositives – 数字 (long)。

    转换在转换的混淆矩阵中正确找到的数据中的匹配项的数量。

  • NumFalsePositives – 数字 (long)。

    转换的混淆矩阵中转换错误地分类为匹配项的数据中的不匹配项的数量。

  • NumTrueNegatives – 数字 (long)。

    转换正确拒绝的数据中的不匹配项的数据(转换的混淆矩阵)。

  • NumFalseNegatives – 数字 (long)。

    转换未找到的数据中转换在转换的混淆矩阵中的匹配项的数量。

GlueTable 结构

用于输入或输出数据的 AWS Glue 数据目录中的数据库和表。

Fields

  • DatabaseName:必需 UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与匹配。Single-line string pattern

    AWS Glue 数据目录中的数据库名称。

  • TableName:必需 UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与匹配。Single-line string pattern

    AWS Glue 数据目录中的表名称。

  • CatalogId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    AWS Glue 数据目录的唯一标识符。

  • ConnectionName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与 AWS Glue 数据目录的连接的名称。

TaskRun 结构

与机器学习转换关联的采样参数。

Fields

  • TransformId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    转换的唯一标识符。

  • TaskRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    此任务的唯一标识符。

  • Status— UTF-8 字符串(有效值:STARTING|RUNNING|STOPPING|STOPPED|SUCCEEDED|FAILED|TIMEOUT)。

    请求的任务运行的当前状态。

  • LogGroupName – UTF-8 字符串。

    用于进行安全日志记录的名称与运行。

  • Properties— ATaskRunProperties对象。

    指定与此任务运行关联的配置属性。

  • ErrorString – UTF-8 字符串。

    与此任务关联的错误字符串列表将运行。

  • StartedOn – 时间戳.

    此任务运行的开始日期和时间。

  • LastModifiedOn – 时间戳.

    更新请求的任务运行的最后一个时间点。

  • CompletedOn – 时间戳.

    完成请求的任务运行的最后一个时间点。

  • ExecutionTime – 数字 (integer)。

    运行任务使用资源的时间长度 (以秒为单位)。

TTransformFilterCriteria 构

用于过滤机器学习的条件转换。

Fields

  • Name – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    用于过滤机器学习变换的唯一转换名称。

  • TransformType – UTF-8 字符串(有效值:FIND_MATCHES)。

    用于筛选机器学习转换的类型。

  • Status— UTF-8 字符串(有效值:NOT_READY|READY|DELETING)。

    按转换的最后一个已知状态过滤机器学习变换列表(以指示是否可以使用转换)。“NOT_READY”、“READY”或“DELETING”之一。

  • GlueVersion – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Custom string pattern #15 匹配。

    此值确定该机器学习转换与哪个版本的 AWS Glue 兼容。建议大多数用户使用 Glue 1.0。如果未设置此值,则 Glue 兼容性默认为 Glue 0.9。有关更多信息,请参阅《开发人员指南》中的 AWS Glue 版本

  • CreatedBefore – 时间戳.

    创建转换的时间和日期。

  • CreatedAfter – 时间戳.

    创建转换的时间和日期。

  • LastModifiedBefore – 时间戳.

    筛选在此日期之前最后修改的转换。

  • LastModifiedAfter – 时间戳.

    过滤在此日期之后最后修改的转换。

  • Schema— 数组SchemaColumn对象,不超过 100 个结构。

    筛选具有特定方案的数据集。这些区域有:Map<Column, Type>对象是一个键值对数组,表示此转换接受的模式,其中Column是列的名称,Type是数据的类型,如整数或字符串。具有 100 列的上限。

TransformSortCriteria 构

与机器学习转换关联的排序标准。

Fields

  • Column:必需 UTF-8 字符串(有效值:NAME|TRANSFORM_TYPE|STATUS|CREATED|LAST_MODIFIED)。

    与机器学习转换关联的排序条件中要使用的列。

  • SortDirection:必需 UTF-8 字符串(有效值:DESCENDING|ASCENDING)。

    与机器学习转换关联的排序条件中要使用的排序方向。

TaskRunFilterCriteria 结构

用于筛选任务的条件运行机器学习转换。

Fields

  • TaskRunType— UTF-8 字符串(有效值:EVALUATION|LABELING_SET_GENERATION|IMPORT_LABELS|EXPORT_LABELS|FIND_MATCHES)。

    任务运行的类型。

  • Status— UTF-8 字符串(有效值:STARTING|RUNNING|STOPPING|STOPPED|SUCCEEDED|FAILED|TIMEOUT)。

    任务运行的当前状态。

  • StartedBefore – 时间戳.

    筛选在此日期之前开始的任务运行。

  • StartedAfter – 时间戳.

    在此日期之后启动的任务运行时进行筛选。

TaskRunSortCriteria 结构

用于对机器学习转换的任务列表进行排序的排序条件。

Fields

  • Column:必需 UTF-8 字符串(有效值:TASK_RUN_TYPE|STATUS|STARTED)。

    用于对机器学习转换的任务运行列表进行排序的列。

  • SortDirection:必需 UTF-8 字符串(有效值:DESCENDING|ASCENDING)。

    用于对机器学习转换的任务运行列表进行排序的排序方向。

TaskRunProperties 结构

运行任务的配置属性。

Fields

  • TaskType— UTF-8 字符串(有效值:EVALUATION|LABELING_SET_GENERATION|IMPORT_LABELS|EXPORT_LABELS|FIND_MATCHES)。

    任务运行的类型。

  • ImportLabelsTaskRunProperties – 一个 ImportLabelsTaskRunProperties 对象。

    将运行导入标签任务的配置属性。

  • ExportLabelsTaskRunProperties – 一个 ExportLabelsTaskRunProperties 对象。

    将运行导出标签任务的配置属性。

  • LabelingSetGenerationTaskRunProperties— ALabelingSetGenerationTaskRunProperties对象。

    运行标签集生成任务的配置属性。

  • FindMatchesTaskRunProperties— AFindMatchesTaskRunProperties对象。

    对于查找匹配任务运行的配置属性.

FindMatchesTaskRunProperties 结构

指定 “查找匹配项” 任务运行的配置属性。

Fields

  • JobId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    运行 “查找匹配项” 任务的作业 ID。

  • JobName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    分配给作业的名称,以进行查找匹配项任务。

  • JobRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    “查找匹配项” 任务运行的作业运行 ID。

ImportLabelsTaskRunProperties 结构

指定导入标签任务运行的配置属性。

Fields

  • InputS3Path – UTF-8 字符串。

    您将从中导入标签的 Amazon Simple Storage Service (Amazon S3) 路径。

  • Replace – Boolean.

    指示是否覆盖现有标签。

ExportLabelsTaskRunProperties 结构

指定导出标签任务运行的配置属性。

Fields

  • OutputS3Path – UTF-8 字符串。

    您将在其中导出标签的 Amazon Simple Storage Service (Amazon S3) 路径。

LabelingSetGenerationTaskRunProperties 结构

指定标签集生成任务运行的配置属性。

Fields

  • OutputS3Path – UTF-8 字符串。

    您将在其中生成标签集的 Amazon Simple Storage Service (Amazon S3) 路径。

SchemaColumn 结构

表示此转换可针对的列和数据类型的键值对。这些区域有:Schema参数MLTransform可能包含多达 100 这些结构。

Fields

  • Name— UTF-8 字符串,长度不少于 1 个字节或超过 1024 个字节,与匹配。Single-line string pattern

    列的名称。

  • DataType – UTF-8 字符串,不超过 131072 个字节,与 Single-line string pattern 匹配。

    列中的数据的类型。

TransformEncryption 结构

应用于访问用户数据的转换的静态加密设置。机器学习转换可以访问在 Amazon S3 中使用 KMS 加密的用户数据。

此外,导入的标签和经过训练的转换现在可以使用客户提供的 KMS 密钥进行加密。

Fields

  • MlUserDataEncryption— AMLUserDataEncryption对象。

    包含加密模式和客户提供的 KMS 密钥 ID 的 MLUserDataEncryption 对象。

  • TaskRunSecurityConfigurationName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    安全配置的名称。

MLUserDataEncryption 结构

应用于访问用户数据的转换的静态加密设置。

Fields

  • MlUserDataEncryptionMode:必需 UTF-8 字符串(有效值:DISABLED|SSE-KMS="SSEKMS")。

    应用于用户数据的加密模式。有效值为:

    • DISABLED:加密已禁用

    • SSEKMS:将服务器端使用 AWS Key Management Service (SSE-KMS) 进行的加密用于存储在 Amazon S3 中的用户数据。

  • KmsKeyId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    客户提供的 KMS 密钥的 ID。

列重要性结构

包含列名称和列重要性分数的结构。

列重要性通过识别记录中的哪些列比其他列更重要,可帮助您了解列对模型的贡献。

Fields

  • ColumnName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    列的名称。

  • Importance— 数字(双数),至多为 1.0。

    列的列重要性分数(以小数形式)。

Operations

CreateMLTransform 操作 (Python: create_ml_转换)

创建 AWS Glue 机器学习转换。此操作将创建转换以及训练它所需的所有参数。

调用此操作作为使用机器学习转换过程中的第一步(例如FindMatches转换)来消除重复数据。您可以提供一个可选的Description,以及要用于算法的参数。

您还必须为 AWS Glue 代表您运行的任务指定某些参数,作为从数据中学习和创建高质量的机器学习转换的一部分。这些参数包括:Role,并且可以选择AllocatedCapacityTimeout, 和MaxRetries。有关更多信息,请参阅作业

Request

  • Name:必需 UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与匹配。Single-line string pattern

    在创建转换时为其授予的唯一名称。

  • Description – 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    正在定义的机器学习转换的描述。默认值是空字符串。

  • InputRecordTables:必需 数组GlueTable对象,不超过 10 个结构。

    转换使用的 AWS Glue 表定义的列表。

  • Parameters:必需 一个 TransformParameters 对象。

    特定于使用转换类型的算法参数。有条件地依赖于转换类型。

  • Role:必需 UTF-8 字符串。

    具有所需权限的 IAM 角色的名称或 Amazon 资源名称 (ARN)。所需权限包括 AWS Glue 资源的 AWS Glue 服务角色权限和转换所需的 Amazon S3 权限。

    • 此角色需要 AWS Glue 服务角色权限才能访问 AWS Glue 中的资源。请参阅将策略附加到访问 AWS Glue 的 IAM 用户

    • 此角色需要对您的 Amazon Simple Storage Service (Amazon S3) 源、目标、临时目录、脚本以及此转换的任务运行所使用的任何库的权限。

  • GlueVersion – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Custom string pattern #15 匹配。

    此值确定该机器学习转换与哪个版本的 AWS Glue 兼容。建议大多数用户使用 Glue 1.0。如果未设置此值,则 Glue 兼容性默认为 Glue 0.9。有关更多信息,请参阅《开发人员指南》中的 AWS Glue 版本

  • MaxCapacity – 数字 (double)。

    分配给此转换的任务运行的 AWS Glue 数据处理单元 (DPU) 的数量。您可以分配 2 到 100 个 DPU;默认值为 10。DPU 是对处理能力的相对度量,它由 4 个 vCPU 的计算容量和 16GB 内存组成。有关更多信息,请参阅 AWS Glue 定价页

    MaxCapacity 是具有 NumberOfWorkersWorkerType 的互斥选项。

    • 如果已设置 NumberOfWorkersWorkerType,则不能设置 MaxCapacity

    • 如果已设置 MaxCapacity,则不能设置 NumberOfWorkersWorkerType

    • 如果已设置 WorkerType,则 NumberOfWorkers 为必填项(反之亦然)。

    • MaxCapacityNumberOfWorkers 都必须至少为 1。

    在将 WorkerType 字段设置为 Standard 之外的值时,MaxCapacity 字段将自动设置并变为只读。

    在将 WorkerType 字段设置为 Standard 之外的值时,MaxCapacity 字段将自动设置并变为只读。

  • WorkerType— UTF-8 字符串(有效值:Standard=""|G.1X=""|G.2X="")。

    在此任务运行时分配的预定义工作线程的类型。接受的值为 Standard、G.1X 或 G.2X。

    • 对于 Standard 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 50GB 磁盘,并且每个工作线程提供 2 个执行器。

    • 对于 G.1X 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 64GB 磁盘,并且每个工作线程提供 1 个执行器。

    • 对于 G.2X 工作线程类型,每个工作线程提供 84 个 vCPU、32 GB 内存和 128GB 磁盘,并且每个工作线程提供 1 个执行器。

    MaxCapacity 是具有 NumberOfWorkersWorkerType 的互斥选项。

    • 如果已设置 NumberOfWorkersWorkerType,则不能设置 MaxCapacity

    • 如果已设置 MaxCapacity,则不能设置 NumberOfWorkersWorkerType

    • 如果已设置 WorkerType,则 NumberOfWorkers 为必填项(反之亦然)。

    • MaxCapacityNumberOfWorkers 都必须至少为 1。

  • NumberOfWorkers – 数字 (integer)。

    已定义的工作人员数。workerType在此任务运行时分配的。

    如果已设置 WorkerType,则 NumberOfWorkers 为必填项(反之亦然)。

  • Timeout - 数字(整数),至少为 1。

    此转换的任务运行超时(以分钟为单位)。这是针对此转换的任务运行在终止并进入TIMEOUT状态。默认值为 2880 分钟 (48 小时)。

  • MaxRetries – 数字 (integer)。

    在任务运行失败后重试此转换的最大次数。

  • Tags— 键值对的映射数组,不超过 50 对。

    每个键都是一个 UTF-8 字符串,长度不少于 1 个字节或超过 128 个字节。

    每个值是一个 UTF-8 字符串,不超过 256 个字节。

    用于此机器学习转换的标签。您可以使用标签来限制对机器学习转换的访问权限。有关 AWS Glue 中的标签的更多信息,请参阅开发人员指南中的 AWS Glue 中的 AWS 标签

  • TransformEncryption— ATransformEncryption对象。

    应用于访问用户数据的转换的静态加密设置。机器学习转换可以访问在 Amazon S3 中使用 KMS 加密的用户数据。

Response

  • TransformId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    为转换生成的唯一标识符。

Errors

  • AlreadyExistsException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • AccessDeniedException

  • ResourceNumberLimitExceededException

  • IdempotentParameterMismatchException

UpdateMLTransform 操作 (Python: update_ml_转换)

更新现有的机器学习转换。调用此操作可调整算法参数以获得更好的结果。

调用此操作后,您可以调用StartMLEvaluationTaskRun操作来评估新参数实现目标的程度(例如提高机器学习转换的质量,或使其更具成本效益)。

Request

  • TransformId:必需 UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与匹配。Single-line string pattern

    创建转换时生成的唯一标识符。

  • Name – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    在创建转换时为其授予的唯一名称。

  • Description – 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    描述转换的描述。默认值是空字符串。

  • Parameters— ATransformParameters对象。

    特定于所使用的转换类型(算法)的配置参数。有条件地依赖于转换类型。

  • Role – UTF-8 字符串。

    具有所需权限的 IAM 角色的名称或 Amazon 资源名称 (ARN)。

  • GlueVersion – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Custom string pattern #15 匹配。

    此值确定该机器学习转换与哪个版本的 AWS Glue 兼容。建议大多数用户使用 Glue 1.0。如果未设置此值,则 Glue 兼容性默认为 Glue 0.9。有关更多信息,请参阅《开发人员指南》中的 AWS Glue 版本

  • MaxCapacity – 数字 (double)。

    分配给此转换的任务运行的 AWS Glue 数据处理单元 (DPU) 的数量。您可以分配 2 到 100 个 DPU;默认值为 10。DPU 是对处理能力的相对度量,它由 4 个 vCPU 的计算容量和 16GB 内存组成。有关更多信息,请参阅 AWS Glue 定价页

    在将 WorkerType 字段设置为 Standard 之外的值时,MaxCapacity 字段将自动设置并变为只读。

  • WorkerType— UTF-8 字符串(有效值:Standard=""|G.1X=""|G.2X="")。

    在此任务运行时分配的预定义工作线程的类型。接受的值为 Standard、G.1X 或 G.2X。

    • 对于 Standard 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 50GB 磁盘,并且每个工作线程提供 2 个执行器。

    • 对于 G.1X 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 64GB 磁盘,并且每个工作线程提供 1 个执行器。

    • 对于 G.2X 工作线程类型,每个工作线程提供 84 个 vCPU、32 GB 内存和 128GB 磁盘,并且每个工作线程提供 1 个执行器。

  • NumberOfWorkers – 数字 (integer)。

    已定义的工作人员数。workerType在此任务运行时分配的。

  • Timeout - 数字(整数),至少为 1。

    此转换的任务运行超时(以分钟为单位)。这是针对此转换的任务运行在终止并进入TIMEOUT状态。默认值为 2880 分钟 (48 小时)。

  • MaxRetries – 数字 (integer)。

    在任务运行失败后重试此转换的最大次数。

Response

  • TransformId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    已更新转换的唯一标识符。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • AccessDeniedException

DeleteMLTransform TransCrete_ml_转换 (Python: delete_ml_转换)

删除 AWS Glue 机器学习转换。机器学习转换是一种特殊类型的转换,它使用机器学习来了解转换的细节,通过从人类提供的示例中学习。然后,AWS Glue 将保存这些转换。如果您不再需要转换,可以通过调用DeleteMLTransforms。但是,仍然引用已删除转换的任何 AWS Glue 作业将不再成功。

Request

  • TransformId:必需 UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与匹配。Single-line string pattern

    要删除的转换的唯一标识符。

Response

  • TransformId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    已删除转换的唯一标识符。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetMLTransform atch 操作 (Python: get_ml_转换)

获取 AWS Glue 机器学习转换工件及其所有相应元数据。机器学习转换是一种特殊类型的转换,它使用机器学习来了解转换的细节,通过从人类提供的示例中学习。然后,AWS Glue 将保存这些转换。您可以通过调用GetMLTransform

Request

  • TransformId:必需 UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与匹配。Single-line string pattern

    转换的唯一标识符,在创建转换时生成。

Response

  • TransformId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    转换的唯一标识符,在创建转换时生成。

  • Name – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    创建转换时为其授予的唯一名称。

  • Description – 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    描述转换的描述。

  • Status— UTF-8 字符串(有效值:NOT_READY|READY|DELETING)。

    转换的最后一个已知状态(指示是否可以使用)。“NOT_READY”、“READY”或“DELETING”之一。

  • CreatedOn – 时间戳.

    转换的创建日期和时间。

  • LastModifiedOn – 时间戳.

    转换的最后修改日期和时间。

  • InputRecordTables— 数组GlueTable对象,不超过 10 个结构。

    转换使用的 AWS Glue 表定义的列表。

  • Parameters— ATransformParameters对象。

    特定于所使用算法的配置参数。

  • EvaluationMetrics – 一个 EvaluationMetrics 对象。

    最新的评估指标。

  • LabelCount – 数字 (integer)。

    此转换的可用标签的数目。

  • Schema— 数组SchemaColumn对象,不超过 100 个结构。

    这些区域有:Map<Column, Type>对象,该对象表示此转换接受的模式。具有 100 列的上限。

  • Role – UTF-8 字符串。

    具有所需权限的 IAM 角色的名称或 Amazon 资源名称 (ARN)。

  • GlueVersion – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Custom string pattern #15 匹配。

    此值确定该机器学习转换与哪个版本的 AWS Glue 兼容。建议大多数用户使用 Glue 1.0。如果未设置此值,则 Glue 兼容性默认为 Glue 0.9。有关更多信息,请参阅《开发人员指南》中的 AWS Glue 版本

  • MaxCapacity – 数字 (double)。

    分配给此转换的任务运行的 AWS Glue 数据处理单元 (DPU) 的数量。您可以分配 2 到 100 个 DPU;默认值为 10。DPU 是对处理能力的相对度量,它由 4 个 vCPU 的计算容量和 16GB 内存组成。有关更多信息,请参阅 AWS Glue 定价页

    在将 WorkerType 字段设置为 Standard 之外的值时,MaxCapacity 字段将自动设置并变为只读。

  • WorkerType— UTF-8 字符串(有效值:Standard=""|G.1X=""|G.2X="")。

    在此任务运行时分配的预定义工作线程的类型。接受的值为 Standard、G.1X 或 G.2X。

    • 对于 Standard 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 50GB 磁盘,并且每个工作线程提供 2 个执行器。

    • 对于 G.1X 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 64GB 磁盘,并且每个工作线程提供 1 个执行器。

    • 对于 G.2X 工作线程类型,每个工作线程提供 84 个 vCPU、32 GB 内存和 128GB 磁盘,并且每个工作线程提供 1 个执行器。

  • NumberOfWorkers – 数字 (integer)。

    已定义的工作人员数。workerType在此任务运行时分配的。

  • Timeout - 数字(整数),至少为 1。

    此转换的任务运行超时(以分钟为单位)。这是针对此转换的任务运行在终止并进入TIMEOUT状态。默认值为 2880 分钟 (48 小时)。

  • MaxRetries – 数字 (integer)。

    在任务运行失败后重试此转换的最大次数。

  • TransformEncryption— ATransformEncryption对象。

    应用于访问用户数据的转换的静态加密设置。机器学习转换可以访问在 Amazon S3 中使用 KMS 加密的用户数据。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetMLTransforms 操作(Python:get_ml_转换)

获取现有 AWS Glue 机器学习转换的可排序、可筛选列表。机器学习转换是一种特殊类型的转换,它使用机器学习来了解转换的细节,通过从人类提供的示例中学习。这些转换随后由 AWS Glue 保存,您可以通过调用GetMLTransforms

Request

  • NextToken – UTF-8 字符串。

    用于偏移结果的分页令牌。

  • MaxResults – 数字(整数),不小于 1 或大于 1000。

    要返回的最大结果数量。

  • Filter— ATransformFilterCriteria对象。

    筛选器转换条件。

  • Sort— ATransformSortCriteria对象。

    排序标准。

Response

  • Transforms:必需 毫升转换 对象数组。

    机器学习转换的列表。

  • NextToken – UTF-8 字符串。

    分页令牌(如果有更多结果可用)。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

ListMLTransforms 操作 (Python: list_ml_转换)

检索此 AWS 账户中的现有 AWS Glue 机器学习转换的可排序的可筛选的列表或带指定标签的资源。此操作接受可选的Tags字段,您可以将其用作响应的筛选器,以便将标记的资源作为一个组进行检索。如果您选择使用标签筛选,则仅检索带标签的资源。

Request

  • NextToken – UTF-8 字符串。

    延续令牌 (如果这是延续请求)。

  • MaxResults – 数字(整数),不小于 1 或大于 1000。

    要返回的列表的最大大小。

  • Filter— ATransformFilterCriteria对象。

    ATransformFilterCriteria用于筛选机器学习转换的。

  • Sort— ATransformSortCriteria对象。

    ATransformSortCriteria用于对机器学习转换进行排序。

  • Tags— 键值对的映射数组,不超过 50 对。

    每个键都是一个 UTF-8 字符串,长度不少于 1 个字节或超过 128 个字节。

    每个值是一个 UTF-8 字符串,不超过 256 个字节。

    指定仅返回这些已标记的资源。

Response

  • TransformIds:必需 UTF-8 字符串数组。

    所有机器学习的标识符都在帐户中进行转换,或者机器学习将使用指定的标签进行转换。

  • NextToken – UTF-8 字符串。

    延续令牌 (如果返回的列表不包含上一个可用的指标)。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

StartMLEvaluationTaskRun 操作 (Python:start_ml_评估 _任务_run)

启动任务来估计转换的质量。

当您提供标签集作为真实示例时,AWS Glue 机器学习会使用其中一些示例来学习它们。其余的标签用作检验来估计质量。

返回运行的唯一标识符。您可以调用GetMLTaskRun获取有关EvaluationTaskRun

Request

  • TransformId:必需 UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与匹配。Single-line string pattern

    机器学习转换的唯一标识符。

Response

  • TaskRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与此运行关联的唯一标识符。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • ConcurrentRunsExceededException

  • MLTransformNotReadyException

StartMLLabelingSetGenerationTaskRun 操作(Python:启动 _ 毫升 _ 标签 _ 集 _ 生成 _ 任务 _ 运行)

启动机器学习转换的主动学习工作流,通过生成标签集和添加标签来提高转换的质量。

如果StartMLLabelingSetGenerationTaskRun完成后,AWS Glue 将生成一个 “标签集” 或一组供人类回答的问题。

如果是FindMatches转换,这些问题的形式是 “将这些行组合到完全由匹配记录组成的组中的正确方法是什么?”

贴标过程完成后,您可以通过调用StartImportLabelsTaskRun。晚于StartImportLabelsTaskRun完成后,机器学习转换的所有未来运行都将使用新的和改进的标签,并执行更高质量的转换。

Request

  • TransformId:必需 UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与匹配。Single-line string pattern

    机器学习转换的唯一标识符。

  • OutputS3Path:必需 UTF-8 字符串。

    您在其中生成标签集的 Amazon Simple Storage Service (Amazon S3) 路径。

Response

  • TaskRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与此任务运行关联的唯一运行标识符。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • ConcurrentRunsExceededException

GetMLTaskRun 操作(Python:get_ml_task_run)

获取在机器学习转换上运行的特定任务的详细信息。机器学习任务运行是 AWS Glue 代表您运行的异步任务,作为各种机器学习工作流的一部分。您可以通过调用GetMLTaskRunTaskRunID及其父变换的TransformID

Request

  • TransformId:必需 UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与匹配。Single-line string pattern

    机器学习转换的唯一标识符。

  • TaskRunId:必需 UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与匹配。Single-line string pattern

    任务运行的唯一标识符。

Response

  • TransformId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    任务运行的唯一标识符。

  • TaskRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与此运行关联的唯一运行标识符。

  • Status— UTF-8 字符串(有效值:STARTING|RUNNING|STOPPING|STOPPED|SUCCEEDED|FAILED|TIMEOUT)。

    此任务的运行状态。

  • LogGroupName – UTF-8 字符串。

    与运行任务关联的日志组的名称。

  • Properties— ATaskRunProperties对象。

    与任务运行关联的属性列表。

  • ErrorString – UTF-8 字符串。

    与任务运行关联的错误字符串。

  • StartedOn – 时间戳.

    启动此任务运行的日期和时间。

  • LastModifiedOn – 时间戳.

    上次修改此任务运行的日期和时间。

  • CompletedOn – 时间戳.

    完成此任务运行的日期和时间。

  • ExecutionTime – 数字 (integer)。

    运行任务使用资源的时间长度 (以秒为单位)。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetMLTask GetMLTaskRuns 操作(Python:get_ml_task_run)

获取机器学习转换的运行列表。机器学习任务运行是 AWS Glue 代表您运行的异步任务,作为各种机器学习工作流的一部分。您可以通过调用GetMLTaskRuns与其父变换的TransformID和本节中介绍的其他可选参数。

此操作返回历史运行列表,必须进行分页。

Request

  • TransformId:必需 UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与匹配。Single-line string pattern

    机器学习转换的唯一标识符。

  • NextToken – UTF-8 字符串。

    用于对结果进行分页的令牌。默认值为空。

  • MaxResults – 数字(整数),不小于 1 或大于 1000。

    要返回的最大结果数量。

  • Filter— ATaskRunFilterCriteria对象。

    筛选条件,位于TaskRunFilterCriteria结构,用于任务运行。

  • Sort— ATaskRunSortCriteria对象。

    排序条件,位于TaskRunSortCriteria结构,用于任务运行。

Response

  • TaskRunsTaskRun 对象的数组。

    与转换关联的任务运行列表。

  • NextToken – UTF-8 字符串。

    分页令牌(如果有更多结果可用)。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

CancelMLTaskRun 操作(Python:取消任务运行)

取消(停止)任务运行。机器学习任务运行是 AWS Glue 代表您运行的异步任务,作为各种机器学习工作流的一部分。您可以随时取消机器学习任务运行,方法是调用CancelMLTaskRun与任务运行的父变换的TransformID和任务运行的TaskRunId

Request

  • TransformId:必需 UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与匹配。Single-line string pattern

    机器学习转换的唯一标识符。

  • TaskRunId:必需 UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与匹配。Single-line string pattern

    任务运行的唯一标识符。

Response

  • TransformId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    机器学习转换的唯一标识符。

  • TaskRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    任务运行的唯一标识符。

  • Status— UTF-8 字符串(有效值:STARTING|RUNNING|STOPPING|STOPPED|SUCCEEDED|FAILED|TIMEOUT)。

    此运行的状态。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

StartExportLabelsTaskRun 操作 (Python:start_出口_label_task_run)

开始异步任务以导出特定转换的所有标记数据。此任务是唯一不属于典型主动学习工作流的标签相关 API 调用。您通常使用StartExportLabelsTaskRun当您希望同时处理所有现有标签时,例如,当您想要删除或更改以前作为真实提交的标签时。此 API 操作接受TransformId您希望导出的标签以及将标签导出到的 Amazon Simple Storage Service (Amazon S3) 路径。此操作会返回TaskRunId。您可以通过调用GetMLTaskRunAPI。

Request

  • TransformId:必需 UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与匹配。Single-line string pattern

    机器学习转换的唯一标识符。

  • OutputS3Path:必需 UTF-8 字符串。

    用于导出标签的 Amazon S3 路径。

Response

  • TaskRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    任务运行的唯一标识符。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

StartImportLabelsTaskRun 操作 (Python:start_导入_label_run)

使您能够提供其他标签(真相示例),用于教授机器学习转换并提高其质量。此 API 操作通常用作主动学习工作流程的一部分,该工作流程从StartMLLabelingSetGenerationTaskRun调用,最终导致机器学习转换的质量提高。

StartMLLabelingSetGenerationTaskRun完成后,AWS Glue 机器学习将产生一系列问题供人类回答。(回答这些问题通常称为机器学习工作流程中的 “标签”)。如果是FindMatches转换,这些问题的形式是 “将这些行组合到完全由匹配记录组成的组中的正确方法是什么?” 标签过程完成后,用户会上传他们的答案/标签,并呼叫StartImportLabelsTaskRun。晚于StartImportLabelsTaskRun完成后,机器学习转换的所有未来运行都会使用新的和改进的标签,并执行更高质量的转换。

默认情况下,StartMLLabelingSetGenerationTaskRun不断从您上传的所有标签中学习和合并,除非您设置Replace设置为 true。如果您设置Replace如果是 true,则StartImportLabelsTaskRun删除和忘记所有之前上传的标签,并仅从您上传的确切标签集中获取信息。如果您意识到以前上传了不正确的标注,并且您认为它们对转换质量产生负面影响,则替换标注会很有帮助。

您可以通过调用GetMLTaskRunoperation.

Request

  • TransformId:必需 UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与匹配。Single-line string pattern

    机器学习转换的唯一标识符。

  • InputS3Path:必需 UTF-8 字符串。

    您从中导入标签的 Amazon Simple Storage Service (Amazon S3) 路径。

  • ReplaceAllLabels – Boolean.

    指示是否覆盖现有标签。

Response

  • TaskRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    任务运行的唯一标识符。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

  • InternalServiceException