灰泥学习API - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

灰泥学习API

学习API描述了学习数据类型,包括用于创建、删除或更新转换或启动学习任务运行的API。

数据类型

TransformParameters结构

与机器学习转换关联的特定于算法的参数。

Fields

  • TransformType必填: UTF-8串(有效值: FIND_MATCHES)。

    学习的类型会改变。

    有关机器学习转换的类型的信息,请参阅创建机器学习转换

  • FindMatchesParameters – 一个 :FindMatchesParameters 对象。

    查找匹配算法的参数。

评价指标结构

评估指标可以估算您从机器开始的转换质量。

Fields

  • TransformType必填: UTF-8串(有效值: FIND_MATCHES)。

    学习的类型会改变。

  • FindMatchesMetrics – 一个 查找匹配指标 对象。

    查找的评价指标匹配算法。

ML转化结构

学习结构转变。

Fields

  • TransformId – UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    为学习转换生成的唯一转换ID。保证ID是唯一的,且不会更改。

  • Name – UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    机器学习转换的用户定义的名称。名称不能保证唯一,可以随时更改。

  • Description – 描述串,长度不超过2048帧,与 URI address multi-line string pattern.

    机器学习转换的用户定义的长格式描述文本。描述不能保证是唯一的,可以随时更改。

  • Status – UTF-8串(有效值: NOT_READY | READY | DELETING)。

    机器学习的当前状态会改变。

  • CreatedOn – 时间戳。

    时间戳。创建此学习转换的时间和日期。

  • LastModifiedOn – 时间戳。

    时间戳。修改此学习转换的最后一个时间点。

  • InputRecordTables – 一系列 GlueTable(格力表) 对象,不超过10个结构。

    转换使用的 AWS Glue 表定义的列表。

  • Parameters – 一个 :TransformParameters 对象。

    一个 TransformParameters 对象。您可以使用参数来调整(自定义)学习转换的行为,具体说明它从中学到什么数据,以及您对各种权衡的偏好(例如,珍贵与回忆,或准确性与成本)。

  • EvaluationMetrics – 安 评价指标 对象。

    一个 EvaluationMetrics 对象。评估指标可以估算您从机器开始的转换质量。

  • LabelCount – 编号(整数)。

    为此次转换由ASHGlue生成的标签文件的计数标识符。创建更好的转换后,您可以迭代地下载、标记和上传标签文件。

  • Schema – 一系列 方案列 对象,不超过100个结构。

    代表列和数据类型的键值对图,此转换可根据运行。有100列的上限。

  • Role – UTF-8串。

    具有所需权限的 IAM 角色的名称或 Amazon 资源名称 (ARN)。所需的权限包括对ASHGlue资源的ASHGlue服务角色权限,以及转换所需的adminorS3权限。

    • 此角色需要有允许访问AWGSGlue资源的AWGue服务角色权限。见 将政策附加至访问AWGree的IAM用户.

    • 此角色需要对您的 Amazon Simple Storage Service (Amazon S3) 源、目标、临时目录、脚本以及此转换的任务运行所使用的任何库的权限。

  • GlueVersion – UTF-8串,长度不小于1或超过255帧,与 Custom string pattern #13.

    此值确定该机器学习转换与哪个版本的 AWS Glue 兼容。建议大多数用户使用 Glue 1.0。如果未设置此值,则 Glue 兼容性默认为 Glue 0.9。有关更多信息,请参阅《开发人员指南》中的 AWS Glue 版本

  • MaxCapacity – 数量(双)。

    分配给此转换的任务运行的 AWS Glue 数据处理单元 (DPU) 的数量。您可以分配 2 到 100 个 DPU;默认值为 10。DPU 是对处理能力的相对度量,它由 4 个 vCPU 的计算容量和 16GB 内存组成。有关更多信息,请参阅 AWS Glue 定价页

    MaxCapacity 是相互排斥的选择, NumberOfWorkersWorkerType.

    • 如果 NumberOfWorkersWorkerType 设定,然后 MaxCapacity 无法设置。

    • 如果 MaxCapacity 则都不是 NumberOfWorkersWorkerType 可以设置为。

    • 如果已设置 WorkerType,则 NumberOfWorkers 为必填项(反之亦然)。

    • MaxCapacityNumberOfWorkers 都必须至少为 1。

    在将 WorkerType 字段设置为 Standard 之外的值时,MaxCapacity 字段将自动设置并变为只读。

  • WorkerType – UTF-8串(有效值: Standard="" | G.1X="" | G.2X="")。

    在此转换的任务运行时分配的预定义工作线程的类型。接受的值为 Standard、G.1X 或 G.2X。

    • 对于 Standard 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 50GB 磁盘,并且每个工作线程提供 2 个执行器。

    • 对于 G.1X 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 64 GB 磁盘,并且每个工作线程提供 1 个执行器。

    • 对于 G.2X 工作线程类型,每个工作线程提供 8 个 vCPU、32 GB 内存和 128 GB 磁盘,并且每个工作线程提供 1 个执行器。

    MaxCapacity 是相互排斥的选择, NumberOfWorkersWorkerType.

    • 如果 NumberOfWorkersWorkerType 设定,然后 MaxCapacity 无法设置。

    • 如果 MaxCapacity 则都不是 NumberOfWorkersWorkerType 可以设置为。

    • 如果已设置 WorkerType,则 NumberOfWorkers 为必填项(反之亦然)。

    • MaxCapacityNumberOfWorkers 都必须至少为 1。

  • NumberOfWorkers – 编号(整数)。

    在转换的任务运行时分配的已定义 workerType 的工作线程数。

    如果已设置 WorkerType,则 NumberOfWorkers 为必填项(反之亦然)。

  • Timeout – 编号(整数),至少1个。

    机器学习转换的超时(以分钟为单位)。

  • MaxRetries – 编号(整数)。

    在机器学习转换的 MLTaskRun 失败后重试的最大次数。

FindMatches参数结构

用于配置查找匹配项转换的参数。

Fields

  • PrimaryKeyColumnName – UTF-8串,长度不小于1或超过1024个,与 Single-line string pattern.

    唯一标识源表中的行的列名称。用于帮助标识匹配的记录。

  • PrecisionRecallTradeoff – 数量(双),不超过1.0。

    调整转换以在查准率与查全率之间取得平衡时选择的值。0.5表示无偏好;1.0表示纯粹精度偏倚,0.0表示回忆偏倚。因为这是取舍,选择接近1.0的值意味着极低的回忆率,而选择接近0.0的值会导致极高的精度。

    精度度量表示模型预测匹配时的正确频率。

    查全率指标表示,对于实际匹配,您的模型预测匹配的频率。

  • AccuracyCostTradeoff – 数量(双),不超过1.0。

    调整转换以在准确性与成本之间取得平衡时选择的值。值为0.5意味着系统可以平衡准确性和成本问题。1.0的值意味着纯粹为了准确而存在偏差,这通常会导致更高的成本,有时甚至会大幅升高。值为0.0意味着纯粹因成本产生偏差,导致不准确 FindMatches 转变,有时准确度不可接受。

    Accuracy (准确性) 衡量转换发现真阳性和真阴性的程度。提高准确性需要更多的机器资源和成本。但这也会导致查全率提高。

    成本衡量运行转换所消耗的计算资源(从而产生成本)的数量。

  • EnforceProvidedLabels – 布尔值

    要启用或禁用的值,以强制输出与用户提供的标签相匹配。如果值为 True, find matches 转换将强制输出与提供的标签匹配。结果会覆盖正常混淆结果。如果值为 False,则 find matches 转换不能确保遵循提供的所有标签,并且结果依赖于训练后的模型。

    请注意,将此值设置为 true 可能会增加合并执行时间。

FindMatchesMetrics结构

查找的评价指标匹配算法。通过获取您的转换来预测某些匹配,并将结果与同一数据集的已知匹配进行比较,来衡量您学习转换的质量。质量指标基于数据的子集,因此不精确。

Fields

  • AreaUnderPRCurve – 数量(双),不超过1.0。

    精度/回忆曲线下面积(AUPRC)是测量转换总体质量的一个数字,与精度与回忆的选择无关。数值越高表示精度越高,与回忆权衡越差。

    有关更多信息,请参阅 Wikipedia 中的查准率和查全率

  • Precision – 数量(双),不超过1.0。

    精度度量表示您的转换预测匹配时的正确频率。具体而言,它测量转化从可能的总真实阳性中发现真实阳性的程度。

    有关更多信息,请参阅 Wikipedia 中的查准率和查全率

  • Recall – 数量(双),不超过1.0。

    重呼指标表示对于实际匹配,您的转换预测匹配的频率。具体而言,它测量转换从源数据中的总记录中发现真阳性的程度。

    有关更多信息,请参阅 Wikipedia 中的查准率和查全率

  • F1 – 数量(双),不超过1.0。

    最大F1指标表示0到1之间的转换精度,其中1是最佳精度。

    有关更多信息,请参阅 Wikipedia 中的 F1 分数

  • ConfusionMatrix – 一个 意识错乱矩阵 对象。

    混淆矩阵显示您的转换准确预测了哪些内容,以及它所引起的错误类型。

    更多信息,请参阅 意识错乱基质 在维基百科。

意识模糊基质结构

混淆矩阵显示您的转换准确预测了哪些内容,以及它所引起的错误类型。

更多信息,请参阅 意识错乱基质 在维基百科。

Fields

  • NumTruePositives – 数量(长)

    转换中正确找到的数据中、转换的混淆矩阵中的匹配数量。

  • NumFalsePositives – 数量(长)

    在转换的混淆矩阵中,转换被错误地分类为匹配的数据中的不匹配数量。

  • NumTrueNegatives – 数量(长)

    转换正确拒绝的数据中不匹配的数量,在您的转换的混淆矩阵中。

  • NumFalseNegatives – 数量(长)

    在转换的混淆矩阵中,转换未找到的数据中的匹配数量。

GlueTable结构

用于输入或输出数据的 AWS Glue 数据目录中的数据库和表。

Fields

  • DatabaseName必填: UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    AWS Glue 数据目录中的数据库名称。

  • TableName必填: UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    AWS Glue 数据目录中的表名称。

  • CatalogId – UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    AWS Glue 数据目录的唯一标识符。

  • ConnectionName – UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    与 AWS Glue 数据目录的连接的名称。

任务运行结构

与在线学习关联的采样参数会转换。

Fields

  • TransformId – UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    转换的唯一标识符。

  • TaskRunId – UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    此任务的唯一标识符运行。

  • Status – UTF-8串(有效值: STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT)。

    请求的任务的当前状态运行。

  • LogGroupName – UTF-8串。

    与此任务关联的用于安全日志记录的日志组的名称运行。

  • Properties – 一个 任务运行属性 对象。

    指定与此任务运行关联的配置属性。

  • ErrorString – UTF-8串。

    与此任务关联的错误串列表运行。

  • StartedOn – 时间戳。

    此任务运行的日期和时间开始。

  • LastModifiedOn – 时间戳。

    更新请求的任务运行的最后一个时间点。

  • CompletedOn – 时间戳。

    完成请求的任务运行的最后一个时间点。

  • ExecutionTime – 编号(整数)。

    任务运行消耗资源的时间(以秒为单位)。

转换过滤器标准结构

用于筛选在线学习的标准将转变。

Fields

  • Name – UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    用于筛选在线学习的唯一转换名称将转换。

  • TransformType – UTF-8串(有效值: FIND_MATCHES)。

    用于筛选学习的学习转换类型将转变。

  • Status – UTF-8串(有效值: NOT_READY | READY | DELETING)。

    过滤通过上次已知转换状态(以指示是否可以使用转换)进行转换的在线学习列表。“NOT_READY”、“READY”或“DELETING”之一。

  • GlueVersion – UTF-8串,长度不小于1或超过255帧,与 Custom string pattern #13.

    此值确定该机器学习转换与哪个版本的 AWS Glue 兼容。建议大多数用户使用 Glue 1.0。如果未设置此值,则 Glue 兼容性默认为 Glue 0.9。有关更多信息,请参阅《开发人员指南》中的 AWS Glue 版本

  • CreatedBefore – 时间戳。

    创建转换的时间和日期。

  • CreatedAfter – 时间戳。

    创建转换的时间和日期。

  • LastModifiedBefore – 时间戳。

    过滤器转换在此日期之前上次修改。

  • LastModifiedAfter – 时间戳。

    筛选对此日期后最后修改的转换。

  • Schema – 一系列 方案列 对象,不超过100个结构。

    使用特定框架对数据集进行筛选。的 Map<Column, Type> 对象是一系列键值对,代表此转换所接受的框架,其中 Column 是列的名称,且 Type 是数据类型,例如整数或串。有100列的上限。

转换排序标准结构

与在线学习关联的排序标准将转换。

Fields

  • Column必填: UTF-8串(有效值: NAME | TRANSFORM_TYPE | STATUS | CREATED | LAST_MODIFIED)。

    与在线学习转换关联的排序标准中使用的列。

  • SortDirection必填: UTF-8串(有效值: DESCENDING | ASCENDING)。

    与在线学习转换关联的排序标准中使用的排序方向。

任务运行过滤器标准结构

用于筛选任务运行以进行学习转换的标准。

Fields

  • TaskRunType – UTF-8串(有效值: EVALUATION | LABELING_SET_GENERATION | IMPORT_LABELS | EXPORT_LABELS | FIND_MATCHES)。

    任务运行类型。

  • Status – UTF-8串(有效值: STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT)。

    任务的当前状态运行。

  • StartedBefore – 时间戳。

    在此日期之前已开始过滤任务运行。

  • StartedAfter – 时间戳。

    在此日期后开始过滤任务运行。

任务运行排序标准结构

用于对学习转换的任务列表进行排序的排序标准。

Fields

  • Column必填: UTF-8串(有效值: TASK_RUN_TYPE | STATUS | STARTED)。

    用于对用于进行在线学习转换的任务运行列表进行排序的列。

  • SortDirection必填: UTF-8串(有效值: DESCENDING | ASCENDING)。

    用于对学习转换的任务运行列表进行排序的排序方向。

任务运行属性结构

任务的配置属性运行。

Fields

  • TaskType – UTF-8串(有效值: EVALUATION | LABELING_SET_GENERATION | IMPORT_LABELS | EXPORT_LABELS | FIND_MATCHES)。

    任务运行类型。

  • ImportLabelsTaskRunProperties – 安 导入标签任务运行属性 对象。

    导入标签任务的配置属性运行。

  • ExportLabelsTaskRunProperties – 安 ExportLabelsTaskRun属性 对象。

    导出标签任务的配置属性运行。

  • LabelingSetGenerationTaskRunProperties – 一个 标签集生成任务运行属性 对象。

    标签集生成任务的配置属性运行。

  • FindMatchesTaskRunProperties – 一个 查找匹配任务运行属性 对象。

    查找与任务匹配的配置属性运行。

FindMatchesTaskRun属性结构

指定“查找匹配”任务运行的配置属性。

Fields

  • JobId – UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    FindCompatches任务的工作ID运行。

  • JobName – UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    分配给查找匹配任务作业的名称运行。

  • JobRunId – UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    查找匹配任务的工作运行ID运行。

进口标签任务运行属性结构

指定导入标签任务运行的配置属性。

Fields

  • InputS3Path – UTF-8串。

    从中导入标签的azonS3路径。

  • Replace – 布尔值

    指示是否覆盖现有标签。

ExportLabelsTaskRun属性结构

指定导出标签任务运行的配置属性。

Fields

  • OutputS3Path – UTF-8串。

    您将导出标签的alirocumabS3路径。

标签集生成任务运行属性结构

指定标签集生成任务运行的配置属性。

Fields

  • OutputS3Path – UTF-8串。

    生成标签集的azonS3路径。

架构列结构

代表列和数据类型的键值对,此转换可根据执行。的 Schema 参数 MLTransform 可能包含多达100个这些结构。

Fields

Operations

CreateMLTransformAction(Python:create_ml_transform)

创建一个ASMGlue学习转换。此操作将创建转换以及所有必要的参数以对其进行训练。

将此操作称为使用学习转换(例如, FindMatches 转换)。您可以提供一个可选的 Description除了要用于算法的参数之外。

作为从数据中学习和创建高质量machine学习转换的一部分,您还必须为代表您运行的任务指定某些参数。这些参数包括 Role,以及可选, AllocatedCapacity, Timeout、和 MaxRetries。更多信息,请参阅 职位.

Request

  • Name必填: UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    创建转换时给出的唯一名称。

  • Description – 描述串,长度不超过2048帧,与 URI address multi-line string pattern.

    定义中的学习转换描述。默认值是空字符串 ("")。

  • InputRecordTables必填: 一系列 GlueTable(格力表) 对象,不超过10个结构。

    转换使用的 AWS Glue 表定义的列表。

  • Parameters必填: 一个 :TransformParameters 对象。

    特定于所用转换类型的算法参数。在条件上取决于转换类型。

  • Role必填: UTF-8串。

    具有所需权限的 IAM 角色的名称或 Amazon 资源名称 (ARN)。所需的权限包括对ASHGlue资源的ASHGlue服务角色权限,以及转换所需的adminorS3权限。

    • 此角色需要有允许访问AWGSGlue资源的AWGue服务角色权限。见 将政策附加至访问AWGree的IAM用户.

    • 此角色需要对您的 Amazon Simple Storage Service (Amazon S3) 源、目标、临时目录、脚本以及此转换的任务运行所使用的任何库的权限。

  • GlueVersion – UTF-8串,长度不小于1或超过255帧,与 Custom string pattern #13.

    此值确定该机器学习转换与哪个版本的 AWS Glue 兼容。建议大多数用户使用 Glue 1.0。如果未设置此值,则 Glue 兼容性默认为 Glue 0.9。有关更多信息,请参阅《开发人员指南》中的 AWS Glue 版本

  • MaxCapacity – 数量(双)。

    分配给此转换的任务运行的 AWS Glue 数据处理单元 (DPU) 的数量。您可以分配 2 到 100 个 DPU;默认值为 10。DPU 是对处理能力的相对度量,它由 4 个 vCPU 的计算容量和 16GB 内存组成。有关更多信息,请参阅 AWS Glue 定价页

    MaxCapacity 是相互排斥的选择, NumberOfWorkersWorkerType.

    • 如果 NumberOfWorkersWorkerType 设定,然后 MaxCapacity 无法设置。

    • 如果 MaxCapacity 则都不是 NumberOfWorkersWorkerType 可以设置为。

    • 如果已设置 WorkerType,则 NumberOfWorkers 为必填项(反之亦然)。

    • MaxCapacityNumberOfWorkers 都必须至少为 1。

    在将 WorkerType 字段设置为 Standard 之外的值时,MaxCapacity 字段将自动设置并变为只读。

    在将 WorkerType 字段设置为 Standard 之外的值时,MaxCapacity 字段将自动设置并变为只读。

  • WorkerType – UTF-8串(有效值: Standard="" | G.1X="" | G.2X="")。

    在此任务运行时分配的预定义工作线程的类型。接受的值为 Standard、G.1X 或 G.2X。

    • 对于 Standard 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 50GB 磁盘,并且每个工作线程提供 2 个执行器。

    • 对于 G.1X 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 64 GB 磁盘,并且每个工作线程提供 1 个执行器。

    • 对于 G.2X 工作线程类型,每个工作线程提供 8 个 vCPU、32 GB 内存和 128 GB 磁盘,并且每个工作线程提供 1 个执行器。

    MaxCapacity 是相互排斥的选择, NumberOfWorkersWorkerType.

    • 如果 NumberOfWorkersWorkerType 设定,然后 MaxCapacity 无法设置。

    • 如果 MaxCapacity 则都不是 NumberOfWorkersWorkerType 可以设置为。

    • 如果已设置 WorkerType,则 NumberOfWorkers 为必填项(反之亦然)。

    • MaxCapacityNumberOfWorkers 都必须至少为 1。

  • NumberOfWorkers – 编号(整数)。

    定义的 workerType 分配。

    如果已设置 WorkerType,则 NumberOfWorkers 为必填项(反之亦然)。

  • Timeout – 编号(整数),至少1个。

    此转换的任务超时将在分钟内运行。这是为此转换运行的任务在终止和进入之前消耗资源的最长时间 TIMEOUT 状态。默认值为 2880 分钟 (48 小时)。

  • MaxRetries – 编号(整数)。

    任务运行失败后重试此转换任务的最大次数。

  • Tags – 密钥值对的映射阵列,不超过50对。

    每个键都是一个 UTF-8 字符串,长度不少于 1 个字节或超过 128 个字节。

    每个值是一个 UTF-8 字符串,不超过 256 个字节。

    用于此在线学习的标签将转变。您可以使用标记限制对在线学习转换的访问。有关 AWS Glue 中的标签的更多信息,请参阅开发人员指南中的 AWS Glue 中的 AWS 标签

Response

Errors

  • AlreadyExistsException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • AccessDeniedException

  • ResourceNumberLimitExceededException

  • IdempotentParameterMismatchException

UpdateMLTransformAction(Python:update_ml_transform)

更新现有在线学习转换。调用此操作以调整算法参数,以获得更好的结果。

调用此操作后,您可以调用 StartMLEvaluationTaskRun 评估您的新参数实现目标的程度(例如,提高您学习转型的质量,或提高其成本效益)。

Request

  • TransformId必填: UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    创建转换时生成的唯一标识符。

  • Name – UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    创建转换时给出的唯一名称。

  • Description – 描述串,长度不超过2048帧,与 URI address multi-line string pattern.

    转换描述。默认值是空字符串 ("")。

  • Parameters – 一个 :TransformParameters 对象。

    转换类型(算法)所使用的特定配置参数。在条件上取决于转换类型。

  • Role – UTF-8串。

    具有所需权限的 IAM 角色的名称或 Amazon 资源名称 (ARN)。

  • GlueVersion – UTF-8串,长度不小于1或超过255帧,与 Custom string pattern #13.

    此值确定该机器学习转换与哪个版本的 AWS Glue 兼容。建议大多数用户使用 Glue 1.0。如果未设置此值,则 Glue 兼容性默认为 Glue 0.9。有关更多信息,请参阅《开发人员指南》中的 AWS Glue 版本

  • MaxCapacity – 数量(双)。

    分配给此转换的任务运行的 AWS Glue 数据处理单元 (DPU) 的数量。您可以分配 2 到 100 个 DPU;默认值为 10。DPU 是对处理能力的相对度量,它由 4 个 vCPU 的计算容量和 16GB 内存组成。有关更多信息,请参阅 AWS Glue 定价页

    在将 WorkerType 字段设置为 Standard 之外的值时,MaxCapacity 字段将自动设置并变为只读。

  • WorkerType – UTF-8串(有效值: Standard="" | G.1X="" | G.2X="")。

    在此任务运行时分配的预定义工作线程的类型。接受的值为 Standard、G.1X 或 G.2X。

    • 对于 Standard 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 50GB 磁盘,并且每个工作线程提供 2 个执行器。

    • 对于 G.1X 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 64 GB 磁盘,并且每个工作线程提供 1 个执行器。

    • 对于 G.2X 工作线程类型,每个工作线程提供 8 个 vCPU、32 GB 内存和 128 GB 磁盘,并且每个工作线程提供 1 个执行器。

  • NumberOfWorkers – 编号(整数)。

    定义的 workerType 分配。

  • Timeout – 编号(整数),至少1个。

    此转换的任务运行超时(分钟)。这是为此转换运行的任务在终止和进入之前消耗资源的最长时间 TIMEOUT 状态。默认值为 2880 分钟 (48 小时)。

  • MaxRetries – 编号(整数)。

    任务运行失败后重试此转换任务的最大次数。

Response

  • TransformId – UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    已更新的转换的唯一标识符。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • AccessDeniedException

删除MLTransformAction(Python:delete_ml_transform)

删除一个AWGlue在线学习转换。机器学习转换是一种特殊类型的转换,通过从人类提供的示例学习,使用机器学习来学习要执行的转换的详细信息。然后,这些转换将由AWAGlue保存。如果您不再需要转换,您可以拨打 DeleteMLTransforms。但是,仍然引用已删除转换的任何AWGlue作业将不再成功。

Request

  • TransformId必填: UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    删除的转换的唯一标识符。

Response

  • TransformId – UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    已删除的转换的唯一标识符。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetMLTransformAction(Python:get_ml_transform)

获得一个AWGlue在线学习转换项目及其所有相应元数据。机器学习转换是一种特殊类型的转换,通过从人类提供的示例学习,使用机器学习来学习要执行的转换的详细信息。然后,这些转换将由AWAGlue保存。您可以通过呼叫 GetMLTransform.

Request

  • TransformId必填: UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    转换的唯一标识符,在创建转换时生成。

Response

  • TransformId – UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    转换的唯一标识符,在创建转换时生成。

  • Name – UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    创建转换时为转换赋予的唯一名称。

  • Description – 描述串,长度不超过2048帧,与 URI address multi-line string pattern.

    转换描述。

  • Status – UTF-8串(有效值: NOT_READY | READY | DELETING)。

    转换的最后已知状态(以指示其是否可以使用)。“NOT_READY”、“READY”或“DELETING”之一。

  • CreatedOn – 时间戳。

    创建转换的日期和时间。

  • LastModifiedOn – 时间戳。

    上次修改转换的日期和时间。

  • InputRecordTables – 一系列 GlueTable(格力表) 对象,不超过10个结构。

    转换使用的 AWS Glue 表定义的列表。

  • Parameters – 一个 :TransformParameters 对象。

    特定于所用算法的配置参数。

  • EvaluationMetrics – 安 评价指标 对象。

    最新的评估指标。

  • LabelCount – 编号(整数)。

    此转换可用的标签数量。

  • Schema – 一系列 方案列 对象,不超过100个结构。

    Map<Column, Type> 表示此转换所接受的框架的对象。有100列的上限。

  • Role – UTF-8串。

    具有所需权限的 IAM 角色的名称或 Amazon 资源名称 (ARN)。

  • GlueVersion – UTF-8串,长度不小于1或超过255帧,与 Custom string pattern #13.

    此值确定该机器学习转换与哪个版本的 AWS Glue 兼容。建议大多数用户使用 Glue 1.0。如果未设置此值,则 Glue 兼容性默认为 Glue 0.9。有关更多信息,请参阅《开发人员指南》中的 AWS Glue 版本

  • MaxCapacity – 数量(双)。

    分配给此转换的任务运行的 AWS Glue 数据处理单元 (DPU) 的数量。您可以分配 2 到 100 个 DPU;默认值为 10。DPU 是对处理能力的相对度量,它由 4 个 vCPU 的计算容量和 16GB 内存组成。有关更多信息,请参阅 AWS Glue 定价页

    在将 WorkerType 字段设置为 Standard 之外的值时,MaxCapacity 字段将自动设置并变为只读。

  • WorkerType – UTF-8串(有效值: Standard="" | G.1X="" | G.2X="")。

    在此任务运行时分配的预定义工作线程的类型。接受的值为 Standard、G.1X 或 G.2X。

    • 对于 Standard 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 50GB 磁盘,并且每个工作线程提供 2 个执行器。

    • 对于 G.1X 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 64 GB 磁盘,并且每个工作线程提供 1 个执行器。

    • 对于 G.2X 工作线程类型,每个工作线程提供 8 个 vCPU、32 GB 内存和 128 GB 磁盘,并且每个工作线程提供 1 个执行器。

  • NumberOfWorkers – 编号(整数)。

    定义的 workerType 分配。

  • Timeout – 编号(整数),至少1个。

    此转换的任务运行超时(分钟)。这是为此转换运行的任务在终止和进入之前消耗资源的最长时间 TIMEOUT 状态。默认值为 2880 分钟 (48 小时)。

  • MaxRetries – 编号(整数)。

    任务运行失败后重试此转换任务的最大次数。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetMLTransforms操作(Python:get_ml_transforms)

获得现有AWGlue在线学习的可排序、可筛选列表会改变。机器学习转换是一种特殊类型的转换,通过从人类提供的示例学习,使用机器学习来学习要执行的转换的详细信息。然后,这些转换将由AWGSGlue保存,您可以通过调用 GetMLTransforms.

Request

  • NextToken – UTF-8串。

    用于抵消结果的分页标记。

  • MaxResults – 数量(整数),不小于1或大于1000。

    要返回的最大结果数量。

  • Filter – 一个 转换过滤器标准 对象。

    过滤器转换标准。

  • Sort – 一个 转换排序标准 对象。

    排序标准。

Response

  • Transforms必填: ML转化 对象数组。

    在线学习列表将转变。

  • NextToken – UTF-8串。

    分页标记(如果有更多结果可用)。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

ListMLTransforms操作(Python:list_ml_transforms)

检索此AW帐户中现有AWGlue在线学习转换的可排序、可筛选列表,或具有指定标记的资源。此操作采用可选 Tags 字段,您可以使用其作为答案的过滤器,以便将标记资源检索为一组。如果您选择使用标记筛选,则仅检索带有标记的资源。

Request

  • NextToken – UTF-8串。

    延续令牌 (如果这是延续请求)。

  • MaxResults – 数量(整数),不小于1或大于1000。

    要返回的列表的最大大小。

  • Filter – 一个 转换过滤器标准 对象。

    A TransformFilterCriteria 用于筛选,从而转变。

  • Sort – 一个 转换排序标准 对象。

    A TransformSortCriteria 用来对学习进行排序会改变。

  • Tags – 密钥值对的映射阵列,不超过50对。

    每个键都是一个 UTF-8 字符串,长度不少于 1 个字节或超过 128 个字节。

    每个值是一个 UTF-8 字符串,不超过 256 个字节。

    指定仅返回这些标记的资源。

Response

  • TransformIds必填: UTF-8串。

    客户中所有在线学习的标识符都会转换,或者通过指定的标记进行学习转换。

  • NextToken – UTF-8串。

    延续令牌 (如果返回的列表不包含上一个可用的指标)。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

开始ML评估任务运行操作(Python:开始_ml_评估_任务_运行)

启动任务以估计转换质量。

当您提供标签集作为真实示例时,ASHGlue在线学习会使用其中的一些示例来从中学习。其余标签用作估计质量的测试。

返回运行的唯一标识符。您可以致电 GetMLTaskRun 以获得更多关于 EvaluationTaskRun.

Request

  • TransformId必填: UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    机器学习的唯一标识符将转换。

Response

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • ConcurrentRunsExceededException

  • MLTransformNotReadyException

开始ML标签设置生成任务运行操作(Python:开始_ml_标签_设置_生成_任务_运行)

开始进行主动学习工作流程,以便通过生成标签集和添加标签,实现您的在线学习转型,从而改善转型质量。

StartMLLabelingSetGenerationTaskRun 完成,AWGlue将生成一组“标签集”或一组问题,供人类回答。

如果 FindMatches 转换,这些问题的形式是“将这些行分为完全由匹配记录组成的小组的正确方法是什么?”

标签过程完成后,您可以将标签通过呼叫上传到 StartImportLabelsTaskRun。之后 StartImportLabelsTaskRun 完成,未来所有进行的机器学习转换都将使用新的和改进的标签,并执行更高质量的转换。

Request

  • TransformId必填: UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    机器学习的唯一标识符将转换。

  • OutputS3Path必填: UTF-8串。

    生成标签集的azonS3路径。

Response

  • TaskRunId – UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    与此任务关联的唯一运行标识符运行。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • ConcurrentRunsExceededException

GetMLTaskRun操作(Python:gat_ml_that_run)

获取在上运行的特定任务的详细信息,并进行学习转换。机器学习任务运行是作为各种机器学习工作流程的一部分,AWGSGlue代表您运行的非同步任务。您可以通过呼叫检查任何任务的统计结果 GetMLTaskRunTaskRunID 及其母变革 TransformID.

Request

  • TransformId必填: UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    机器学习的唯一标识符将转换。

  • TaskRunId必填: UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    任务运行的唯一标识符。

Response

  • TransformId – UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    任务运行的唯一标识符。

  • TaskRunId – UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    与此运行关联的唯一运行标识符。

  • Status – UTF-8串(有效值: STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT)。

    此任务的状态运行。

  • LogGroupName – UTF-8串。

    与任务相关的日志组名称运行。

  • Properties – 一个 任务运行属性 对象。

    与任务相关的属性列表运行。

  • ErrorString – UTF-8串。

    与任务运行关联的错误串。

  • StartedOn – 时间戳。

    此任务运行开始的日期和时间。

  • LastModifiedOn – 时间戳。

    上次修改此任务运行的日期和时间。

  • CompletedOn – 时间戳。

    完成此任务运行的日期和时间。

  • ExecutionTime – 编号(整数)。

    任务运行消耗资源的时间(以秒为单位)。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetMLTaskRuns操作(Python:gat_ml_tTask_runs)

获得用于进行机器学习转换的运行列表。机器学习任务运行是作为各种机器学习工作流程的一部分,AWGSGlue代表您运行的非同步任务。您可以通过呼叫来获得可排序、可筛选的机器学习任务运行列表 GetMLTaskRuns 他们的父母转型 TransformID 以及本节记录的其他可选参数。

此操作将返回历史运行列表,且必须分页。

Request

  • TransformId必填: UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    机器学习的唯一标识符将转换。

  • NextToken – UTF-8串。

    结果分页标记。默认值为空。

  • MaxResults – 数量(整数),不小于1或大于1000。

    要返回的最大结果数量。

  • Filter – 一个 任务运行过滤器标准 对象。

    筛选条件,在 TaskRunFilterCriteria 结构。

  • Sort – 一个 任务运行排序标准 对象。

    分类标准,在 TaskRunSortCriteria 结构。

Response

  • TaskRuns – 一系列 任务运行 对象。

    与转换关联的任务运行列表。

  • NextToken – UTF-8串。

    分页标记(如果有更多结果可用)。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

取消ML任务运行操作(Python:cancell_ml_tTask_run)

取消(停止)任务运行。机器学习任务运行是作为各种机器学习工作流程的一部分,AWGSGlue代表您运行的非同步任务。您可以随时通过呼叫来取消机器学习任务运行 CancelMLTaskRun 使用任务运行的母转换 TransformID 以及任务运行 TaskRunId.

Request

  • TransformId必填: UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    机器学习的唯一标识符将转换。

  • TaskRunId必填: UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    任务运行的唯一标识符。

Response

  • TransformId – UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    机器学习的唯一标识符将转换。

  • TaskRunId – UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    任务运行的唯一标识符。

  • Status – UTF-8串(有效值: STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT)。

    此运行的状态。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

开始导出标签任务运行操作(Python:开始_导出_标签_任务_运行)

开始一个agendeddataforaspecifictransform的agendeddata。此任务是唯一一个与标签相关的API调用,不属于典型的主动学习工作流。您通常使用 StartExportLabelsTaskRun 当您希望同时处理所有现有标签时,例如您想要删除或更改之前作为真值提交的标签时。此API操作接受 TransformId 您要导出的标签,以及将标签导出至的azonS3路径。该操作返回 TaskRunId。您可以通过呼叫 GetMLTaskRun API。

Request

  • TransformId必填: UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    机器学习的唯一标识符将转换。

  • OutputS3Path必填: UTF-8串。

    您导出标签的alirocumabS3路径。

Response

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

开始导入标签任务运行操作(Python:开始_导入_标签_任务_运行)

使您能够提供额外的标签(真实示例),用于教导进行学习转换并提高其质量。此API操作通常用作以 StartMLLabelingSetGenerationTaskRun 从而最终提高您的在线学习质量。

StartMLLabelingSetGenerationTaskRun 精加工后,AWGlue机器学习将生成一系列问题供人类回答。(回答这些问题在学习工作流程中通常称为“贴标”。) 如果 FindMatches 转换,这些问题的形式是“将这些行分为完全由匹配记录组成的小组的正确方法是什么?” 标签过程完成后,用户通过呼叫将答案/标签上传至 StartImportLabelsTaskRun。之后 StartImportLabelsTaskRun 完成,所有未来的机器学习转换运行都使用新的和改进的标签,并执行更高质量的转换。

默认情况下, StartMLLabelingSetGenerationTaskRun 持续学习并组合上传的所有标签,除非您设置 Replace 变为true。如果您将 Replace 变为真, StartImportLabelsTaskRun 删除和忘记之前上传的所有标签,仅从上传的确切集合中学习。如果您发现之前上传了错误的标签,并且您认为这些标签对您的转换质量有负面影响,那么更换标签可能会有帮助。

您可以通过呼叫 GetMLTaskRun 操作。

Request

  • TransformId必填: UTF-8串,长度不小于1或超过255帧,与 Single-line string pattern.

    机器学习的唯一标识符将转换。

  • InputS3Path必填: UTF-8串。

    从中导入标签的alirocumabS3路径。

  • ReplaceAllLabels – 布尔值

    指示是否覆盖现有标签。

Response

Errors

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

  • InternalServiceException