数据质量 API - Amazon Glue
 —  数据类型  —DataSourceDataQualityRulesetListDetailsDataQualityTargetTableDataQualityRulesetEvaluationRunDescriptionDataQualityRulesetEvaluationRunFilterDataQualityEvaluationRunAdditionalRunOptionsDataQualityRuleRecommendationRunDescriptionDataQualityRuleRecommendationRunFilterDataQualityResultDataQualityAnalyzerResultDataQualityObservationMetricBasedObservationDataQualityMetricValuesDataQualityRuleResultDataQualityResultDescriptionDataQualityResultFilterCriteriaDataQualityRulesetFilterCriteria —  操作  —StartDataQualityRulesetEvaluationRun (开始_数据_质量_规则集_评估_运行)CancelDataQualityRulesetEvaluationRun (取消数据质量规则集评估_运行)GetDataQualityRulesetEvaluationRun (获取数据质量规则集评估_运行)ListDataQualityRulesetEvaluationRuns (列表_数据_质量_规则集_评估_运行)StartDataQualityRuleRecommendationRun (start_data_quality_rule_rule_rule_run)CancelDataQualityRuleRecommendationRun (取消_数据_质量_规则_推荐_运行)GetDataQualityRuleRecommendationRun (get_data_quality_rule_rule_rule_run)ListDataQualityRuleRecommendationRuns (list_data_quality_rule_rule_rule_runs)GetDataQualityResult (获取数据质量结果)BatchGetDataQualityResult (batch_get_data_quality_result)ListDataQualityResults (列表_数据_质量_结果)CreateDataQualityRuleset (创建数据质量规则集)DeleteDataQualityRuleset (删除数据质量规则集)GetDataQualityRuleset (获取数据质量规则集)ListDataQualityRulesets (列表_数据_质量_规则集)UpdateDataQualityRuleset (更新数据质量规则集)
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

数据质量 API

数据质量 API 描述了数据质量数据类型,并包括用于创建、删除或更新数据质量规则集、运行和评估的 API。

数据类型

DataSource 结构

要获得数据质量结果的数据源( Amazon Glue 表)。

字段
  • GlueTable必填:一个 GlueTable 对象。

    一张 Amazon Glue 桌子。

DataQualityRulesetListDetails 结构

描述 GetDataQualityRuleset 返回的数据质量规则集。

字段
  • Name – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    数据质量规则集的名称。

  • Description – 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    数据质量规则集的描述。

  • CreatedOn – 时间戳。

    创建数据质量规则集的日期和时间。

  • LastModifiedOn – 时间戳。

    上次修改数据质量规则集的日期和时间。

  • TargetTable – 一个 DataQualityTargetTable 对象。

    代表 Amazon Glue 表格的对象。

  • RecommendationRunId – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    当根据建议运行创建规则集时,会生成此运行 ID 以将两者联系在一起。

  • RuleCount – 数字(整数)。

    规则集中的规则数量。

DataQualityTargetTable 结构

代表 Amazon Glue 表格的对象。

字段
  • TableName必填:UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    Amazon Glue 表的名称。

  • DatabaseName必填:UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    Amazon Glue 表所在的数据库的名称。

  • CatalogId – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的 Amazon Glue 目录 ID。

DataQualityRulesetEvaluationRunDescription 结构

描述数据质量规则集评估运行的结果。

字段
  • RunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与此运行关联的唯一运行标识符。

  • Status – UTF-8 字符串(有效值:STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT)。

    此运行的运行状态。

  • StartedOn – 时间戳。

    启动运行的日期和时间。

  • DataSource – 一个 DataSource 对象。

    与运行相关的数据源( Amazon Glue 表)。

DataQualityRulesetEvaluationRunFilter 结构

筛选条件。

字段
  • DataSource必填:一个 DataSource 对象。

    根据与运行关联的数据源( Amazon Glue 表)进行筛选。

  • StartedBefore – 时间戳。

    按在此时间之前开始的运行筛选结果。

  • StartedAfter – 时间戳。

    按在此时间之后开始的运行筛选结果。

DataQualityEvaluationRunAdditionalRunOptions 结构

您可以为评估运行指定的其他运行选项。

字段
  • CloudWatchMetricsEnabled – 布尔值。

    是否启用 CloudWatch 指标。

  • ResultsS3Prefix – UTF-8 字符串。

    用于存储结果的 Amazon S3 的前缀。

DataQualityRuleRecommendationRunDescription 结构

描述数据质量规则建议运行的结果。

字段
  • RunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与此运行关联的唯一运行标识符。

  • Status – UTF-8 字符串(有效值:STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT)。

    此运行的运行状态。

  • StartedOn – 时间戳。

    此运行开始的日期和时间。

  • DataSource – 一个 DataSource 对象。

    与建议运行关联的数据源(Amazon Glue 表)。

DataQualityRuleRecommendationRunFilter 结构

用于列出数据质量建议运行的筛选器。

字段
  • DataSource必填:一个 DataSource 对象。

    根据指定的数据源(Amazon Glue 表)进行筛选。

  • StartedBefore – 时间戳。

    根据时间进行筛选,以查看在提供的时间之前开始的结果。

  • StartedAfter – 时间戳。

    根据时间进行筛选,以查看在提供的时间之后开始的结果。

DataQualityResult 结构

描述数据质量结果。

字段
  • ResultId – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    数据质量结果的唯一结果 ID。

  • Score – 数字(双数),不超过 1.0。

    汇总的数据质量分数。表示规则与传递到规则总数的比率。

  • DataSource – 一个 DataSource 对象。

    与数据质量结果相关的表(如果有)。

  • RulesetName – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    与数据质量结果相关的规则集的名称。

  • EvaluationContext – UTF-8 字符串。

    在 Amazon Glue Studio 的作业环境中,通常会为画布中的每个节点分配某种名称,并且数据质量节点会有名称。如果有多个节点,则 evaluationContext 可以区分这些节点。

  • StartedOn – 时间戳。

    此数据质量运行开始的日期和时间。

  • CompletedOn – 时间戳。

    此数据质量运行完成的日期和时间。

  • JobName – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    与数据质量结果相关的作业名称(如果有)。

  • JobRunId – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    与数据质量结果相关的作业运行 ID(如果有)。

  • RulesetEvaluationRunId – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    此数据质量结果的规则集评估的唯一运行 ID。

  • RuleResults – 一组 DataQualityRuleResult 对象,不超过 2000 个结构。

    代表每条规则结果的 DataQualityRuleResult 对象列表。

  • AnalyzerResults – 一组 DataQualityAnalyzerResult 对象,不超过 2000 个结构。

    代表每个分析器结果的 DataQualityAnalyzerResult 对象列表。

  • ObservationsDataQualityObservation 对象的数组,不超过 50 个结构。

    代表评估规则和分析器后生成的观测值的 DataQualityObservation 对象列表。

DataQualityAnalyzerResult 结构

描述数据质量分析器的评估结果。

字段
  • Name – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    数据质量分析器的名称。

  • Description – UTF-8 字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    对数据质量分析器的描述。

  • EvaluationMessage – UTF-8 字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    评估消息。

  • EvaluatedMetrics – 键值对的映射数组。

    每个键是一个 UTF-8 字符串,不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    每个值都是数字(双精度数)。

    与分析器评估相关的指标地图。

DataQualityObservation 结构

描述评估规则和分析器后生成的观测结果。

字段
  • Description – UTF-8 字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    对数据质量观测结果的描述。

  • MetricBasedObservation – 一个 MetricBasedObservation 对象。

    MetricBasedObservation表示基于评估的数据质量指标的观测值类型的对象。

MetricBasedObservation 结构

描述基于评估的数据质量指标生成的基于指标的观测结果。

字段
  • MetricName – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    用于生成观测值的数据质量指标的名称。

  • MetricValues – 一个 DataQualityMetricValues 对象。

    DataQualityMetricValues表示数据质量指标值分析的类型的对象。

  • NewRules – UTF-8 字符串数组。

    根据数据质量指标值作为观测结果的一部分生成的新数据质量规则列表。

DataQualityMetricValues 结构

根据对历史数据的分析,描述数据质量指标值。

字段
  • ActualValue – 数字(double)。

    数据质量指标的实际值。

  • ExpectedValue – 数字(double)。

    根据对历史数据的分析,数据质量指标的预期值。

  • LowerLimit – 数字(double)。

    根据历史数据分析得出的数据质量指标值的下限。

  • UpperLimit – 数字(double)。

    根据历史数据分析得出的数据质量指标值的上限。

DataQualityRuleResult 结构

描述数据质量规则评估运行的结果。

字段
  • Name – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    数据质量规则的名称。

  • Description – UTF-8 字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    数据质量规则的描述。

  • EvaluationMessage – UTF-8 字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    评估消息。

  • Result – UTF-8 字符串(有效值:PASS | FAIL | ERROR)。

    规则的通过或失败状态。

  • EvaluatedMetrics – 键值对的映射数组。

    每个键是一个 UTF-8 字符串,不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    每个值都是数字(双精度数)。

    与规则评估相关的指标地图。

DataQualityResultDescription 结构

描述数据质量结果。

字段
  • ResultId – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    此数据质量结果的唯一结果 ID。

  • DataSource – 一个 DataSource 对象。

    与数据质量结果相关的表。

  • JobName – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    与数据质量结果相关的作业名称。

  • JobRunId – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    与数据质量结果相关的作业运行 ID。

  • StartedOn – 时间戳。

    此数据质量结果的运行开始的时间。

DataQualityResultFilterCriteria 结构

用于返回数据质量结果的标准。

字段
  • DataSource – 一个 DataSource 对象。

    按指定的数据源筛选结果。例如,检索 Amazon Glue 表的所有结果。

  • JobName – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    按指定的任务名称筛选结果。

  • JobRunId – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    按指定的任务运行 ID 筛选结果。

  • StartedAfter – 时间戳。

    按在此时间之后开始的运行筛选结果。

  • StartedBefore – 时间戳。

    按在此时间之前开始的运行筛选结果。

DataQualityRulesetFilterCriteria 结构

用于筛选数据质量规则集的条件。

字段
  • Name – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    规则集筛选条件的名称。

  • Description – 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    规则集筛选条件的描述。

  • CreatedBefore – 时间戳。

    筛选在此日期之前创建的规则集。

  • CreatedAfter – 时间戳。

    筛选在此日期之后创建的规则集。

  • LastModifiedBefore – 时间戳。

    筛选此日期之前最后一次修改的规则集。

  • LastModifiedAfter – 时间戳。

    筛选此日期之后最后一次修改的规则集。

  • TargetTable – 一个 DataQualityTargetTable 对象。

    目标表的名称和数据库名称。

操作

StartDataQualityRulesetEvaluationRun 操作(Python:start_data_quality_ruleset_evaluation_run)

有了规则集定义(建议定义或您自己的规则集)后,就可以调用此操作来根据数据源(表)评估规则集。Amazon Glue 评估会计算出您可以使用 GetDataQualityResult API 检索的结果。

请求
  • DataSource必填:一个 DataSource 对象。

    与此运行关联的数据源(Amazon Glue 表)。

  • Role必填:UTF-8 字符串。

    为加密运行结果而提供的 IAM 角色。

  • NumberOfWorkers – 数字(整数)。

    运行所用的 G.1X 工作线程数量。默认值为 5。

  • Timeout - 数字(整数),至少为 1。

    运行超时(分钟)。这是任务运行在终止并进入 TIMEOUT 状态前可以使用资源的最长时间。默认值为 2880 分钟(48 小时)。

  • ClientToken – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    用于幂等性,建议设置为随机 ID(例如,UUID),以避免创建或启动同一资源的多个实例。

  • AdditionalRunOptions – 一个 DataQualityEvaluationRunAdditionalRunOptions 对象。

    您可以为评估运行指定的其他运行选项。

  • RulesetNames必填:UTF-8 字符串数组,不少于 1 个或不超过 10 个字符串。

    规则集名称的列表。

  • AdditionalDataSources – 键值对的映射数组。

    每个键是一个 UTF-8 字符串,不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    每个值都是一个 DataSource 对象。

    您可以为评估运行指定的其他数据来源的引用字符串地图。

响应
  • RunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与此运行关联的唯一运行标识符。

错误
  • InvalidInputException

  • EntityNotFoundException

  • OperationTimeoutException

  • InternalServiceException

  • ConflictException

CancelDataQualityRulesetEvaluationRun 操作(Python:取消_data_quality_ruleset_requalition_run)

取消正在根据数据源评估规则集的运行。

请求
  • RunId必填:UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    与此运行关联的唯一运行标识符。

响应
  • 无响应参数。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetDataQualityRulesetEvaluationRun 操作(Python:get_data_quality_ruleset_requalition_run)

检索正在根据数据源评估规则集的特定运行。

请求
  • RunId必填:UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    与此运行关联的唯一运行标识符。

响应
  • RunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与此运行关联的唯一运行标识符。

  • DataSource – 一个 DataSource 对象。

    与此评估运行相关的数据源( Amazon Glue 表)。

  • Role – UTF-8 字符串。

    为加密运行结果而提供的 IAM 角色。

  • NumberOfWorkers – 数字(整数)。

    运行所用的 G.1X 工作线程数量。默认值为 5。

  • Timeout - 数字(整数),至少为 1。

    运行超时(分钟)。这是任务运行在终止并进入 TIMEOUT 状态前可以使用资源的最长时间。默认值为 2880 分钟(48 小时)。

  • AdditionalRunOptions – 一个 DataQualityEvaluationRunAdditionalRunOptions 对象。

    您可以为评估运行指定的其他运行选项。

  • Status – UTF-8 字符串(有效值:STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT)。

    此运行的运行状态。

  • ErrorString – UTF-8 字符串。

    与运行关联的错误字符串。

  • StartedOn – 时间戳。

    此运行开始的日期和时间。

  • LastModifiedOn – 时间戳。

    时间戳。此数据质量规则建议运行最后一个修改时间点。

  • CompletedOn – 时间戳。

    此运行的完成日期和时间。

  • ExecutionTime – 数字(整数)。

    运行使用资源的时间长度(以秒为单位)。

  • RulesetNames – UTF-8 字符串数组,不少于 1 个字符串,不超过 10 个字符串。

    运行的规则集名称列表。

  • ResultIds — UTF-8 字符串数组,不少于 1 个字符串,不超过 10 个字符串。

    运行数据质量结果的结果 ID 列表。

  • AdditionalDataSources – 键值对的映射数组。

    每个键是一个 UTF-8 字符串,不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    每个值都是一个 DataSource 对象。

    您可以为评估运行指定的其他数据来源的引用字符串地图。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

ListDataQualityRulesetEvaluationRuns 操作(Python:list_data_quality_ruleset_requalition_runs)

列出所有符合筛选条件的运行,其中根据数据源对规则集进行评估。

请求
  • Filter – 一个 DataQualityRulesetEvaluationRunFilter 对象。

    筛选条件。

  • NextToken – UTF-8 字符串。

    用于偏移结果的分页令牌。

  • MaxResults – 数字(整数),不小于 1 或大于 1000。

    要返回的最大结果数量。

响应
  • RunsDataQualityRulesetEvaluationRunDescription 对象的数组。

    代表数据质量规则集规则的 DataQualityRulesetEvaluationRunDescription 对象列表。

  • NextToken – UTF-8 字符串。

    分页令牌(如果有更多结果可用)。

错误
  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

StartDataQualityRuleRecommendationRun 动作(Python:start_data_quality_rule_rule_remuldation_

当你不知道要写什么规则时,启动推荐运行,用于生成规则。 Amazon Glue 数据质量分析数据,并针对潜在的规则集提出建议。然后,您可以对规则集进行分类,并根据自己的喜好修改生成的规则集。

建议运行在 90 天后被自动删除。

请求
  • DataSource必填:一个 DataSource 对象。

    与此运行关联的数据源(Amazon Glue 表)。

  • Role必填:UTF-8 字符串。

    为加密运行结果而提供的 IAM 角色。

  • NumberOfWorkers – 数字(整数)。

    运行所用的 G.1X 工作线程数量。默认值为 5。

  • Timeout - 数字(整数),至少为 1。

    运行超时(分钟)。这是任务运行在终止并进入 TIMEOUT 状态前可以使用资源的最长时间。默认值为 2880 分钟(48 小时)。

  • CreatedRulesetName – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    规则集的名称。

  • ClientToken – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    用于幂等性,建议设置为随机 ID(例如,UUID),以避免创建或启动同一资源的多个实例。

响应
  • RunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与此运行关联的唯一运行标识符。

错误
  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • ConflictException

CancelDataQualityRuleRecommendationRun 操作(Python:取消数据质量规则_推荐_运行)

取消用于生成规则的指定建议运行。

请求
  • RunId必填:UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    与此运行关联的唯一运行标识符。

响应
  • 无响应参数。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetDataQualityRuleRecommendationRun action(Python:获取数据质量规则_推荐_运行)

获取用于生成规则的指定建议运行。

请求
  • RunId必填:UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    与此运行关联的唯一运行标识符。

响应
  • RunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与此运行关联的唯一运行标识符。

  • DataSource – 一个 DataSource 对象。

    与此运行相关的数据源( Amazon Glue 表)。

  • Role – UTF-8 字符串。

    为加密运行结果而提供的 IAM 角色。

  • NumberOfWorkers – 数字(整数)。

    运行所用的 G.1X 工作线程数量。默认值为 5。

  • Timeout - 数字(整数),至少为 1。

    运行超时(分钟)。这是任务运行在终止并进入 TIMEOUT 状态前可以使用资源的最长时间。默认值为 2880 分钟(48 小时)。

  • Status – UTF-8 字符串(有效值:STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT)。

    此运行的运行状态。

  • ErrorString – UTF-8 字符串。

    与运行关联的错误字符串。

  • StartedOn – 时间戳。

    此运行开始的日期和时间。

  • LastModifiedOn – 时间戳。

    时间戳。此数据质量规则建议运行最后一个修改时间点。

  • CompletedOn – 时间戳。

    此运行的完成日期和时间。

  • ExecutionTime – 数字(整数)。

    运行使用资源的时间长度(以秒为单位)。

  • RecommendedRuleset – UTF-8 字符串,长度不少于 1 个字节,不超过 65536 个字节。

    启动规则建议运行完成后,它会创建建议的规则集(一组规则)。该成员的规则采用数据质量定义语言(DQDL)格式。

  • CreatedRulesetName – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    运行创建的规则集的名称。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

ListDataQualityRuleRecommendationRuns action(Python:list_data_quality_rule_rule_runs)

列出符合筛选条件的建议运行。

请求
  • Filter – 一个 DataQualityRuleRecommendationRunFilter 对象。

    筛选条件。

  • NextToken – UTF-8 字符串。

    用于偏移结果的分页令牌。

  • MaxResults – 数字(整数),不小于 1 或大于 1000。

    要返回的最大结果数量。

响应
  • RunsDataQualityRuleRecommendationRunDescription 对象的数组。

    DataQualityRuleRecommendationRunDescription 对象的列表。

  • NextToken – UTF-8 字符串。

    分页令牌(如果有更多结果可用)。

错误
  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetDataQualityResult 操作(Python:获取数据质量结果)

检索数据质量规则评估的结果。

请求
  • ResultId必填:UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    数据质量结果的唯一结果 ID。

响应
  • ResultId – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    数据质量结果的唯一结果 ID。

  • Score – 数字(双数),不超过 1.0。

    汇总的数据质量分数。表示规则与传递到规则总数的比率。

  • DataSource – 一个 DataSource 对象。

    与数据质量结果相关的表(如果有)。

  • RulesetName – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    与数据质量结果相关的规则集的名称。

  • EvaluationContext – UTF-8 字符串。

    在 Amazon Glue Studio 的作业环境中,通常会为画布中的每个节点分配某种名称,并且数据质量节点会有名称。如果有多个节点,则 evaluationContext 可以区分这些节点。

  • StartedOn – 时间戳。

    开始运行此数据质量结果的日期和时间。

  • CompletedOn – 时间戳。

    完成运行此数据质量结果的日期和时间。

  • JobName – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    与数据质量结果相关的作业名称(如果有)。

  • JobRunId – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    与数据质量结果相关的作业运行 ID(如果有)。

  • RulesetEvaluationRunId – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    与规则集评估相关的唯一运行 ID。

  • RuleResults – 一组 DataQualityRuleResult 对象,不超过 2000 个结构。

    代表每条规则结果的 DataQualityRuleResult 对象列表。

  • AnalyzerResults – 一组 DataQualityAnalyzerResult 对象,不超过 2000 个结构。

    代表每个分析器结果的 DataQualityAnalyzerResult 对象列表。

  • ObservationsDataQualityObservation 对象的数组,不超过 50 个结构。

    代表评估规则和分析器后生成的观测值的 DataQualityObservation 对象列表。

错误
  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • EntityNotFoundException

BatchGetDataQualityResult 操作(Python:batch_get_data_quality_result)

检索指定结果 ID 的数据质量结果列表。

请求
  • ResultIds必填:UTF-8 字符串数组,不少于 1 个字符串,不超过 100 个字符串。

    数据质量结果的唯一结果 ID 列表。

响应
  • Results必填:DataQualityResult 对象的数组。

    代表数据质量规则集的 DataQualityResult 对象列表。

  • ResultsNotFound – UTF-8 字符串数组,不少于 1 个字符串,不超过 100 个字符串。

    未找到结果的结果 ID 列表。

错误
  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

ListDataQualityResults 操作(Python:列表数据质量结果)

返回您账户的所有数据质量执行结果。

请求
  • Filter – 一个 DataQualityResultFilterCriteria 对象。

    筛选条件。

  • NextToken – UTF-8 字符串。

    用于偏移结果的分页令牌。

  • MaxResults – 数字(整数),不小于 1 或大于 1000。

    要返回的最大结果数量。

响应
  • Results必填:DataQualityResultDescription 对象的数组。

    DataQualityResultDescription 对象的列表。

  • NextToken – UTF-8 字符串。

    分页令牌(如果有更多结果可用)。

错误
  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

CreateDataQualityRuleset 操作(Python:create_data_quality_ruleset)

创建数据质量规则集,将 DQDL 规则应用于指定表。 Amazon Glue

您可以使用数据质量定义语言 (DQDL) 创建规则集。有关更多信息,请参阅 Amazon Glue 开发者指南。

请求
  • Name必填:UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    数据质量规则集的唯一名称。

  • Description – 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    数据质量规则集的描述。

  • Ruleset必填: UTF-8 字符串,长度不少于 1 个字节,不超过 65536 个字节。

    数据质量定义语言(DQDL)规则集。有关更多信息,请参阅 Amazon Glue 开发者指南。

  • Tags – 键值对的映射数组,不超过 50 对。

    每个键都是一个 UTF-8 字符串,长度不少于 1 个字节或超过 128 个字节。

    每个值是一个 UTF-8 字符串,不超过 256 个字节。

    应用于数据质量规则集的标签列表。

  • TargetTable – 一个 DataQualityTargetTable 对象。

    与数据质量规则集关联的目标表。

  • RecommendationRunId – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    建议运行的唯一运行 ID。

  • ClientToken – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    用于幂等性,建议设置为随机 ID(例如,UUID),以避免创建或启动同一资源的多个实例。

响应
  • Name – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    数据质量规则集的唯一名称。

错误
  • InvalidInputException

  • AlreadyExistsException

  • OperationTimeoutException

  • InternalServiceException

  • ResourceNumberLimitExceededException

DeleteDataQualityRuleset 操作(Python:delete_data_quality_ruleset)

删除数据质量规则集。

请求
  • Name必填:UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    数据质量规则集的名称。

响应
  • 无响应参数。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetDataQualityRuleset 操作(Python:get_data_quality_ruleset)

按标识符或名称返回现有规则集。

请求
  • Name必填:UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    规则集的名称。

响应
  • Name – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    规则集的名称。

  • Description – 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    规则集的描述。

  • Ruleset – UTF-8 字符串,长度不少于 1 个字节,不超过 65536 个字节。

    数据质量定义语言(DQDL)规则集。有关更多信息,请参阅 Amazon Glue 开发者指南。

  • TargetTable – 一个 DataQualityTargetTable 对象。

    目标表的名称和数据库名称。

  • CreatedOn – 时间戳。

    时间戳。此数据质量规则集的创建时间和日期。

  • LastModifiedOn – 时间戳。

    时间戳。此数据质量规则最后一个修改时间点。

  • RecommendationRunId – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    当根据建议运行创建规则集时,会生成此运行 ID 以将两者联系在一起。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

ListDataQualityRulesets 操作(Python:列表数据质量规则集)

返回指定表列表的规则集的分页列表。 Amazon Glue

请求
  • NextToken – UTF-8 字符串。

    用于偏移结果的分页令牌。

  • MaxResults – 数字(整数),不小于 1 或大于 1000。

    要返回的最大结果数量。

  • Filter – 一个 DataQualityRulesetFilterCriteria 对象。

    筛选条件。

  • Tags – 键值对的映射数组,不超过 50 对。

    每个键都是一个 UTF-8 字符串,长度不少于 1 个字节或超过 128 个字节。

    每个值是一个 UTF-8 字符串,不超过 256 个字节。

    键值对标签的列表。

响应
  • RulesetsDataQualityRulesetListDetails 对象的数组。

    指定表列表的规则集的分页列表。 Amazon Glue

  • NextToken – UTF-8 字符串。

    分页令牌(如果有更多结果可用)。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

UpdateDataQualityRuleset 操作(Python:更新数据质量规则集)

更新指定的数据质量规则集。

请求
  • Name必填:UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    数据质量规则集的名称。

  • Description – 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    规则集的描述。

  • Ruleset – UTF-8 字符串,长度不少于 1 个字节,不超过 65536 个字节。

    数据质量定义语言(DQDL)规则集。有关更多信息,请参阅 Amazon Glue 开发者指南。

响应
  • Name – UTF-8 字符串,长度不少于 1 个字节,不超过 255 个字节,与 Single-line string pattern 匹配。

    数据质量规则集的名称。

  • Description – 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    规则集的描述。

  • Ruleset – UTF-8 字符串,长度不少于 1 个字节,不超过 65536 个字节。

    数据质量定义语言(DQDL)规则集。有关更多信息,请参阅 Amazon Glue 开发者指南。

错误
  • EntityNotFoundException

  • AlreadyExistsException

  • IdempotentParameterMismatchException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • ResourceNumberLimitExceededException