约束的架构(constraints.json 文件) - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

约束的架构(constraints.json 文件)

constraints.json 文件用于表示数据集必须满足的约束。Amazon SageMaker 模型监控器 容器可以使用 constraints.json 文件来评估数据集。利用预构建的容器,可以自动为基准数据集生成 constraints.json 文件。如果您创建了自己的容器,则可以为它提供类似的功能,也可以通过其他方式创建 constraints.json 文件。以下是预构建的容器使用的约束文件的架构。自带容器可以采用相同的格式或根据需要进行增强。

{ "version" : 0, "features": [ { "name": "string", "inferred_type": "Integral" | "Fractional" | | "String" | "Unknown", "completeness": number, # denotes observed non-null value percentage "num_constraints" : { "is_non_negative": boolean, }, "string_constraints" : { "domains": [ "list of", "observed values", "for small cardinality" ], }, "monitoringConfigOverrides" : { }#monitoringConfigOverrides }#feature ]#features # options to control monitoring for this feature with monitoring jobs # See the following table for notes on what each constraint is doing. "monitoring_config": { "evaluate_constraints": "Enabled", "emit_metrics": "Enabled", "datatype_check_threshold": 0.1, "domain_content_threshold": 0.1, "distribution_constraints": { "perform_comparison": "Enabled", "comparison_threshold": 0.1, "comparison_method": "Simple"||"Robust" } }}#schema
监控约束
Constraint 描述
evaluate_constraints

在为 Enabled 时,评估正在分析的当前数据集是否满足将 constraints.json 文件中指定的约束作为基准。

有效值: EnabledDisabled

默认值: Enabled

emit_metrics

在为 Enabled 时,为文件中包含的数据发出 CloudWatch 指标。

有效值: EnabledDisabled

默认值: Enabled

datatype_check_threshold

如果阈值高于指定的 datatype_check_threshold 的值,则会导致在违规情况报告中被视为违规情况的失败。如果当前执行中的数据类型与基准数据集中的数据类型不同,则此阈值用于评估是否需要将其标记为违规情况。

在基准步骤中,生成的约束会为每个列建议推断的数据类型。可以调整 datatype_check_threshold 参数,以便调整标记为违规时的阈值。

有效值:浮点值

默认值:0.1

domain_content_threshold

如果当前数据集中的字符串字段的未知值多于基准数据集中的未知值,则此阈值可用于指定是否需要将其标记为违规情况。

有效值:浮点值

默认值:0.1

distribution_constraints perform_comparison

Enabled 时,此标志指示代码在基准分布与当前数据集观察到的分布之间执行分布比较。

有效值: EnabledDisabled

默认值: Enabled

comparison_threshold

如果阈值高于为 comparison_threshold 设置的值,则会导致在违规情况报告中被视为违规情况的失败。通过获取两个分布的累积分布函数之间的最大绝对差来计算距离。

有效值:浮点值

默认值:0.1

comparison_method

是否计算 linf_simplelinf_robustlinf_simple 基于两个分布的累积分布函数之间的最大绝对差。计算 linf_robust 基于 linf_simple,但仅在样本不足时使用它。linf_robust 公式基于 Two-sample Kolmogorov–Smirnov 测试

有效值: linf_simplelinf_robust