创建模型质量基线 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建模型质量基线

创建基线作业,将模型预测与基本实际情况标签中存储在 Amazon S3 中的基准数据集中。通常,您可以使用训练数据集作为基线数据集。基线作业计算模型的度量,并建议用于监视模型质量漂移的约束条件。

要创建基线作业,需要有一个数据集,其中包含来自模型的预测以及表示数据地面真相的标注。

要创建基准作业,请使用ModelQualityMonitor类,然 SageMaker 完成以下步骤。

要创建模型质量基线作业

  1. 首先,创建ModelQualityMonitor类。以下代码段演示了如何执行此操作。

    from sagemaker import get_execution_role, session, Session from sagemaker.model_monitor import ModelQualityMonitor role = get_execution_role() session = Session() model_quality_monitor = ModelQualityMonitor( role=role, instance_count=1, instance_type='ml.m5.xlarge', volume_size_in_gb=20, max_runtime_in_seconds=1800, sagemaker_session=session )
  2. 现在调用suggest_baseline的方法ModelQualityMonitor对象运行基准作业。以下代码段假定您有一个基线数据集,该数据集同时包含存储在 Amazon S3 中的预测和标签。

    baseline_job_name = "MyBaseLineJob" job = model_quality_monitor.suggest_baseline( job_name=baseline_job_name, baseline_dataset=baseline_dataset_uri, # The S3 location of the validation dataset. dataset_format=DatasetFormat.csv(header=True), output_s3_uri = baseline_results_uri, # The S3 location to store the results. problem_type='BinaryClassification', inference_attribute= "prediction", # The column in the dataset that contains predictions. probability_attribute= "probability", # The column in the dataset that contains probabilities. ground_truth_attribute= "label" # The column in the dataset that contains ground truth labels. ) job.wait(logs=False)
  3. 在基准作业完成后,您可以看到作业生成的约束。首先,通过调用latest_baselining_job的方法ModelQualityMonitor对象。

    baseline_job = model_quality_monitor.latest_baselining_job
  4. 基线作业建议约束条件,约束条件是建模监视度量的度量的阈值。如果指标超出建议的阈值,模型监视器将报告违规。要查看基线作业生成的约束,请调用suggested_constraints方法。以下代码段将二进制分类模型的约束加载到 Pandas 数据框中。

    import pandas as pd pd.DataFrame(baseline_job.suggested_constraints().body_dict["binary_classification_constraints"]).T

    我们建议您查看生成的约束并根据需要对其进行修改,然后再使用它们进行监视。例如,如果某个约束过于激进,则可能会收到更多的违规警报。

  5. 当您对约束感到满意时,将它们作为constraints参数时创建监控计划。有关更多信息,请参阅计划模型质量监控作业

建议的基准约束包含在约限ts.json 文件中,这两个文件位于您使用指定的位置。output_s3_uri. 有关此文件的架构信息,请参阅约束的架构(constraints.json 文件).