获取推理推荐 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

获取推理推荐

推理推荐作业对推荐的实例类型或无服务器端点运行一组负载测试。推理推荐作业使用的性能指标基于使用模型版本注册期间提供的示例数据执行的负载测试。

注意

在创建 Inference Recommender 推荐作业之前,请先确保您满足先决条件

以下内容演示如何使用、、、Amazon SageMaker SageMaker Studio Classic Amazon CLI以及控制台使用 Amazon Inference Recommerder 根据您的模型类型创建推理建议 Amazon SDK for Python (Boto3) SageMaker

创建推理推荐

使用 Amazon SDK for Python (Boto3) 或以编程方式创建推理建议,或者使用 Studio Classic 或控制台以交互方式创建推理建议。 Amazon CLI SageMaker 为推理建议指定任务名称、 Amazon IAM 角色 ARN、输入配置,以及您在模型注册表中注册模型时的模型包 ARN,或者在 “先决条件” 部分中创建模型时的模型名称和ContainerConfig字典。

Amazon SDK for Python (Boto3)

使用 CreateInferenceRecommendationsJob API 启动推理推荐作业。将推理推荐作业的 JobType 字段设置为 'Default'。此外,请提供以下各项:

  • IAM 角色的 Amazon 资源名称 (ARN),此角色可让 Inference Recommender 代表您执行任务。为 RoleArn 字段定义此项。

  • 模型包 ARN 或模型名称。Inference Recommender 支持将模型包 ARN 或模型名称作为输入。指定下列项之一:

    • 您在模型注册表中注册模型时创建的版本化模型包的 ARN。 SageMaker在 InputConfig 字段中为 ModelPackageVersionArn 定义此项。

    • 您创建的模型的名称。在 InputConfig 字段中为 ModelName 定义此项。另外,请提供 ContainerConfig 字典,其中包括需要与模型名称一起提供的必填字段。在 InputConfig 字段中为 ContainerConfig 定义此项。在 ContainerConfig 中,您也可以选择将 SupportedEndpointType 字段指定为 RealTimeServerless。如果您指定此字段,则 Inference Recommender 将仅返回该端点类型的推荐。如果您未指定此字段,则 Inference Recommender 将返回两种端点类型的推荐。

  • JobName 字段的 Inference Recommender 推荐作业的名称。推理推荐人任务名称在 Amazon 区域内和您的 Amazon 账户中必须是唯一的。

导入 Amazon SDK for Python (Boto3) 软件包并使用 SageMaker 客户端类创建客户端对象。如果您执行了先决条件部分中的步骤,请仅指定下列选项之一:

  • 选项 1:如果您想使用模型包 ARN 创建推理推荐作业,请将模型包组 ARN 存储在名为 model_package_arn 的变量中。

  • 选项 2:如果您想使用模型名称和 ContainerConfig 创建推理推荐作业,请将模型名称存储在名为 model_name 的变量中,并将 ContainerConfig 字典存储在名为 container_config 的变量中。

# Create a low-level SageMaker service client. import boto3 aws_region = '<INSERT>' sagemaker_client = boto3.client('sagemaker', region_name=aws_region) # Provide only one of model package ARN or model name, not both. # Provide your model package ARN that was created when you registered your # model with Model Registry model_package_arn = '<INSERT>' ## Uncomment if you would like to create an inference recommendations job with a ## model name instead of a model package ARN, and comment out model_package_arn above ## Provide your model name # model_name = '<INSERT>' ## Provide your container config # container_config = '<INSERT>' # Provide a unique job name for SageMaker Inference Recommender job job_name = '<INSERT>' # Inference Recommender job type. Set to Default to get an initial recommendation job_type = 'Default' # Provide an IAM Role that gives SageMaker Inference Recommender permission to # access AWS services role_arn = 'arn:aws:iam::<account>:role/*' sagemaker_client.create_inference_recommendations_job( JobName = job_name, JobType = job_type, RoleArn = role_arn, # Provide only one of model package ARN or model name, not both. # If you would like to create an inference recommendations job with a model name, # uncomment ModelName and ContainerConfig, and comment out ModelPackageVersionArn. InputConfig = { 'ModelPackageVersionArn': model_package_arn # 'ModelName': model_name, # 'ContainerConfig': container_config } )

有关您可以传递的可选参数和必填参数的完整列表,请参阅 Amazon SageMaker API 参考指南CreateInferenceRecommendationsJob

Amazon CLI

使用 create-inference-recommendations-job API 启动推理推荐作业。将推理推荐作业的 job-type 字段设置为 'Default'。此外,请提供以下各项:

  • 允许亚马逊 SageMaker 推理推荐人代表您执行任务的 IAM 角色的亚马逊资源名称 (ARN)。为 role-arn 字段定义此项。

  • 模型包 ARN 或模型名称。Inference Recommender 支持将模型包 ARN 或模型名称作为输入。指定下列项之一:

    • 在模型注册表中注册模型时创建的版本控制模型包的 ARN。在 input-config 字段中为 ModelPackageVersionArn 定义此项。

    • 您创建的模型的名称。在 input-config 字段中为 ModelName 定义此项。另外,请提供 ContainerConfig 字典,其中包括需要与模型名称一起提供的必填字段。在 input-config 字段中为 ContainerConfig 定义此项。在 ContainerConfig 中,您也可以选择将 SupportedEndpointType 字段指定为 RealTimeServerless。如果您指定此字段,则 Inference Recommender 将仅返回该端点类型的推荐。如果您未指定此字段,则 Inference Recommender 将返回两种端点类型的推荐。

  • job-name 字段的 Inference Recommender 推荐作业的名称。推理推荐人任务名称在 Amazon 区域内和您的 Amazon 账户中必须是唯一的。

要使用模型包 ARN 创建推理推荐作业,请使用以下示例:

aws sagemaker create-inference-recommendations-job --region <region>\ --job-name <job_name>\ --job-type Default\ --role-arn arn:aws:iam::<account:role/*>\ --input-config "{ \"ModelPackageVersionArn\": \"arn:aws:sagemaker:<region:account:role/*>\", }"

要使用模型名称和 ContainerConfig 创建推理推荐作业,请使用以下示例。该示例使用 SupportedEndpointType 字段来指定我们只需返回实时推理推荐:

aws sagemaker create-inference-recommendations-job --region <region>\ --job-name <job_name>\ --job-type Default\ --role-arn arn:aws:iam::<account:role/*>\ --input-config "{ \"ModelName\": \"model-name\", \"ContainerConfig\" : { \"Domain\": \"COMPUTER_VISION\", \"Framework\": \"PYTORCH\", \"FrameworkVersion\": \"1.7.1\", \"NearestModelName\": \"resnet18\", \"PayloadConfig\": { \"SamplePayloadUrl\": \"s3://{bucket}/{payload_s3_key}\", \"SupportedContentTypes\": [\"image/jpeg\"] }, \"SupportedEndpointType\": \"RealTime\", \"DataInputConfig\": \"[[1,3,256,256]]\", \"Task\": \"IMAGE_CLASSIFICATION\", }, }"
Amazon SageMaker Studio Classic

在 Studio Classic 中创建推理推荐作业。

  1. 在 Studio Classic 应用程序中,选择主页图标 ( Home icon in Studio Classic )。

  2. 在 Studio Classic 的左侧边栏中,选择模型

  3. 从下拉列表中选择模型注册表可显示您已在模型注册表中注册的模型。

    左侧面板将显示模型组的列表。该列表包括您账户中在模型注册中心注册的所有模型组,包括在 Studio Classic 之外注册的模型。

  4. 选择模型组的名称。选择模型组后,Studio Classic 的右侧窗格会显示版本设置等列标题

    如果您的模型组中有一个或多个模型包,则会在版本列中看到这些模型包的列表。

  5. 选择 Inference Recommender 列。

  6. 选择一个 IAM 角色来授予推理推荐者访问服务的 Amazon 权限。您可以创建一个角色,并附加 AmazonSageMakerFullAccess IAM 托管策略来做到这一点。或者你可以让 Studio Classic 为你创建角色。

  7. 选择获得推荐

    推理推荐最多可能需要 45 分钟。

    警告

    不要关闭此选项卡。如果关闭此选项卡,则取消实例推荐作业。

SageMaker console

执行以下操作,通过 SageMaker 控制台创建实例推荐任务:

  1. 访问 SageMaker 控制台,网址为 https://console.aws.amazon.com/sagemaker/

  2. 在左侧导航窗格中,选择推理,然后选择 Inference Recommender

  3. Inference Recommender 作业页面上,选择创建作业

  4. 对于步骤 1:模型配置,执行以下操作:

    1. 对于作业类型,选择默认 Recommender 作业

    2. 如果您使用的是已在模型注册表中注册的 SageMaker 模型,请打开从模型注册表中选择模型开关并执行以下操作:

      1. 模型组下拉列表中,在模型注册表中选择您的 SageMaker 模型所在的模型组。

      2. 模型版本下拉列表中,选择所需的模型版本。

    3. 如果您使用的是您在中创建的模型 SageMaker,请关闭从模型注册表中选择模型开关并执行以下操作:

      1. 模型名称字段中,输入您的 SageMaker 模型名称。

    4. IAM 角色下拉列表中,您可以选择具有创建实例推荐任务所需权限的现有 Amazon IAM 角色。或者,如果您没有现有角色,则可以选择创建新角色以打开角色创建弹出窗口,然后为您创建的新角色 SageMaker 添加必要的权限。

    5. 对于用于对负载进行基准测试的 S3 存储桶,输入示例负载存档的 Amazon S3 路径,其中应包含示例负载文件,Inference Recommender 使用这些文件在不同的实例类型上对模型进行基准测试。

    6. 对于负载内容类型,输入示例负载数据的 MIME 类型。

    7. (可选)如果您关闭了从模型注册表中选择模型开关并指定了 SageMaker 模型,那么对于容器配置,请执行以下操作:

      1. 对于下拉列表,选择模型的机器学习域,例如计算机视觉、自然语言处理或机器学习。

      2. 在 “框架” 下拉列表中,选择容器的框架,例如 TensorFlow 或 xgBoost。

      3. 对于框架版本,输入容器映像的框架版本。

      4. 对于最近的模型名称下拉列表,选择与您自己的模型最匹配的预训练的模型。

      5. 对于任务下拉列表,选择模型完成的机器学习任务,例如图像分类或回归。

    8. (可选)对于使用 SageMaker Neo 进行模型编译,您可以为使用 N SageMaker eo 编译的模型配置推荐作业。对于数据输入配置,使用类似于 {'input':[1,1024,1024,3]} 的格式为模型输入正确的输入数据形状。

    9. 选择下一步

  5. 对于步骤 2:实例和环境参数,请执行以下操作:

    1. (可选)对于选择用于基准测试的实例,您最多可以选择 8 种实例类型来进行基准测试。如果您未选择任何实例,则 Inference Recommender 将考虑所有实例类型。

    2. 选择下一步

  6. 对于步骤 3:作业参数,请执行以下操作:

    1. (可选)对于作业名称字段,输入您的实例推荐作业的名称。创建任务时,在此名称的末 SageMaker 尾附加一个时间戳。

    2. (可选)对于作业描述字段,输入作业的描述。

    3. (可选)在加密密钥下拉列表中,按名称选择 Amazon KMS 密钥或输入其 ARN 来加密您的数据。

    4. (可选)对于最长测试时间,输入您希望每项测试运行的最长时间(以秒为单位)。

    5. (可选)对于每分钟最大调用次数,输入端点在停止推荐作业之前可达到的每分钟最大请求数。达到此限制后, SageMaker 结束作业。

    6. (可选)对于 P99 模型延迟阈值 (ms),输入模型延迟百分位数(以毫秒为单位)。

    7. 选择下一步

  7. 对于步骤 4:查看作业,请查看您的配置,然后选择提交

获取推理推荐作业结果

使用 Studio Classic 或控制台 Amazon SDK for Python (Boto3),以编程方式收集推理推荐作业的 SageMaker 结果。 Amazon CLI

Amazon SDK for Python (Boto3)

在推理推荐完成后,您可以使用 DescribeInferenceRecommendationsJob 以获取作业详细信息和推荐。提供您在创建推理推荐作业时使用的作业名称。

job_name='<INSERT>' response = sagemaker_client.describe_inference_recommendations_job( JobName=job_name)

打印响应对象。前面的代码示例将响应存储在名为的变量中response

print(response['Status'])

这将返回与以下示例类似的 JSON 响应。请注意,此示例显示了实时推理的推荐实例类型(有关显示无服务器推理推荐的示例,请参阅此示例后面的示例)。

{ 'JobName': 'job-name', 'JobDescription': 'job-description', 'JobType': 'Default', 'JobArn': 'arn:aws:sagemaker:region:account-id:inference-recommendations-job/resource-id', 'Status': 'COMPLETED', 'CreationTime': datetime.datetime(2021, 10, 26, 20, 4, 57, 627000, tzinfo=tzlocal()), 'LastModifiedTime': datetime.datetime(2021, 10, 26, 20, 25, 1, 997000, tzinfo=tzlocal()), 'InputConfig': { 'ModelPackageVersionArn': 'arn:aws:sagemaker:region:account-id:model-package/resource-id', 'JobDurationInSeconds': 0 }, 'InferenceRecommendations': [{ 'Metrics': { 'CostPerHour': 0.20399999618530273, 'CostPerInference': 5.246913588052848e-06, 'MaximumInvocations': 648, 'ModelLatency': 263596 }, 'EndpointConfiguration': { 'EndpointName': 'endpoint-name', 'VariantName': 'variant-name', 'InstanceType': 'ml.c5.xlarge', 'InitialInstanceCount': 1 }, 'ModelConfiguration': { 'Compiled': False, 'EnvironmentParameters': [] } }, { 'Metrics': { 'CostPerHour': 0.11500000208616257, 'CostPerInference': 2.92620870823157e-06, 'MaximumInvocations': 655, 'ModelLatency': 826019 }, 'EndpointConfiguration': { 'EndpointName': 'endpoint-name', 'VariantName': 'variant-name', 'InstanceType': 'ml.c5d.large', 'InitialInstanceCount': 1 }, 'ModelConfiguration': { 'Compiled': False, 'EnvironmentParameters': [] } }, { 'Metrics': { 'CostPerHour': 0.11500000208616257, 'CostPerInference': 3.3625731248321244e-06, 'MaximumInvocations': 570, 'ModelLatency': 1085446 }, 'EndpointConfiguration': { 'EndpointName': 'endpoint-name', 'VariantName': 'variant-name', 'InstanceType': 'ml.m5.large', 'InitialInstanceCount': 1 }, 'ModelConfiguration': { 'Compiled': False, 'EnvironmentParameters': [] } }], 'ResponseMetadata': { 'RequestId': 'request-id', 'HTTPStatusCode': 200, 'HTTPHeaders': { 'x-amzn-requestid': 'x-amzn-requestid', 'content-type': 'content-type', 'content-length': '1685', 'date': 'Tue, 26 Oct 2021 20:31:10 GMT' }, 'RetryAttempts': 0 } }

前几行提供了有关推理推荐作业本身的信息。这包括作业名称、角色 ARN 以及创建时间和删除时间。

InferenceRecommendations 字典包含 Inference Recommender 推理推荐的列表。

EndpointConfiguration嵌套字典包含实例类型 (InstanceType) 建议以及推荐作业期间使用的端点和变体名称(已部署的 Amazon 机器学习模型)。您可以使用终端节点和变体名称在 Amazon Ev CloudWatch ents 中进行监控。请参阅 SageMaker 使用亚马逊监控亚马逊 CloudWatch了解更多信息。

Metrics嵌套字典包含有关实时终端节点每小时的估计成本 (CostPerHour)、实时终端节点的每次推理的估计成本 (CostPerInference)(以美元计)、发送到终端节点的每分钟预期最大InvokeEndpoint请求数 (MaxInvocations) 以及模型延迟 (ModelLatency)(即模型响应所花费的时间间隔(以微秒为单位)的信息。 SageMaker模型延迟包括发送请求以及从模型容器提取响应所花费的本地通信时间,以及在容器中完成推理所用的时间。

以下示例显示了配置为返回无服务器推理推荐的推理推荐作业的响应的 InferenceRecommendations 部分:

"InferenceRecommendations": [ { "EndpointConfiguration": { "EndpointName": "value", "InitialInstanceCount": value, "InstanceType": "value", "VariantName": "value", "ServerlessConfig": { "MaxConcurrency": value, "MemorySizeInMb": value } }, "InvocationEndTime": value, "InvocationStartTime": value, "Metrics": { "CostPerHour": value, "CostPerInference": value, "CpuUtilization": value, "MaxInvocations": value, "MemoryUtilization": value, "ModelLatency": value, "ModelSetupTime": value }, "ModelConfiguration": { "Compiled": "False", "EnvironmentParameters": [], "InferenceSpecificationName": "value" }, "RecommendationId": "value" } ]

您可以像解释实时推理的结果一样解释无服务器推理的推荐,但 ServerlessConfig 是一个例外,它告知您在给定 MemorySizeInMBMaxConcurrency = 1 的情况下为无服务器端点返回的指标。要增加端点上可能的吞吐量,请线性地增加 MaxConcurrency 的值。例如,如果推理推荐显示的 MaxInvocations1000,则将 MaxConcurrency 增至 2 将支持 2000 MaxInvocations。请注意,仅在某个特定点才出现这种情况,并且会因您的模型和代码而异。无服务器推荐还会衡量指标 ModelSetupTime,后者衡量在无服务器端点上启动计算机资源所花费的时间(以微秒为单位)。有关设置无服务器端点的更多信息,请参阅无服务器推理文档

Amazon CLI

在推理推荐完成后,您可以使用 describe-inference-recommendations-job 获取作业详细信息和推荐的实例类型。提供您在创建推理推荐作业时使用的作业名称。

aws sagemaker describe-inference-recommendations-job\ --job-name <job-name>\ --region <aws-region>

类似的 JSON 响应应该类似于以下示例。请注意,此示例显示了实时推理的推荐实例类型(有关显示无服务器推理推荐的示例,请参阅此示例后面的示例)。

{ 'JobName': 'job-name', 'JobDescription': 'job-description', 'JobType': 'Default', 'JobArn': 'arn:aws:sagemaker:region:account-id:inference-recommendations-job/resource-id', 'Status': 'COMPLETED', 'CreationTime': datetime.datetime(2021, 10, 26, 20, 4, 57, 627000, tzinfo=tzlocal()), 'LastModifiedTime': datetime.datetime(2021, 10, 26, 20, 25, 1, 997000, tzinfo=tzlocal()), 'InputConfig': { 'ModelPackageVersionArn': 'arn:aws:sagemaker:region:account-id:model-package/resource-id', 'JobDurationInSeconds': 0 }, 'InferenceRecommendations': [{ 'Metrics': { 'CostPerHour': 0.20399999618530273, 'CostPerInference': 5.246913588052848e-06, 'MaximumInvocations': 648, 'ModelLatency': 263596 }, 'EndpointConfiguration': { 'EndpointName': 'endpoint-name', 'VariantName': 'variant-name', 'InstanceType': 'ml.c5.xlarge', 'InitialInstanceCount': 1 }, 'ModelConfiguration': { 'Compiled': False, 'EnvironmentParameters': [] } }, { 'Metrics': { 'CostPerHour': 0.11500000208616257, 'CostPerInference': 2.92620870823157e-06, 'MaximumInvocations': 655, 'ModelLatency': 826019 }, 'EndpointConfiguration': { 'EndpointName': 'endpoint-name', 'VariantName': 'variant-name', 'InstanceType': 'ml.c5d.large', 'InitialInstanceCount': 1 }, 'ModelConfiguration': { 'Compiled': False, 'EnvironmentParameters': [] } }, { 'Metrics': { 'CostPerHour': 0.11500000208616257, 'CostPerInference': 3.3625731248321244e-06, 'MaximumInvocations': 570, 'ModelLatency': 1085446 }, 'EndpointConfiguration': { 'EndpointName': 'endpoint-name', 'VariantName': 'variant-name', 'InstanceType': 'ml.m5.large', 'InitialInstanceCount': 1 }, 'ModelConfiguration': { 'Compiled': False, 'EnvironmentParameters': [] } }], 'ResponseMetadata': { 'RequestId': 'request-id', 'HTTPStatusCode': 200, 'HTTPHeaders': { 'x-amzn-requestid': 'x-amzn-requestid', 'content-type': 'content-type', 'content-length': '1685', 'date': 'Tue, 26 Oct 2021 20:31:10 GMT' }, 'RetryAttempts': 0 } }

前几行提供了有关推理推荐作业本身的信息。这包括作业名称、角色 ARN、创建时间和删除时间。

InferenceRecommendations 字典包含 Inference Recommender 推理推荐的列表。

EndpointConfiguration嵌套字典包含推荐作业期间使用的实例类型 (InstanceType) 建议以及端点和变体名称(已部署的 Amazon 机器学习模型)。您可以使用终端节点和变体名称在 Amazon Ev CloudWatch ents 中进行监控。请参阅 SageMaker 使用亚马逊监控亚马逊 CloudWatch了解更多信息。

Metrics嵌套字典包含有关实时终端节点每小时的估计成本 (CostPerHour)、实时终端节点的每次推理的估计成本 (CostPerInference)(以美元计)、发送到终端节点的每分钟预期最大InvokeEndpoint请求数 (MaxInvocations) 以及模型延迟 (ModelLatency)(即模型响应所花费的时间间隔(以毫秒为单位)的信息。 SageMaker模型延迟包括发送请求以及从模型容器提取响应所花费的本地通信时间,以及在容器中完成推理所用的时间。

以下示例显示了配置为返回无服务器推理推荐的推理推荐作业的响应的 InferenceRecommendations 部分:

"InferenceRecommendations": [ { "EndpointConfiguration": { "EndpointName": "value", "InitialInstanceCount": value, "InstanceType": "value", "VariantName": "value", "ServerlessConfig": { "MaxConcurrency": value, "MemorySizeInMb": value } }, "InvocationEndTime": value, "InvocationStartTime": value, "Metrics": { "CostPerHour": value, "CostPerInference": value, "CpuUtilization": value, "MaxInvocations": value, "MemoryUtilization": value, "ModelLatency": value, "ModelSetupTime": value }, "ModelConfiguration": { "Compiled": "False", "EnvironmentParameters": [], "InferenceSpecificationName": "value" }, "RecommendationId": "value" } ]

您可以像解释实时推理的结果一样解释无服务器推理的推荐,但 ServerlessConfig 是一个例外,它告知您在给定 MemorySizeInMBMaxConcurrency = 1 的情况下为无服务器端点返回的指标。要增加端点上可能的吞吐量,请线性地增加 MaxConcurrency 的值。例如,如果推理推荐显示的 MaxInvocations1000,则将 MaxConcurrency 增至 2 将支持 2000 MaxInvocations。请注意,仅在某个特定点才出现这种情况,并且会因您的模型和代码而异。无服务器推荐还会衡量指标 ModelSetupTime,后者衡量在无服务器端点上启动计算机资源所花费的时间(以微秒为单位)。有关设置无服务器端点的更多信息,请参阅无服务器推理文档

Amazon SageMaker Studio Classic

推理建议填充在 Studio Class ic 的新推理建议选项卡中。显示结果最多可能需要 45 分钟。此选项卡包含结果详情列标题。

详情列提供了有关推理推荐作业的信息,例如推理推荐的名称、作业创建时间(创建时间)等。它还提供了设置信息,例如每分钟发生的最大调用次数以及有关使用的 Amazon 资源名称的信息。

结果” 列提供了 “部署目标SageMaker建议” 窗口,您可以在其中根据部署重要性调整结果的显示顺序。您可以使用三个下拉菜单来为使用案例提供成本延迟吞吐量的重要性级别。对于每个目标(成本、延迟和吞吐量),您可以设置重要性级别:最低重要性低重要性中等重要性高度重要最重要

根据您为每个目标选择的重要性,Inference Recommerder 会在面板右侧的推荐字段中显示其最重要的SageMaker建议,以及每小时的估计成本和推理请求。它还提供了有关预期模型延迟、最大调用次数和实例数的信息。对于无服务器推荐,您可以查看最大并发数和端点内存大小的理想值。

除了显示的顶级推荐之外,您还可以在所有运行部分中查看为 Inference Recommender 测试的所有实例显示的相同信息。

SageMaker console

您可以通过执行以下操作在 SageMaker控制台中查看您的实例推荐任务:

  1. 访问 SageMaker 控制台,网址为 https://console.aws.amazon.com/sagemaker/

  2. 在左侧导航窗格中,选择推理,然后选择 Inference Recommender

  3. Inference Recommender 作业页面上,选择推理推荐作业的名称。

在任务的详细信息页面上,您可以查看推理建议,这是您的模型 SageMaker 推荐的实例类型,如以下屏幕截图所示。

SageMaker 控制台作业详情页面上推理建议列表的屏幕截图。

在此部分中,您可以按模型延迟每小时成本每次推理成本每分钟调用次数等各种因素比较实例类型。

在此页面上,您还可以查看为作业指定的配置。在 “监控” 部分,您可以查看为每种实例类型记录的 Amazon CloudWatch 指标。要详细了解如何解释这些指标,请参阅解释结果

有关解释推荐作业结果的更多信息,请参阅解释推荐结果

停止推理推荐

如果您错误地启动了当前正在运行的作业,或者不再需要运行该作业,则可能需要停止该作业。使用 StopInferenceRecommendationsJob API 或 Studio Classic 以编程方式停止推理推荐器推理推荐作业。

Amazon SDK for Python (Boto3)

JobName 字段指定推理推荐作业的名称:

sagemaker_client.stop_inference_recommendations_job( JobName='<INSERT>' )
Amazon CLI

job-name 标志指定推理推荐作业的作业名称:

aws sagemaker stop-inference-recommendations-job --job-name <job-name>
Amazon SageMaker Studio Classic

关闭在其中启动推理推荐的选项卡以停止 Inference Recommender 推理推荐。

SageMaker console

要通过 SageMaker 控制台停止您的实例推荐任务,请执行以下操作:

  1. 访问 SageMaker 控制台,网址为 https://console.aws.amazon.com/sagemaker/

  2. 在左侧导航窗格中,选择推理,然后选择 Inference Recommender

  3. Inference Recommender 作业页面上,选择您的实例推荐作业。

  4. 选择停止作业

  5. 在弹出的对话框中,选择确认

停止作业后,作业的状态将变为正在停止