获取推理推荐 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

获取推理推荐

推理推荐作业对推荐的实例类型或无服务器端点运行一组负载测试。推理推荐作业使用的性能指标基于使用模型版本注册期间提供的示例数据执行的负载测试。

注意

在创建 Inference Recommender 推荐作业之前,请先确保您满足先决条件

下面演示了如何使用 Amazon SageMaker Inference Recommender 根据您的模型类型,通过 Amazon SDK for Python (Boto3)、Amazon CLI、 Amazon SageMaker Studio 和 SageMaker 控制台创建推理推荐。

创建推理推荐

使用 Amazon SDK for Python (Boto3) 或 Amazon CLI 以编程方式创建推理推荐,或者使用 Studio 或 SageMaker 控制台以交互方式创建推理推荐。在先决条件部分中指定推理推荐的作业名称、Amazon IAM 角色 ARN、输入配置,以及您在模型注册表中注册模型时的模型包 ARN,或您在创建模型时的模型名称和 ContainerConfig 字典。

Amazon SDK for Python (Boto3)

使用 CreateInferenceRecommendationsJob API 启动推理推荐作业。将推理推荐作业的 JobType 字段设置为 'Default'。此外,请提供以下各项:

  • IAM 角色的 Amazon 资源名称 (ARN),此角色可让 Inference Recommender 代表您执行任务。为 RoleArn 字段定义此项。

  • 模型包 ARN 或模型名称。Inference Recommender 支持将模型包 ARN 或模型名称作为输入。指定下列项之一:

    • 在模型注册表中注册模型时创建的版本控制模型包的 ARN。在 InputConfig 字段中为 ModelPackageVersionArn 定义此项。

    • 您创建的模型的名称。在 InputConfig 字段中为 ModelName 定义此项。另外,请提供 ContainerConfig 字典,其中包括需要与模型名称一起提供的必填字段。在 InputConfig 字段中为 ContainerConfig 定义此项。在 ContainerConfig 中,您也可以选择将 SupportedEndpointType 字段指定为 RealTimeServerless。如果您指定此字段,则 Inference Recommender 将仅返回该端点类型的推荐。如果您未指定此字段,则 Inference Recommender 将返回两种端点类型的推荐。

  • JobName 字段的 Inference Recommender 推荐作业的名称。Inference Recommender 作业名称必须在 Amazon 区域和您的 Amazon 账户中唯一。

导入 Amazon SDK for Python (Boto3) 包并使用客户端类创建 SageMaker 客户端对象。如果您执行了先决条件部分中的步骤,请仅指定下列选项之一:

  • 选项 1:如果您想使用模型包 ARN 创建推理推荐作业,请将模型包组 ARN 存储在名为 model_package_arn 的变量中。

  • 选项 2:如果您想使用模型名称和 ContainerConfig 创建推理推荐作业,请将模型名称存储在名为 model_name 的变量中,并将 ContainerConfig 字典存储在名为 container_config 的变量中。

# Create a low-level SageMaker service client. import boto3 aws_region = '<INSERT>' sagemaker_client = boto3.client('sagemaker', region_name=aws_region) # Provide only one of model package ARN or model name, not both. # Provide your model package ARN that was created when you registered your # model with Model Registry model_package_arn = '<INSERT>' ## Uncomment if you would like to create an inference recommendations job with a ## model name instead of a model package ARN, and comment out model_package_arn above ## Provide your model name # model_name = '<INSERT>' ## Provide your container config # container_config = '<INSERT>' # Provide a unique job name for SageMaker Inference Recommender job job_name = '<INSERT>' # Inference Recommender job type. Set to Default to get an initial recommendation job_type = 'Default' # Provide an IAM Role that gives SageMaker Inference Recommender permission to # access AWS services role_arn = 'arn:aws:iam::<account>:role/*' sagemaker_client.create_inference_recommendations_job( JobName = job_name, JobType = job_type, RoleArn = role_arn, # Provide only one of model package ARN or model name, not both. # If you would like to create an inference recommendations job with a model name, # uncomment ModelName and ContainerConfig, and comment out ModelPackageVersionArn. InputConfig = { 'ModelPackageVersionArn': model_package_arn # 'ModelName': model_name, # 'ContainerConfig': container_config } )

请参阅 Amazon SageMaker API 参考指南,查看有关可传递给 CreateInferenceRecommendationsJob 的可选和必需参数的完整列表。

Amazon CLI

使用 create-inference-recommendations-job API 启动推理推荐作业。将推理推荐作业的 job-type 字段设置为 'Default'。此外,请提供以下各项:

  • IAM 角色的 Amazon 资源名称 (ARN),此角色可让 Amazon SageMaker Inference Recommender 代表您执行任务。为 role-arn 字段定义此项。

  • 模型包 ARN 或模型名称。Inference Recommender 支持将模型包 ARN 或模型名称作为输入。指定下列项之一:

    • 在模型注册表中注册模型时创建的版本控制模型包的 ARN。在 input-config 字段中为 ModelPackageVersionArn 定义此项。

    • 您创建的模型的名称。在 input-config 字段中为 ModelName 定义此项。另外,请提供 ContainerConfig 字典,其中包括需要与模型名称一起提供的必填字段。在 input-config 字段中为 ContainerConfig 定义此项。在 ContainerConfig 中,您也可以选择将 SupportedEndpointType 字段指定为 RealTimeServerless。如果您指定此字段,则 Inference Recommender 将仅返回该端点类型的推荐。如果您未指定此字段,则 Inference Recommender 将返回两种端点类型的推荐。

  • job-name 字段的 Inference Recommender 推荐作业的名称。Inference Recommender 作业名称必须在 Amazon 区域和您的 Amazon 账户中唯一。

要使用模型包 ARN 创建推理推荐作业,请使用以下示例:

aws sagemaker create-inference-recommendations-job --region <region>\ --job-name <job_name>\ --job-type Default\ --role-arn arn:aws:iam::<account:role/*>\ --input-config "{ \"ModelPackageVersionArn\": \"arn:aws:sagemaker:<region:account:role/*>\", }"

要使用模型名称和 ContainerConfig 创建推理推荐作业,请使用以下示例。该示例使用 SupportedEndpointType 字段来指定我们只需返回实时推理推荐:

aws sagemaker create-inference-recommendations-job --region <region>\ --job-name <job_name>\ --job-type Default\ --role-arn arn:aws:iam::<account:role/*>\ --input-config "{ \"ModelName\": \"model-name\", \"ContainerConfig\" : { \"Domain\": \"COMPUTER_VISION\", \"Framework\": \"PYTORCH\", \"FrameworkVersion\": \"1.7.1\", \"NearestModelName\": \"resnet18\", \"PayloadConfig\": { \"SamplePayloadUrl\": \"s3://{bucket}/{payload_s3_key}\", \"SupportedContentTypes\": [\"image/jpeg\"] }, \"SupportedEndpointType\": \"RealTime\", \"DataInputConfig\": \"[[1,3,256,256]]\", \"Task\": \"IMAGE_CLASSIFICATION\", }, }"
Amazon SageMaker Studio

在 Studio 中创建推理推荐作业。

  1. 在 Studio 应用程序中,选择主页图标 ( Home icon in Studio )。

  2. 在 Studio 的左侧边栏中,选择模型

  3. 从下拉列表中选择模型注册表可显示您已在模型注册表中注册的模型。

    左侧面板将显示模型组的列表。该列表包括您账户中已注册到模型注册表的所有模型组,包括在 Studio 外部注册的模型。

  4. 选择模型组的名称。选择模型组时,Studio 的右窗格会显示列标题,例如版本设置

    如果您的模型组中有一个或多个模型包,您将在版本列中看到这些模型包的列表。

  5. 选择 Inference Recommender 列。

  6. 选择一个向 Inference Recommender 授予对 Amazon 服务的访问权限的 IAM 角色。您可以创建一个角色,并附加 AmazonSageMakerFullAccess IAM 托管策略来做到这一点。或者,可以让 Studio 为您创建角色。

  7. 选择获得推荐

    推理推荐最多可能需要 45 分钟。

    警告

    不要关闭此选项卡。如果关闭此选项卡,则取消实例推荐作业。

SageMaker console

通过执行以下操作,通过 SageMaker 控制台创建实例推荐作业:

  1. 转到位于 https://console.aws.amazon.com/sagemaker/ 的 SageMaker 控制台。

  2. 在左侧导航窗格中,选择推理,然后选择 Inference Recommender

  3. Inference Recommender 作业页面上,选择创建作业

  4. 对于步骤 1:模型配置,执行以下操作:

    1. 对于作业类型,选择默认 Recommender 作业

    2. 如果您使用的是已在 SageMaker 模型注册表中注册的模型,请打开从模型注册表中选择模型开关并执行以下操作:

      1. 模型组下拉列表中,在 SageMaker 模型注册表中选择您的模型所在的模型组。

      2. 模型版本下拉列表中,选择所需的模型版本。

    3. 如果您使用的是已在 SageMaker 中创建的模型,请关闭从模型注册表中选择模型开关并执行以下操作:

      1. 对于模型名称字段,输入您的 SageMaker 模型的名称。

    4. IAM 角色下拉列表中,您可以选择具有创建实例推荐作业所需权限的现有 Amazon IAM 角色。或者,如果您没有现有角色,则可以选择创建新角色来打开角色创建弹出窗口,SageMaker 随后将向您创建的新角色添加必要权限。

    5. 对于用于对负载进行基准测试的 S3 存储桶,输入示例负载存档的 Amazon S3 路径,其中应包含示例负载文件,Inference Recommender 使用这些文件在不同的实例类型上对模型进行基准测试。

    6. 对于负载内容类型,输入示例负载数据的 MIME 类型。

    7. (可选)如果您已关闭从模型注册表中选择模型开关并指定 SageMaker 模型,则对于容器配置,请执行以下操作:

      1. 对于下拉列表,选择模型的机器学习域,例如计算机视觉、自然语言处理或机器学习。

      2. 对于框架下拉列表,选择容器的框架,例如 TensorFlow 或 XGBoost。

      3. 对于框架版本,输入容器映像的框架版本。

      4. 对于最近的模型名称下拉列表,选择与您自己的模型最匹配的预训练的模型。

      5. 对于任务下拉列表,选择模型完成的机器学习任务,例如图像分类或回归。

    8. (可选)对于使用 SageMaker Neo 进行模型编译,您可以为已使用 SageMaker Neo 编译的模型配置推荐作业。对于数据输入配置,使用类似于 {'input':[1,1024,1024,3]} 的格式为模型输入正确的输入数据形状。

    9. 选择下一步

  5. 对于步骤 2:实例和环境参数,请执行以下操作:

    1. (可选)对于选择用于基准测试的实例,您最多可以选择 8 种实例类型来进行基准测试。如果您未选择任何实例,则 Inference Recommender 将考虑所有实例类型。

    2. 选择下一步

  6. 对于步骤 3:作业参数,请执行以下操作:

    1. (可选)对于作业名称字段,输入您的实例推荐作业的名称。在创建作业时,SageMaker 会在该名称的末尾附加一个时间戳。

    2. (可选)对于作业描述字段,输入作业的描述。

    3. (可选)对于加密密钥下拉列表,按名称选择 Amazon KMS 密钥或输入其 ARN 来加密您的数据。

    4. (可选)对于最长测试时间,输入您希望每项测试运行的最长时间(以秒为单位)。

    5. (可选)对于每分钟最大调用次数,输入端点在停止推荐作业之前可达到的每分钟最大请求数。达到此限制后,SageMaker 将终止作业。

    6. (可选)对于 P99 模型延迟阈值 (ms),输入模型延迟百分位数(以毫秒为单位)。

    7. 选择下一步

  7. 对于步骤 4:查看作业,请查看您的配置,然后选择提交

获取推理推荐作业结果

使用 Amazon SDK for Python (Boto3)、Amazon CLI、Studio 或 SageMaker 控制台以编程方式收集推理推荐作业的结果。

Amazon SDK for Python (Boto3)

在推理推荐完成后,您可以使用 DescribeInferenceRecommendationsJob 以获取作业详细信息和推荐。提供您在创建推理推荐作业时使用的作业名称。

job_name='<INSERT>' response = sagemaker_client.describe_inference_recommendations_job( JobName=job_name)

打印响应对象。上一个代码示例将响应存储在名为 response 的变量中。

print(response['Status'])

这将返回与以下示例类似的 JSON 响应。请注意,此示例显示了实时推理的推荐实例类型(有关显示无服务器推理推荐的示例,请参阅此示例后面的示例)。

{ 'JobName': 'job-name', 'JobDescription': 'job-description', 'JobType': 'Default', 'JobArn': 'arn:aws:sagemaker:region:account-id:inference-recommendations-job/resource-id', 'Status': 'COMPLETED', 'CreationTime': datetime.datetime(2021, 10, 26, 20, 4, 57, 627000, tzinfo=tzlocal()), 'LastModifiedTime': datetime.datetime(2021, 10, 26, 20, 25, 1, 997000, tzinfo=tzlocal()), 'InputConfig': { 'ModelPackageVersionArn': 'arn:aws:sagemaker:region:account-id:model-package/resource-id', 'JobDurationInSeconds': 0 }, 'InferenceRecommendations': [{ 'Metrics': { 'CostPerHour': 0.20399999618530273, 'CostPerInference': 5.246913588052848e-06, 'MaximumInvocations': 648, 'ModelLatency': 263596 }, 'EndpointConfiguration': { 'EndpointName': 'endpoint-name', 'VariantName': 'variant-name', 'InstanceType': 'ml.c5.xlarge', 'InitialInstanceCount': 1 }, 'ModelConfiguration': { 'Compiled': False, 'EnvironmentParameters': [] } }, { 'Metrics': { 'CostPerHour': 0.11500000208616257, 'CostPerInference': 2.92620870823157e-06, 'MaximumInvocations': 655, 'ModelLatency': 826019 }, 'EndpointConfiguration': { 'EndpointName': 'endpoint-name', 'VariantName': 'variant-name', 'InstanceType': 'ml.c5d.large', 'InitialInstanceCount': 1 }, 'ModelConfiguration': { 'Compiled': False, 'EnvironmentParameters': [] } }, { 'Metrics': { 'CostPerHour': 0.11500000208616257, 'CostPerInference': 3.3625731248321244e-06, 'MaximumInvocations': 570, 'ModelLatency': 1085446 }, 'EndpointConfiguration': { 'EndpointName': 'endpoint-name', 'VariantName': 'variant-name', 'InstanceType': 'ml.m5.large', 'InitialInstanceCount': 1 }, 'ModelConfiguration': { 'Compiled': False, 'EnvironmentParameters': [] } }], 'ResponseMetadata': { 'RequestId': 'request-id', 'HTTPStatusCode': 200, 'HTTPHeaders': { 'x-amzn-requestid': 'x-amzn-requestid', 'content-type': 'content-type', 'content-length': '1685', 'date': 'Tue, 26 Oct 2021 20:31:10 GMT' }, 'RetryAttempts': 0 } }

前几行提供了有关推理推荐作业本身的信息。这包括作业名称、角色 ARN 以及创建时间和删除时间。

InferenceRecommendations 字典包含 Inference Recommender 推理推荐的列表。

EndpointConfiguration 嵌套字典包含实例类型 (InstanceType) 推荐以及已在推荐作业期间使用的端点和变体名称(已部署的 Amazon 机器学习模型)。您可以在 Amazon CloudWatch Events 中使用端点和变体名称进行监控。请参阅使用 Amazon CloudWatch 监控 Amazon SageMaker了解更多信息。

Metrics 嵌套字典包含以下各项的相关信息:实时端点的每小时估计费用 (CostPerHour)(以美元为单位)、实时端点的每次推理的估计费用 (CostPerInference)(以美元为单位)、每分钟发送到端点 (MaxInvocations) 的预计最大 InvokeEndpoint 请求数以及模型延迟 (ModelLatency)(即模型响应 SageMaker 所花费的时间间隔,以微秒为单位)。模型延迟包括发送请求以及从模型容器提取响应所花费的本地通信时间,以及在容器中完成推理所用的时间。

以下示例显示了配置为返回无服务器推理推荐的推理推荐作业的响应的 InferenceRecommendations 部分:

"InferenceRecommendations": [ { "EndpointConfiguration": { "EndpointName": "value", "InitialInstanceCount": value, "InstanceType": "value", "VariantName": "value", "ServerlessConfig": { "MaxConcurrency": value, "MemorySizeInMb": value } }, "InvocationEndTime": value, "InvocationStartTime": value, "Metrics": { "CostPerHour": value, "CostPerInference": value, "CpuUtilization": value, "MaxInvocations": value, "MemoryUtilization": value, "ModelLatency": value, "ModelSetupTime": value }, "ModelConfiguration": { "Compiled": "False", "EnvironmentParameters": [], "InferenceSpecificationName": "value" }, "RecommendationId": "value" } ]

您可以像解释实时推理的结果一样解释无服务器推理的推荐,但 ServerlessConfig 是一个例外,它告知您在给定 MemorySizeInMBMaxConcurrency = 1 的情况下为无服务器端点返回的指标。要增加端点上可能的吞吐量,请线性地增加 MaxConcurrency 的值。例如,如果推理推荐显示的 MaxInvocations1000,则将 MaxConcurrency 增至 2 将支持 2000 MaxInvocations。请注意,仅在某个特定点才出现这种情况,并且会因您的模型和代码而异。无服务器推荐还会衡量指标 ModelSetupTime,后者衡量在无服务器端点上启动计算机资源所花费的时间(以微秒为单位)。有关设置无服务器端点的更多信息,请参阅无服务器推理文档

Amazon CLI

在推理推荐完成后,您可以使用 describe-inference-recommendations-job 获取作业详细信息和推荐的实例类型。提供您在创建推理推荐作业时使用的作业名称。

aws sagemaker describe-inference-recommendations-job\ --job-name <job-name>\ --region <aws-region>

类似的 JSON 响应应该类似于以下示例。请注意,此示例显示了实时推理的推荐实例类型(有关显示无服务器推理推荐的示例,请参阅此示例后面的示例)。

{ 'JobName': 'job-name', 'JobDescription': 'job-description', 'JobType': 'Default', 'JobArn': 'arn:aws:sagemaker:region:account-id:inference-recommendations-job/resource-id', 'Status': 'COMPLETED', 'CreationTime': datetime.datetime(2021, 10, 26, 20, 4, 57, 627000, tzinfo=tzlocal()), 'LastModifiedTime': datetime.datetime(2021, 10, 26, 20, 25, 1, 997000, tzinfo=tzlocal()), 'InputConfig': { 'ModelPackageVersionArn': 'arn:aws:sagemaker:region:account-id:model-package/resource-id', 'JobDurationInSeconds': 0 }, 'InferenceRecommendations': [{ 'Metrics': { 'CostPerHour': 0.20399999618530273, 'CostPerInference': 5.246913588052848e-06, 'MaximumInvocations': 648, 'ModelLatency': 263596 }, 'EndpointConfiguration': { 'EndpointName': 'endpoint-name', 'VariantName': 'variant-name', 'InstanceType': 'ml.c5.xlarge', 'InitialInstanceCount': 1 }, 'ModelConfiguration': { 'Compiled': False, 'EnvironmentParameters': [] } }, { 'Metrics': { 'CostPerHour': 0.11500000208616257, 'CostPerInference': 2.92620870823157e-06, 'MaximumInvocations': 655, 'ModelLatency': 826019 }, 'EndpointConfiguration': { 'EndpointName': 'endpoint-name', 'VariantName': 'variant-name', 'InstanceType': 'ml.c5d.large', 'InitialInstanceCount': 1 }, 'ModelConfiguration': { 'Compiled': False, 'EnvironmentParameters': [] } }, { 'Metrics': { 'CostPerHour': 0.11500000208616257, 'CostPerInference': 3.3625731248321244e-06, 'MaximumInvocations': 570, 'ModelLatency': 1085446 }, 'EndpointConfiguration': { 'EndpointName': 'endpoint-name', 'VariantName': 'variant-name', 'InstanceType': 'ml.m5.large', 'InitialInstanceCount': 1 }, 'ModelConfiguration': { 'Compiled': False, 'EnvironmentParameters': [] } }], 'ResponseMetadata': { 'RequestId': 'request-id', 'HTTPStatusCode': 200, 'HTTPHeaders': { 'x-amzn-requestid': 'x-amzn-requestid', 'content-type': 'content-type', 'content-length': '1685', 'date': 'Tue, 26 Oct 2021 20:31:10 GMT' }, 'RetryAttempts': 0 } }

前几行提供了有关推理推荐作业本身的信息。这包括作业名称、角色 ARN、创建时间和删除时间。

InferenceRecommendations 字典包含 Inference Recommender 推理推荐的列表。

EndpointConfiguration 嵌套字典包含实例类型 (InstanceType) 推荐以及已在推荐作业期间使用的端点和变体名称(已部署的 Amazon 机器学习模型)。您可以在 Amazon CloudWatch Events 中使用端点和变体名称进行监控。请参阅使用 Amazon CloudWatch 监控 Amazon SageMaker了解更多信息。

Metrics 嵌套字典包含以下各项的相关信息:实时端点的每小时估计费用 (CostPerHour)(以美元为单位)、实时端点的每次推理的估计费用 (CostPerInference)(以美元为单位)、每分钟发送到端点 (MaxInvocations) 的预计最大 InvokeEndpoint 请求数以及模型延迟 (ModelLatency)(即模型响应 SageMaker 所花费的时间间隔,以毫秒为单位)。模型延迟包括发送请求以及从模型容器提取响应所花费的本地通信时间,以及在容器中完成推理所用的时间。

以下示例显示了配置为返回无服务器推理推荐的推理推荐作业的响应的 InferenceRecommendations 部分:

"InferenceRecommendations": [ { "EndpointConfiguration": { "EndpointName": "value", "InitialInstanceCount": value, "InstanceType": "value", "VariantName": "value", "ServerlessConfig": { "MaxConcurrency": value, "MemorySizeInMb": value } }, "InvocationEndTime": value, "InvocationStartTime": value, "Metrics": { "CostPerHour": value, "CostPerInference": value, "CpuUtilization": value, "MaxInvocations": value, "MemoryUtilization": value, "ModelLatency": value, "ModelSetupTime": value }, "ModelConfiguration": { "Compiled": "False", "EnvironmentParameters": [], "InferenceSpecificationName": "value" }, "RecommendationId": "value" } ]

您可以像解释实时推理的结果一样解释无服务器推理的推荐,但 ServerlessConfig 是一个例外,它告知您在给定 MemorySizeInMBMaxConcurrency = 1 的情况下为无服务器端点返回的指标。要增加端点上可能的吞吐量,请线性地增加 MaxConcurrency 的值。例如,如果推理推荐显示的 MaxInvocations1000,则将 MaxConcurrency 增至 2 将支持 2000 MaxInvocations。请注意,仅在某个特定点才出现这种情况,并且会因您的模型和代码而异。无服务器推荐还会衡量指标 ModelSetupTime,后者衡量在无服务器端点上启动计算机资源所花费的时间(以微秒为单位)。有关设置无服务器端点的更多信息,请参阅无服务器推理文档

Amazon SageMaker Studio

推理推荐填充在 Studio 中新的推理推荐选项卡中。显示结果最多可能需要 45 分钟。此选项卡包含结果详情列标题。

详情列提供了有关推理推荐作业的信息,例如推理推荐的名称、作业创建时间(创建时间)等。它还提供了设置信息,例如每分钟发生的最大调用次数以及有关使用的 Amazon 资源名称的信息。

结果列提供了部署目标SageMaker 推荐窗口,可在其中根据部署重要性调整结果的显示顺序。您可以使用三个下拉菜单来为使用案例提供成本延迟吞吐量的重要性级别。对于每个目标(成本、延迟和吞吐量),您可以设置重要性级别:最低重要性低重要性中等重要性高度重要最重要

根据您对每个目标的重要性选择,Inference Recommender 在面板右侧的 SageMaker 推荐字段中显示其顶级推荐,以及估计的每小时费用和推理请求。它还提供了有关预期模型延迟、最大调用次数和实例数的信息。对于无服务器推荐,您可以查看最大并发数和端点内存大小的理想值。

除了显示的顶级推荐之外,您还可以在所有运行部分中查看为 Inference Recommender 测试的所有实例显示的相同信息。

SageMaker console

通过执行以下操作,可以在 SageMaker 控制台中查看实例推荐作业:

  1. 转到位于 https://console.aws.amazon.com/sagemaker/ 的 SageMaker 控制台。

  2. 在左侧导航窗格中,选择推理,然后选择 Inference Recommender

  3. Inference Recommender 作业页面上,选择推理推荐作业的名称。

在作业的详细信息页面上,您可以查看推理推荐,它们是 SageMaker 为您的模型推荐的实例类型,如以下屏幕截图所示。

SageMaker 控制台中作业详细信息页面上的推理推荐列表的屏幕截图。

在此部分中,您可以按模型延迟每小时成本每次推理成本每分钟调用次数等各种因素比较实例类型。

在此页面上,您还可以查看为作业指定的配置。在监控部分中,您可以查看已为每种实例类型记录的 Amazon CloudWatch 指标。要详细了解如何解释这些指标,请参阅解释结果

有关解释推荐作业结果的更多信息,请参阅解释推荐结果

停止推理推荐

使用 StopInferenceRecommendationsJob API 或 Studio 以编程方式停止 Inference Recommender 推理推荐作业。

Amazon SDK for Python (Boto3)

JobName 字段指定推理推荐作业的名称:

sagemaker_client.stop_inference_recommendations_job( JobName='<INSERT>' )
Amazon CLI

job-name 标志指定推理推荐作业的作业名称:

aws sagemaker stop-inference-recommendations-job --job-name <job-name>
Amazon SageMaker Studio

关闭在其中启动推理推荐的选项卡以停止 Inference Recommender 推理推荐。

SageMaker console

要通过 SageMaker 控制台停止实例推荐作业,请执行以下操作:

  1. 转到位于 https://console.aws.amazon.com/sagemaker/ 的 SageMaker 控制台。

  2. 在左侧导航窗格中,选择推理,然后选择 Inference Recommender

  3. Inference Recommender 作业页面上,选择您的实例推荐作业。

  4. 选择停止作业

  5. 在弹出的对话框中,选择确认

停止作业后,作业的状态将变为正在停止