推理模型评估 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

推理模型评估

概述

推理模型支持允许使用具有推理功能的 Nova 模型进行评估,这些模型在生成最终响应之前执行明确的内部推理。此功能通过reasoning_effort参数使用 API 级控制来动态启用或禁用推理功能,从而有可能提高复杂分析任务的响应质量。

支持的模型

  • amazon.nova-2-lite-v 1:0:256 k

配方配置

通过将reasoning_effort参数添加到食谱的inference部分来启用推理:

run: name: reasoning-eval-job-name # [MODIFIABLE] Unique identifier for your evaluation job model_type: amazon.nova-2-lite-v1:0:256k # [FIXED] Must be a reasoning-supported model model_name_or_path: nova-lite-2/prod # [FIXED] Path to model checkpoint or identifier replicas: 1 # [MODIFIABLE] Number of replicas for SageMaker Training job data_s3_path: "" # [MODIFIABLE] Leave empty for SageMaker Training job; optional for SageMaker HyperPod job output_s3_path: "" # [MODIFIABLE] Output path for SageMaker HyperPod job (not compatible with SageMaker Training jobs) evaluation: task: mmlu # [MODIFIABLE] Evaluation task strategy: zs_cot # [MODIFIABLE] Evaluation strategy metric: accuracy # [MODIFIABLE] Metric calculation method inference: reasoning_effort: high # [MODIFIABLE] Enables reasoning mode; options: low/high or null to disable max_new_tokens: 32768 # [MODIFIABLE] Maximum tokens to generate, recommended value when reasoning_effort set to high top_k: -1 # [MODIFIABLE] Top-k sampling parameter top_p: 1.0 # [MODIFIABLE] Nucleus sampling parameter temperature: 0 # [MODIFIABLE] Sampling temperature (0 = deterministic)

使用 reasing_effort 参数

reasoning_effort参数控制具有推理能力的模型的推理行为。

先决条件

  • 模型兼容性-reasoning_effort 仅在model_type指定具有推理功能的模型时才设置(当前)amazon.nova-2-lite-v1:0:256k

  • 错误处理-在不支持的型号上使用reasoning_effort会失败 ConfigValidationError: "Reasoning mode is enabled but model '{model_type}' does not support reasoning. Please use a reasoning-capable model or disable reasoning mode."

可用选项

Option 行为 代币上限 使用案例
空(默认) 禁用推理模式 不适用 没有推理开销的标准评估
low 允许使用约束进行推理 4,000 个代币用于内部推理 需要简明推理的场景;针对速度和成本进行了优化
high 支持不受限制的推理 内部推理没有代币限制 需要大量分析和 step-by-step推理的复杂问题
训练模型 可用选项 如何配置
SFT(监督微调) 仅限高价或关闭 使用 reasing_enabled:true(高)或 reasing_enabled:false(关闭)
RFT(钢筋微调) 低、高或关 使用 reasing_efforts:low 或 reasing_efforts:高。省略字段以禁用。
评估 低、高或关 使用 reasing_efforts:low 或 reasing_efforts:高。使用空值禁用。

何时启用推理

使用推理模式(lowhigh

  • 复杂的问题解决任务(数学、逻辑谜题、编码)

  • 需要中间推理的多步骤分析问题

  • 详细解释或 step-by-step思考可以提高准确性的任务

  • 响应质量优先于速度的场景

使用非推理模式(null或省略参数)

  • 简单的问答或事实查询

  • 创意写作任务

  • 当更快的响应时间至关重要时

  • 绩效基准测试,其中应排除推理开销

  • 当推理无法提高任务性能时进行成本优化

问题排查

错误:“推理模式已启用,但模型不支持推理”

原因reasoning_effort参数设置为非空值,但指定的值model_type不支持推理。

解决方法:

  • 验证您的型号类型是 amazon.nova-2-lite-v1:0:256k

  • 如果使用其他模型,要么切换到具有推理功能的模型,要么从配方中删除该reasoning_effort参数