推理模型评估

概述

推理模型支持允许使用具有推理功能的 Nova 模型进行评估，这些模型在生成最终响应之前执行明确的内部推理。此功能通过reasoning_effort参数使用 API 级控制来动态启用或禁用推理功能，从而有可能提高复杂分析任务的响应质量。

支持的模型

amazon.nova-2-lite-v 1:0:256 k

配方配置

通过将reasoning_effort参数添加到食谱的inference部分来启用推理：


run:  
  name: reasoning-eval-job-name                          # [MODIFIABLE] Unique identifier for your evaluation job  
  model_type: amazon.nova-2-lite-v1:0:256k               # [FIXED] Must be a reasoning-supported model  
  model_name_or_path: nova-lite-2/prod                   # [FIXED] Path to model checkpoint or identifier  
  replicas: 1                                            # [MODIFIABLE] Number of replicas for SageMaker Training job  
  data_s3_path: ""                                       # [MODIFIABLE] Leave empty for SageMaker Training job; optional for SageMaker HyperPod job  
  output_s3_path: ""                                     # [MODIFIABLE] Output path for SageMaker HyperPod job (not compatible with SageMaker Training jobs)  
  
evaluation:  
  task: mmlu                                             # [MODIFIABLE] Evaluation task  
  strategy: zs_cot                                       # [MODIFIABLE] Evaluation strategy  
  metric: accuracy                                       # [MODIFIABLE] Metric calculation method  
  
inference:  
  reasoning_effort: high                                 # [MODIFIABLE] Enables reasoning mode; options: low/high or null to disable  
  max_new_tokens: 32768                                  # [MODIFIABLE] Maximum tokens to generate, recommended value when reasoning_effort set to high  
  top_k: -1                                              # [MODIFIABLE] Top-k sampling parameter  
  top_p: 1.0                                             # [MODIFIABLE] Nucleus sampling parameter  
  temperature: 0                                         # [MODIFIABLE] Sampling temperature (0 = deterministic)

使用 reasing_effort 参数

该reasoning_effort参数控制具有推理能力的模型的推理行为。

先决条件

模型兼容性-reasoning_effort 仅在model_type指定具有推理功能的模型时才设置（当前）amazon.nova-2-lite-v1:0:256k
错误处理-在不支持的型号上使用reasoning_effort会失败 ConfigValidationError: "Reasoning mode is enabled but model '{model_type}' does not support reasoning. Please use a reasoning-capable model or disable reasoning mode."

可用选项

Option	行为	代币上限	使用案例
空（默认）	禁用推理模式	不适用	没有推理开销的标准评估
low	允许使用约束进行推理	4,000 个代币用于内部推理	需要简明推理的场景；针对速度和成本进行了优化
high	支持不受限制的推理	内部推理没有代币限制	需要大量分析和 step-by-step推理的复杂问题

训练模型	可用选项	如何配置
SFT（监督微调）	仅限高价或关闭	使用 reasing_enabled：true（高）或 reasing_enabled：false（关闭）
RFT（钢筋微调）	低、高或关	使用 reasing_efforts：low 或 reasing_efforts：高。省略字段以禁用。
评估	低、高或关	使用 reasing_efforts：low 或 reasing_efforts：高。使用空值禁用。

何时启用推理

使用推理模式（low或high）

复杂的问题解决任务（数学、逻辑谜题、编码）
需要中间推理的多步骤分析问题
详细解释或 step-by-step思考可以提高准确性的任务
响应质量优先于速度的场景

使用非推理模式（null或省略参数）

简单的问答或事实查询
创意写作任务
当更快的响应时间至关重要时
绩效基准测试，其中应排除推理开销
当推理无法提高任务性能时进行成本优化

问题排查

错误：“推理模式已启用，但模型不支持推理”

原因：reasoning_effort参数设置为非空值，但指定的值model_type不支持推理。

解决方法：

验证您的型号类型是 amazon.nova-2-lite-v1:0:256k
如果使用其他模型，要么切换到具有推理功能的模型，要么从配方中删除该reasoning_effort参数

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

基于专栏的评委

RFT 评估