本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
推理模型评估
概述
推理模型支持允许使用具有推理功能的 Nova 模型进行评估,这些模型在生成最终响应之前执行明确的内部推理。此功能通过reasoning_effort参数使用 API 级控制来动态启用或禁用推理功能,从而有可能提高复杂分析任务的响应质量。
支持的模型
-
amazon.nova-2-lite-v 1:0:256 k
配方配置
通过将reasoning_effort参数添加到食谱的inference部分来启用推理:
run: name: reasoning-eval-job-name # [MODIFIABLE] Unique identifier for your evaluation job model_type: amazon.nova-2-lite-v1:0:256k # [FIXED] Must be a reasoning-supported model model_name_or_path: nova-lite-2/prod # [FIXED] Path to model checkpoint or identifier replicas: 1 # [MODIFIABLE] Number of replicas for SageMaker Training job data_s3_path: "" # [MODIFIABLE] Leave empty for SageMaker Training job; optional for SageMaker HyperPod job output_s3_path: "" # [MODIFIABLE] Output path for SageMaker HyperPod job (not compatible with SageMaker Training jobs) evaluation: task: mmlu # [MODIFIABLE] Evaluation task strategy: zs_cot # [MODIFIABLE] Evaluation strategy metric: accuracy # [MODIFIABLE] Metric calculation method inference: reasoning_effort: high # [MODIFIABLE] Enables reasoning mode; options: low/high or null to disable max_new_tokens: 32768 # [MODIFIABLE] Maximum tokens to generate, recommended value when reasoning_effort set to high top_k: -1 # [MODIFIABLE] Top-k sampling parameter top_p: 1.0 # [MODIFIABLE] Nucleus sampling parameter temperature: 0 # [MODIFIABLE] Sampling temperature (0 = deterministic)
使用 reasing_effort 参数
该reasoning_effort参数控制具有推理能力的模型的推理行为。
先决条件
-
模型兼容性-
reasoning_effort仅在model_type指定具有推理功能的模型时才设置(当前)amazon.nova-2-lite-v1:0:256k -
错误处理-在不支持的型号上使用
reasoning_effort会失败ConfigValidationError: "Reasoning mode is enabled but model '{model_type}' does not support reasoning. Please use a reasoning-capable model or disable reasoning mode."
可用选项
| Option | 行为 | 代币上限 | 使用案例 |
|---|---|---|---|
| 空(默认) | 禁用推理模式 | 不适用 | 没有推理开销的标准评估 |
| low | 允许使用约束进行推理 | 4,000 个代币用于内部推理 | 需要简明推理的场景;针对速度和成本进行了优化 |
| high | 支持不受限制的推理 | 内部推理没有代币限制 | 需要大量分析和 step-by-step推理的复杂问题 |
| 训练模型 | 可用选项 | 如何配置 |
|---|---|---|
| SFT(监督微调) | 仅限高价或关闭 | 使用 reasing_enabled:true(高)或 reasing_enabled:false(关闭) |
| RFT(钢筋微调) | 低、高或关 | 使用 reasing_efforts:low 或 reasing_efforts:高。省略字段以禁用。 |
| 评估 | 低、高或关 | 使用 reasing_efforts:low 或 reasing_efforts:高。使用空值禁用。 |
何时启用推理
使用推理模式(low或high)
-
复杂的问题解决任务(数学、逻辑谜题、编码)
-
需要中间推理的多步骤分析问题
-
详细解释或 step-by-step思考可以提高准确性的任务
-
响应质量优先于速度的场景
使用非推理模式(null或省略参数)
-
简单的问答或事实查询
-
创意写作任务
-
当更快的响应时间至关重要时
-
绩效基准测试,其中应排除推理开销
-
当推理无法提高任务性能时进行成本优化
问题排查
错误:“推理模式已启用,但模型不支持推理”
原因:reasoning_effort参数设置为非空值,但指定的值model_type不支持推理。
解决方法:
-
验证您的型号类型是
amazon.nova-2-lite-v1:0:256k -
如果使用其他模型,要么切换到具有推理功能的模型,要么从配方中删除该
reasoning_effort参数