

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 访问和分析评估结果


成功完成评估作业后，您可以参考本节中的信息访问并分析结果。根据配方中定义的 `output_s3_path`（例如 `s3://output_path/`），输出结构如下所示：

```
job_name/
├── eval-result/
│    └── results_[timestamp].json
│    └── inference_output.jsonl (only present for gen_qa)
│    └── details/
│        └── model/
│            └── execution-date-time/
│                └──details_task_name_#_datetime.parquet
└── tensorboard-results/
    └── eval/
        └── events.out.tfevents.[timestamp]
```

指标结果存储在指定的 S3 输出位置 `s3://output_path/job_name/eval-result/result-timestamp.json`。

Tensorboard 结果存储在 S3 路径 `s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip` 中。

除 `llm_judge` 和 `strong_reject` 之外的所有推理输出都存储在 S3 路径中：`s3://output_path/job_name/eval-result/details/model/taskname.parquet`。

对于 `gen_qa`，`inference_output.jsonl` 文件针对每个 JSON 对象均包含以下字段：
+ prompt：提交给模型的最终提示
+ 推理：模型的原始推理输出
+ gold-来自输入数据集的目标响应
+ metadata-输入数据集中的元数据字符串（如果提供）

要在 Tensorboard 中直观显示您的评估指标，请完成以下步骤：

1. 导航到 SageMaker AI 张量板。

1. 选择 **S3 文件夹**。

1. 添加您的 S3 文件夹路径，例如 `s3://output_path/job-name/eval-tensorboard-result/eval`。

1. 等待同步完成。

时间序列、标量和文本可视化均可用。

我们建议您遵循以下最佳实操：
+ 按模型和基准测试类型整理输出路径。
+ 保持一致的命名约定以便于跟踪。
+ 将解压缩的结果保存在安全的位置。
+ 监控 TensorBoard 同步状态以成功加载数据。

您可以在日志组中找到 HyperPod 任务错误日志`/aws/sagemaker/Clusters/cluster-id`。 CloudWatch 