本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
访问和分析评估结果
成功完成评估作业后,您可以参考本节中的信息访问并分析结果。根据配方中定义的 output_s3_path(例如 s3://output_path/),输出结构如下所示:
job_name/ ├── eval-result/ │ └── results_[timestamp].json │ └── inference_output.jsonl (only present for gen_qa) │ └── details/ │ └── model/ │ └── execution-date-time/ │ └──details_task_name_#_datetime.parquet └── tensorboard-results/ └── eval/ └── events.out.tfevents.[timestamp]
指标结果存储在指定的 S3 输出位置 s3://output_path/job_name/eval-result/result-timestamp.json。
Tensorboard 结果存储在 S3 路径 s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip 中。
除 llm_judge 和 strong_reject 之外的所有推理输出都存储在 S3 路径中:s3://output_path/job_name/eval-result/details/model/taskname.parquet。
对于 gen_qa,inference_output.jsonl 文件针对每个 JSON 对象均包含以下字段:
-
prompt:提交给模型的最终提示
-
推理:模型的原始推理输出
-
gold-来自输入数据集的目标响应
-
metadata-输入数据集中的元数据字符串(如果提供)
要在 Tensorboard 中直观显示您的评估指标,请完成以下步骤:
-
导航到 SageMaker AI 张量板。
-
选择 S3 文件夹。
-
添加您的 S3 文件夹路径,例如
s3://output_path/job-name/eval-tensorboard-result/eval。 -
等待同步完成。
时间序列、标量和文本可视化均可用。
我们建议您遵循以下最佳实操:
-
按模型和基准测试类型整理输出路径。
-
保持一致的命名约定以便于跟踪。
-
将解压缩的结果保存在安全的位置。
-
监控 TensorBoard 同步状态以成功加载数据。
您可以在日志组中找到 HyperPod 任务错误日志/aws/sagemaker/Clusters/cluster-id。 CloudWatch