本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
模型评估笔记本教程
本节提供以下笔记本教程,其中包括示例代码和说明:
-
如何评估 JumpStart 模型的即时刻刻板印象。
-
如何评估 Amazon Bedrock 模型的文本摘要准确性。
其他笔记本电脑
fmeval GitHub
-
bedrock-claude-factual-knowledge.ipnyb
— 评估在亚马逊 Bed rock 上托管的 Anthropic Claude 2 模型 以获取事实知识。 -
byo-model-outputs.ipynb
— 评估托管的 Falcon 7b 模型 JumpStart 以获取事实知识,在该模型中,您可以自带模型输出,而不是向模型发送推理请求。 -
custom_model_runner_chat_gpt.ip
nyb — 评估托管的自定义模型以获取事实知识。 ChatGPT 3.5
Hugging Face