Codebase QnA

Codebase QnA（代码库问答）是一类 AI Agent 评测任务形式：给定一个真实代码库，让 Agent 通过探索代码回答关于架构、实现细节、行为的自然语言问题。

与传统代码基准的区别

传统基准（HumanEval、SWE-bench）要求 Agent 生成或修改代码。Codebase QnA 测试的是：

../projects/swe-atlas.md 的 QnA 子基准包含 496 个任务，典型问题如：

“Reader 开发服务器绑定哪个端口？架构是否使用多端口处理热重载和 API 调用？ Redux 在初始加载时触发哪些 action？侧栏在不同屏幕宽度下的响应式设计逻辑是什么？”

Agent 需要：

由 LLM Judge（Claude Opus 4.5）依据 rubrics.json 评分，属于开放式问答评测。