AI Coding Benchmark

AI 编程基准（AI Coding Benchmark）是用于评测 AI 代码生成/编程 Agent 能力的标准化测试集，是衡量 LLM 和 Agent 在真实软件工程任务上表现的核心工具。

主要评测维度

维度	代表基准	说明
Bug 修复	swe-bench.md	给定 GitHub issue，让 agent 修复 bug 并通过测试
代码问答	../projects/swe-atlas.md (QnA)	深度代码库理解与自然语言问答
测试编写	../projects/swe-atlas.md (TW)	为给定代码编写高覆盖率测试
代码补全	HumanEval, MBPP	填写函数实现
多语言	MultiPL-E	跨编程语言代码生成

../projects/swe-atlas.md 使用 Claude Opus 4.5 作为 judge，依据人工编写的 rubrics.json 对 agent 答案评分。这允许评测主观性更强、无法用程序验证的任务。