SWE-Atlas

SWE-Atlas 是由 ../people/scale-ai.md 发布的 AI 编程 Agent 评测基准，覆盖软件开发生命周期中多种专业工程能力，而非单一孤立技能。

概述

GitHub: https://github.com/scaleapi/SWE-Atlas
排行榜: https://labs.scale.com/leaderboard/sweatlas-qna 和 sweatlas-tw
与 ../concepts/swe-bench.md 等同类基准的区别：包含多个子榜，覆盖不同维度能力

两个子基准

Codebase QnA (代码库问答)

任务数：496
类型：深度代码库理解与问答
代表任务类别：Code Onboarding（新人上手）
涉及真实开源仓库（如 Automattic/wp-calypso）
Agent 需探索代码库，找出答案写入 /logs/agent/answer.txt

Test Writing (测试编写)

任务数：360
类型：为给定代码编写高质量测试

任务结构

每个任务是一个独立文件夹，包含：

task-<id>/
  instruction.md        # 给 agent 的问题/任务
  task.toml             # 元数据（仓库、commit、Docker、资源）
  environment/
    Dockerfile          # 运行环境镜像
  solution/
    answer.txt          # 参考答案
    solve.sh            # 参考解法
  tests/
    evaluate_answer.py  # 自动评测脚本
    rubrics.json        # LLM judge 评分标准
    system_prompt.txt   # judge 系统提示
    user_prompt_template.txt
    test.sh

资源配置（QnA 典型）

CPUs: 16
RAM: 16 GB
Storage: 20 GB
GPU: 无
网络: 允许访问外网
Agent 超时: 3 小时（10800s）
Verifier 超时: 900s

评测流程

Agent 在 Docker 沙箱内探索代码库
将答案写入 /logs/agent/answer.txt，用 <<FINAL_ANSWER>> 标签包裹
LLM Judge（Claude Opus 4.5）依据 rubrics.json 打分
各任务得分汇总至排行榜

运行方式

依赖 harbor.md 框架和 ../concepts/modal.md 沙箱：

git clone https://github.com/laude-institute/harbor.git
cd harbor && uv tool install .
 
uv pip install modal && modal setup
 
bash run_config/tw/opus-4p6_claude-code.sh

My Brain Wiki

探索

SWE-Atlas

SWE-Atlas

概述

两个子基准

Codebase QnA (代码库问答)

Test Writing (测试编写)

任务结构

资源配置（QnA 典型）

评测流程

运行方式

相关实体

相关概念

关系图谱

目录

反向链接