My Brain Wiki

❯

❯

❯

Evo

2026年6月07日3分钟阅读

autoresearch
agent
open-source
harness
fine-tuning
benchmark

Summary

Evo 是一个开源的 autoresearch orchestrator，由 Alok Bishoyi 等人构建。给定一个系统、“更好”的定义和预算，Evo 自动生成假设、在隔离工作区中运行实验、评分结果，并维护一棵尝试树——扩展有效的，剪枝无效的。

Key Points

核心能力：同时优化模型权重（SFT/LoRA/RL）和 harness（prompts/scaffold/skills），在同一循环中、针对同一目标
v0.5 里程碑：首次实现模型微调 + harness 改写的一体化循环，系统自行决定预算分配
LawBench 成绩：在中文刑事案件定罪基准上达到 0.776，超过此前 SOTA（0.701），且全程无人工干预
奥卡姆剃刀发现：Evo 尝试了 120B 模型微调但效果不佳，最终落地方案是一个无 LLM 的经典分类器管线，跑在低端无 GPU 机器上
开源：Evo 本身、基准评测器、获胜 harness、完整运行记录全部开源
兼容宿主：Claude Code、Codex、Cursor 等

设计哲学

base model × harness × a verifiable loop

三个因子相乘。多年来只有第一个因子（base model）在移动——新模型发布带动下游一切。另外两个因子（harness 和可验证循环）一直是你的，但难以系统化地推动。自改进循环让它们动起来。

Connections

核心理念与 self-evolving-harness 密切相关——harness 通过 tracing 数据自动进化
与 meta-harness 互补——Meta-Harness 搜索最优 harness 配置，Evo 更进一步同时搜索模型和 harness
LawBench 结果挑战了 the-bitter-lesson 的隐含假设——更大更强的模型不一定是最优解
奥卡姆剃刀结果与 latent-vs-deterministic 框架呼应——最终方案是确定性的经典管线
属于 coding-agents 生态中的自改进子类别
alok-bishoyi 是 Evo 的核心构建者

Open Questions

Evo 在其他基准（如 SWE-bench）上的表现如何？
“可验证循环”对 reward hacking 的抵抗力有多强？文章提到 auditor 检查但未详述
与 RLHF/DPO 等训练方法的关系——Evo 的 fine-tuning 是用什么信号？

Evidence Timeline

2026-06-06: Alok Bishoyi 在 X 发布 Twitter Article，报告 Evo v0.5 在 LawBench 上达到 0.776 SOTA ^[sources/articles/evo-autoresearch-lawbench-2026.md]

关系图谱

Summary
Key Points
设计哲学
Connections
Open Questions
Evidence Timeline

反向链接

index
Autoresearch
Meta-Harness
Self-Evolving Harness
The Bitter Lesson
Alok Bishoyi

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community