Summary
Self-Evolving Harness 是 LobeHub 创始人 Arvin Xu 提出的 Agent 架构理念:Harness 不应是静态执行环境,而应具备自我进化能力——通过 Tracing 数据驱动,在四个维度(上下文策略、工具编排、错误认知、模型适配)上持续自动优化。
Key Points
核心主张
需要自进化的不是 Agent,而是 Harness。 模型 + Harness 才是产品,单独的模型已经不再是产品。Harness 负责把模型、工具、上下文、权限、环境和用户任务组织在一起,决定了 Agent 能不能稳定地做完一件事。
范式转移(2026 上半年)
AI 产品竞争从模型能力竞争(benchmark、推理速度、上下文长度)转向环境感知和控制能力。Phil Schmid 称之为「持久性(Durability)」——模型在执行数百次工具调用后,还能多好地遵循指令?
悖论:模型越来越强,产品体验却未必同步提升。缺失的一环是产品本身能否随模型迭代、用户使用而自动进化。
Harness 四个进化维度
- 上下文策略:哪些信息该进入上下文,哪些延后/压缩/恢复
- 工具编排:schema 设计、调用时机、失败重试参数
- 错误认知:每种新错误模式都是 Harness 边界的更新
- 模型适配:70+ provider 的 API/限流/错误格式各不相同
Tracing 是核心构件
要让 Harness 改进自己,首先要让系统知道自己刚才发生了什么。可追溯(Traceability)是 Self-Evolution 的前提。
行业现状:LangChain/CrewAI/OpenAI Agents/AG2 的 tracing 都是「后加」的(callback/listener/middleware 可选),observability 不是一等公民。
LobeHub 方案:状态机模型 + 单步执行原则,每个 step 天然就是一个 trace event。Agent Operation Tracing 生成完整的 Execution Snapshot(执行快照),记录模型调用、Token 消耗、步骤类型、耗时、错误等。
Error Pattern 自动巡检(生产案例)
LobeHub 的第一个 Self-Evolving 实践:
- Agent 批量解析 tracing,按 provider/errorType/status code/message 分桶
- 对比已有 pattern 找出未覆盖错误,生成修复建议
- 运行 9 轮后:Pattern 从 31 增长到 104 趋于饱和,新增 Pattern 降至 0
- Agent 自主发现 20+ Harness 自身缺陷(schema 不兼容、负数 max_tokens 等)
- Agent 成功率从 ~75% 提升到 95%+
自进化四层次
- L0 — 纯人工:人发现、分析、修复
- L1 — Agent 辅助:Agent 找问题,人确认,Agent 执行修复
- L2 — Agent 主导:Agent 采集数据、识别模式、改代码、提 PR,人保留关键判断
- L3 — 人监督:Harness 持续自我观察和修复,人只设目标和审边界
- L4(目标):Agent 主动优化 Context Engine 策略、调整 Tool schema、预测和预防错误
LobeHub 当前处于 L3。L4 是下一步目标。
Consumer Product vs 自部署方案
Self-Evolving 需要信号密度。自部署方案(OpenClaw、Hermes)每天几条到几十条执行,信号太稀疏。Consumer Product(如 LobeHub)每天上万次执行,error 样本按分钟积累,支持快速反馈闭环。
护城河重新定义
AI-Native 产品的护城河不是模型(通用、可替换),而是 Harness 中沉淀的上下文、pattern、trajectory(专属、持续积累、无法复制)。
The Bitter Lesson 的新含义
Rich Sutton 的经典论述在 Agent 时代有了新含义:模型在快速迭代,手工编写的 Harness 逻辑随时可能过时(LangChain 一年重构三次,Manus 六个月重构五次)。唯一解法是让 Harness 自己能进化。
Open Questions
- L4 自进化在实践中如何保证安全边界?
- 自部署方案如何突破信号密度瓶颈?
- Self-Evolving Harness 的方法论能否泛化到非 LobeHub 产品?
Related Pages
- harness — Harness 概念:运行 LLM 的程序框架
- harness-engineering — Harness 工程:围绕 AI Agent 的系统性控制
- the-bitter-lesson — The Bitter Lesson:通用方法+算力 > 手工知识
- skillify — Skillify:每次失败转化为永久修复
- agent-context-management — Agent 上下文管理
- coding-agents — 编码 Agent 综述
- autoresearch — Autoresearch 自改进循环模式
- evo — Evo 开源 autoresearch orchestrator,实现了同时优化 harness 和模型权重的循环
- arvin-xu — 作者
- lobehub — 项目
Evidence Timeline
- 2026-05-27: Arvin Xu 发布 Twitter Article,系统阐述 Self-Evolving Harness 理念和 LobeHub 生产实践