My Brain Wiki

❯

❯

❯

Harness Design for Long Running Application Development

Harness Design for Long-Running Application Development

2026年4月07日4分钟阅读

harness-engineering
multi-agent
anthropic
claude
frontend-design

Anthropic 工程师的实践：通过多 agent harness 设计提升 Claude 在复杂长时间任务上的表现。核心思路：把生成器和评估器分离，类似 GAN 的对抗反馈循环。

两个核心问题

1. Context Management（上下文管理）

上下文窗口填满时模型性能下降
Claude Sonnet 4.5 出现”context anxiety”——感知到上下文极限时提前结束工作
Compaction（压缩）保持连续性，但 context reset（重置）提供更干净的状态

2. Self-Evaluation Bias（自我评估偏差）

Agent 倾向于过度赞美自己的输出
将评估从生成中分离，比提高自我批评更可行
外部评估器可以通过迭代 prompt 调优来偏向怀疑

前端设计应用：GAN 式反馈循环

四个可评分标准：

Design Quality: 视觉一致性（颜色、排版、布局）
Originality: 避免模板默认值和可识别的 AI 模式
Craft: 技术执行（层次、间距、对比度）
Functionality: 可用性和任务完成度

迭代中后期有时会出现意外的创意转变——一个艺术博物馆网站从常规暗色主题演变为沉浸式 3D 空间体验。

全栈架构：三个专门 Agent

Planner（规划者）

将 1-4 句 prompt 扩展为全面产品规范，包括 AI 功能机会

Generator（生成者）

使用 React/Vite/FastAPI/PostgreSQL 迭代实现，带自我评估检查点

Evaluator（评估者）

通过 Playwright 进行功能测试，对照协商的 sprint 合同验证，有硬性成功阈值

Agent 之间通过结构化文件通信，桥接高级规范和详细实现。

对比结果

Retro Game Maker (Opus 4.5)

单独运行：20 分钟，$9 → 功能有限，核心玩法坏了
完整 harness：6 小时，$200 → 精致、功能丰富、玩法正常
20 倍成本，但用户体验质的飞跃

DAW Project (Opus 4.6 V2)

3 小时 50 分钟，$124.70
Agent 保持连续会话，自动上下文压缩
评估器捕获持续问题：时间线交互存根、缺失效果可视化、音频录制不完整

演进与简化

Opus 4.6 的能力提升 → harness 可以简化：

移除基于 sprint 的分解（模型能处理更长的连贯性）
合并评估器 pass（简单任务减少开销）
Sprint 集中在仍处于能力边界的任务上

关键洞察

Harness 假设需要压力测试 — 模型能力提升时，减少脚手架
标准措辞影响输出 — “museum quality” 直接影响了设计方向
评估器调优需要迭代 — 通过日志分析和 prompt 调优建立怀疑态度
结构分离实现反馈循环 — 生成器-评估器动态优于自我改进
持续实验 — 生产级任务 + 详细 trace 分析 + 方法论组件测试

关系图谱

两个核心问题
1. Context Management（上下文管理）
2. Self-Evaluation Bias（自我评估偏差）
前端设计应用：GAN 式反馈循环
全栈架构：三个专门 Agent
Planner（规划者）
Generator（生成者）
Evaluator（评估者）
对比结果
Retro Game Maker (Opus 4.5)
DAW Project (Opus 4.6 V2)
演进与简化
关键洞察

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community