Anthropic 工程师的实践:通过多 agent harness 设计提升 Claude 在复杂长时间任务上的表现。核心思路:把生成器和评估器分离,类似 GAN 的对抗反馈循环。
两个核心问题
1. Context Management(上下文管理)
- 上下文窗口填满时模型性能下降
- Claude Sonnet 4.5 出现”context anxiety”——感知到上下文极限时提前结束工作
- Compaction(压缩)保持连续性,但 context reset(重置)提供更干净的状态
2. Self-Evaluation Bias(自我评估偏差)
- Agent 倾向于过度赞美自己的输出
- 将评估从生成中分离,比提高自我批评更可行
- 外部评估器可以通过迭代 prompt 调优来偏向怀疑
前端设计应用:GAN 式反馈循环
四个可评分标准:
- Design Quality: 视觉一致性(颜色、排版、布局)
- Originality: 避免模板默认值和可识别的 AI 模式
- Craft: 技术执行(层次、间距、对比度)
- Functionality: 可用性和任务完成度
迭代中后期有时会出现意外的创意转变——一个艺术博物馆网站从常规暗色主题演变为沉浸式 3D 空间体验。
全栈架构:三个专门 Agent
Planner(规划者)
将 1-4 句 prompt 扩展为全面产品规范,包括 AI 功能机会
Generator(生成者)
使用 React/Vite/FastAPI/PostgreSQL 迭代实现,带自我评估检查点
Evaluator(评估者)
通过 Playwright 进行功能测试,对照协商的 sprint 合同验证,有硬性成功阈值
Agent 之间通过结构化文件通信,桥接高级规范和详细实现。
对比结果
Retro Game Maker (Opus 4.5)
- 单独运行:20 分钟,$9 → 功能有限,核心玩法坏了
- 完整 harness:6 小时,$200 → 精致、功能丰富、玩法正常
- 20 倍成本,但用户体验质的飞跃
DAW Project (Opus 4.6 V2)
- 3 小时 50 分钟,$124.70
- Agent 保持连续会话,自动上下文压缩
- 评估器捕获持续问题:时间线交互存根、缺失效果可视化、音频录制不完整
演进与简化
Opus 4.6 的能力提升 → harness 可以简化:
- 移除基于 sprint 的分解(模型能处理更长的连贯性)
- 合并评估器 pass(简单任务减少开销)
- Sprint 集中在仍处于能力边界的任务上
关键洞察
- Harness 假设需要压力测试 — 模型能力提升时,减少脚手架
- 标准措辞影响输出 — “museum quality” 直接影响了设计方向
- 评估器调优需要迭代 — 通过日志分析和 prompt 调优建立怀疑态度
- 结构分离实现反馈循环 — 生成器-评估器动态优于自我改进
- 持续实验 — 生产级任务 + 详细 trace 分析 + 方法论组件测试