Agentic RAG as Harness

Summary

将 Agentic RAG 用 harness engineering 框架重新设计，可以实现”可控的智能检索”——不限制 Agent 能力，而是让它在正确轨道上更高效运行。更重要的是，harness 化的检索轨迹可以作为 RL 训练数据，桥接工具驱动和 RL 驱动两条演化路径。

Key Points

当前 Agentic RAG 的问题

直接把检索工具交给 Agent 自主决策，缺少：

检索质量守门——Agent 可能用垃圾证据直接生成
成本控制——可能无限循环检索
策略引导——完全依赖模型推理能力

Harness 化设计

Harness 层	应用方式	效果
前馈：策略引导	检索策略指南（先元数据、再语义搜索、后精读）	减少无效检索，降低 token 消耗
前馈：工具设计 (ACI)	精心设计的工具粒度（如 Chatbox 的 4 个工具）	工具即约束，限定操作空间
反馈：评估器	检索结果质量检查（相关度阈值、信息充分性）	智能替代 reranking
反馈：终止条件	最大检索轮次、token 预算、证据充分度	防止无限循环，控制成本
反馈：验证	答案与证据一致性校验	减少幻觉

瞬时性与持久性 Harness

借用袁超发的分类：

瞬时性：检索策略引导——模型推理能力增强后逐渐不需要
持久性：token 预算、安全边界、审计日志——物理约束永远存在

演化桥梁

Harness 执行轨迹变成训练数据的路径：

好的 RAG harness → 高质量检索轨迹 → RL 训练数据 → 模型内化检索策略 → harness 简化

这桥接了 Agentic RAG 的两条实现路径：从工具驱动（中等复杂度）渐进演化到 RL 驱动（高适应性），而非二选一。

Open Questions

Harness 化的 RAG 如何与 prompt caching 协同？迭代检索是否会破坏 cache 效率？
检索质量评估器本身需要多少推理能力？会不会引入额外延迟？
最优的工具粒度是什么？太粗失去精度，太细增加决策负担

Evidence Timeline

2026-04-08: 综合推理——将 agentic-rag 和 harness-engineering 两个概念交叉分析，产出本页

相关页面

harness