Summary

Agent Operation Tracing 是 LobeHub 自研的 Agent 可观测性基础设施,为每次 Agent 执行生成完整的 Execution Snapshot(执行快照),是 Self-Evolving Harness 的核心构件。

Key Points

为什么 Tracing 是 Self-Evolution 的前提

要让 Harness 改进自己,首先要让系统知道自己刚才发生了什么。没有可追溯的执行记录,Self-Evolution 就是空中楼阁。

行业困境

主流 Agent Framework 的 tracing 都是「后加」的:

  • LangChain: callback 可选,忘了注册就丢 trace
  • CrewAI: 事件监听器挂在事件总线上,事件丢失 = trace 断裂
  • OpenAI Agents: 需要显式创建 trace,不自动传播
  • AG2: middleware 可选安装,不装就零 tracing

根本原因:所有 runtime 架构都没把 observability 当作一等公民。

LobeHub 的方案

状态机模型 + 单步执行原则:

执行 → [需要手动加 callback] → 产生 trace  (行业现状)
单步执行 → 自然产生 trace(run step = event boundary)  (LobeHub)

Execution Snapshot 内容

每次 Agent 执行记录:

  • 调用了哪个模型
  • 每个 LLM 请求的 Token 消耗和 cache 命中率
  • 每一步的类型(call_llm / call_tool)和耗时
  • 执行总步数、总耗时、总成本
  • 出错步骤和错误详情
  • 单步执行时的 Context Engine 状态

价值

  • 开发调试: 可视化执行流程
  • 生产环境: 每次失败留下足够上下文,支持错误模式分析、上下文策略优化、新模型适配
  • Harness 进化: Trace 是 Harness 的黑匣子,让问题可以回放、归因和比较

开源

Agent Tracing 已在 LobeHub 主仓库开源