一、OpenClaw:一个周末项目如何引爆 GitHub
2025 年 11 月,奥地利程序员 Peter Steinberger(PSPDFKit 创始人)启动了一个名为 "Clawdbot" 的周末项目。四个月后,这个项目以 OpenClaw 之名登顶 GitHub Stars 历史第一,超越了 Linux 内核和 React。
📊 核心数据(截至 2026 年 3 月)
- 248,711 Stars — GitHub 历史第一
- 48 小时新增 34,168 Stars — 病毒式传播
- 47,700 Forks — 社区活跃度极高
- 900+ 贡献者 — 开源生态繁荣
- 13,729 个社区 Skills — 扩展生态丰富
1.1 从 "对话助手" 到 "行动代理" 的范式转移
OpenClaw 的核心理念很简单:让大模型从 "会聊天的对话框" 升级为 "能自己干活的数字员工"。它赋予了 AI 以下能力:
- 文件系统访问 — 读写本地文件
- Shell 终端控制 — 执行系统命令
- 浏览器自动化 — 网页操作与数据抓取
- 24/7 守护进程 — 长期运行、自主决策
"2025 年末至 2026 年初,AI 领域经历了一场范式级别的震荡。LLM 不再满足于对话,它们开始要求文件系统访问权限、Shell 终端、浏览器控制权,以及一套能够长期运行的'外骨骼'。"
1.2 四层架构解析
OpenClaw 采用清晰的分层架构:
| 层级 | 名称 | 职责 |
|---|---|---|
| L1 | Gateway | 网关层,会话管理、消息路由、渠道连接的统一管理中心 |
| L2 | Channels | 通信通道层,支持 Discord、Slack、Telegram、WhatsApp 等 20+ 平台 |
| L3 | Agent Runtime | 智能体运行时,核心执行引擎,支持多 Agent 路由与隔离 |
| L4 | Skills | 技能系统,可执行文件操作、Shell 命令、Web 自动化等任务 |
1.3 安全危机与生态教训
2026 年 2 月,安全研究人员发现了 ClawHavoc 事件:Skills 市场中 341 个恶意 Skills(占比 11.3%)在批量窃取加密货币密钥与 SSH 凭证。这成为开源 AI Agent 生态的首次大规模供应链攻击警示。
同年 2 月 14 日,Sam Altman 宣布 Peter Steinberger 加入 OpenAI,负责下一代个人 Agent 开发。OpenClaw 移交开源基金会管理,确保社区独立性。
二、Agent Harness:AI Agent 的工程化核心
如果说 2025 年是 "Agent 元年",那么 2026 年就是 "Harness 爆发之年"。一个简洁而有力的公式正在快速成为行业主流认知:
🔧 核心公式
Agent = Model + Harness
你不是模型,那你做的东西大概率就是 Harness。模型只提供推理和生成能力,Harness 是模型之外的整套系统 —— 系统提示词、工具调用、文件系统、沙箱环境、编排逻辑、反馈回路、约束机制。
2.1 三层工程的层级关系
| 层级 | 名称 | 解决的问题 | 典型工作 |
|---|---|---|---|
| L1 | Prompt Engineering | 怎么把指令说清楚 | 系统提示词设计、Few-shot 示例、思维链引导 |
| L2 | Context Engineering | 该给 Agent 看什么 | 上下文管理、RAG、记忆注入、Token 优化 |
| L3 | Harness Engineering | 系统怎么持续执行、纠偏、观测和恢复 | 文件系统、沙箱、约束执行、反馈回路、观测 |
2.2 六层架构详解
一个成熟的 Harness 通常采用以下六层体系:
| 层级 | 名称 | 解决什么问题 |
|---|---|---|
| L1 | 信息边界层 | Agent 该知道什么、不该知道什么 |
| L2 | 工具系统层 | Agent 怎么和外部世界交互 |
| L3 | 执行编排层 | 多步骤任务怎么串起来 |
| L4 | 记忆与状态层 | 长任务中间结果怎么管理 |
| L5 | 评估与观测层 | Agent 怎么知道自己做对了没有 |
| L6 | 约束、校验与恢复层 | 出错了怎么办 |
2.3 上下文管理的关键瓶颈:40% 阈值
Dex Horthy 观察到:168K token 的上下文窗口,用到约 40% 时,Agent 输出质量就开始明显下降。Anthropic 称之为 "上下文焦虑" —— Sonnet 4.5 在上下文快填满时会变得犹豫,甚至倾向于提前收工。
解决方案:Context Resets —— 清空上下文窗口,但通过结构化交接文档保留关键状态。把 40% 当成告警线,超过后触发压缩、分段执行或任务交接。
2.4 一线团队实战数据
📈 OpenAI 案例:3 个人,5 个月,100 万行代码,0 手写
- 团队规模:3 名工程师 → 后扩至 7 人
- 代码规模:约 100 万行,手写代码 0 行(纯设计约束)
- 合并 PR 数:约 1,500 个
- 日均 PR/人:3.5 个
- 效率提升:约 10 倍
四大关键实践:
- 给 Agent 一张地图,不要塞一本千页手册 —— AGENTS.md 约 100 行,作用像目录,详细规则按需加载
- 架构约束要靠工具执行 —— "If it cannot be enforced mechanically, agents will deviate."
- 可观测性也要给 Agent 看 —— Chrome DevTools Protocol 接进 Agent 运行时
- 熵不会自己消失 —— 后台 Agent 定期扫描并自动提交清理 PR
三、三大协议生态:MCP、A2A、ACP
当企业 AI 系统从孤立的工具演进为协作的智能体网络时,一个关键问题浮现:如何让不同的 AI 智能体有效沟通与协作? 2025-2026 年,三大协议正在塑造 AI Agent 的生态格局。
3.1 MCP(Model Context Protocol)
提出方:Anthropic
定位:AI 的"数据与工具接口",类似于电脑的 USB 协议
MCP 解决的核心问题:
- Token 爆炸 —— 按需加载、字段过滤、分页更新
- 数据格式不统一 —— 结构化 DB、半结构化 API、非结构化文件统一封装
- 安全与权限不可控 —— 细粒度权限、审计日志、数据脱敏
- 工具维护成本高 —— 工具热插拔、版本化、集中管理
3.2 A2A(Agent-to-Agent Protocol)
提出方:Google
定位:智能体的"国际通用语",跨平台、跨组织、跨域协作标准
核心组件:
- Agent Card —— 每个 Agent 的"身份证+能力说明书"
- 双向通信接口 —— 对等协议,任何 Agent 既可客户端也可服务端
- 安全与权限框架 —— 基于 OAuth2、API Key、范围授权
3.3 ACP(Agent Communication Protocol)
提出方:BeeAI、IBM 等机构联合推动
定位:边缘设备本地实时协同的"对讲机"
核心特性:
- 毫秒级响应延迟
- 弱网/断网环境下自主运行
- 完全去中心化,无中心服务器
- 设备自动发现与自主组网
3.4 三大协议对比与协同
| 维度 | MCP | A2A | ACP |
|---|---|---|---|
| 核心定位 | 模型-工具/数据连接 | 跨平台智能体互通 | 边缘设备本地实时协同 |
| 部署环境 | 云原生、企业内网 | 全域、跨云、跨组织 | 边缘、嵌入式、工业现场 |
| 延迟 | 百毫秒级 | 百毫秒~秒级 | 毫秒级 |
| 去中心化 | 否 | 可支持 | 是 |
| 典型角色 | 数据网关、工具总线 | 智能体外交、任务链 | 设备对讲、本地组网 |
云-边-端标准架构:
- 云端 Agent 之间 —— A2A 协作;调用内部系统用 MCP
- 边缘端 —— 设备之间用 ACP 本地协同;Edge Agent 与云端 Agent 用 A2A 通信
- 全局架构 —— A2A 负责跨域协作 + MCP 负责数据安全接入 + ACP 负责现场实时控制
四、AI Agent vs Agentic AI:概念澄清
康奈尔大学研究团队在一篇综述中明确区分了这两个概念:
| 对比维度 | AI Agent | Agentic AI |
|---|---|---|
| 架构层级 | 单一实体 | 多 Agent 网络系统 |
| 目标范围 | 特定、明确的单一任务 | 复杂、高层次的整体目标 |
| 智能形态 | 个体智能(响应式) | 系统级智能(协作式) |
| 协作能力 | 孤立运行,无协作 | 多 Agent 动态通信、共享记忆、协同决策 |
| 典型比喻 | 单个"员工" | 多个"小团队"分工协作 |
"Agentic AI 是在 AI Agent 基础上的自然延伸。AI Agent 是构建 Agentic AI 的基础单元,Agentic AI 是 AI Agent 发展的必然方向。"
五、技术演进路线图
根据康奈尔大学综述和行业实践,AI Agent 的技术演进可分为三个阶段:
第一阶段:AI Agent(个体能力突破)
- 主动推理:从被动响应 → 基于模式/上下文主动发起任务
- 工具集成:动态接入数据库、API 完成复杂任务
- 因果推理:理解因果关系,支持诊断、规划、预测
- 持续学习:借助反馈和情境记忆不断调整行为
第二阶段:Agentic AI(系统级协作进化)
- 多 Agent 并行协作:类似人类团队,协调层分配角色
- 持久记忆架构:保障长任务协调和状态感知
- 模拟规划:执行前测试策略、预测结果、优化行为
- 伦理治理框架:确保责任归属与价值对齐
第三阶段:下一代 AI(AZR 范式)
- 自主生成、验证与解决任务 → 自我进化(无需外部数据)
- 提出假设 → 模拟实验 → 验证结果 → 调整策略的自动科研
六、未解决的核心问题
尽管 2026 年 Agent 生态蓬勃发展,以下五大问题仍待解决:
| 问题 | 现状 |
|---|---|
| 棕地项目怎么改造 | 缺少成熟方法论;公开成功案例几乎都是绿地项目 |
| 怎么验证 Agent 做对了事 | 更擅长限制别做错,验证正确性很弱;"用 AI 生成的测试验证 AI 生成的代码"像"用同一双眼睛检查自己的作业" |
| AI 生成代码的长期可维护性 | LLM 经常重新实现已有功能,长期效果不明 |
| Harness 该做厚还是做薄 | Manus 五次重写越做越简单;OpenAI 五个月越做越复杂 —— 场景决定 |
| 单 Agent 还是多 Agent | Hashimoto 坚持单 Agent;Carlini 用 16 个并行 Agent —— 规模决定 |
七、结语
2026 年的 AI Agent 领域正在经历从 "概念验证" 到 "工程化落地" 的关键转折。OpenClaw 的病毒式爆发证明了市场对 "行动式 AI" 的强烈需求;Harness Engineering 的兴起标志着行业开始关注 "如何让模型在正确环境里稳定发挥";MCP/A2A/ACP 三大协议的出现则为 Agent 生态的互联互通奠定了基础。
"2026 年,AI 行业的竞争不再是 '谁的 Agent 更智能',而是 '谁的 Harness 更完善'。"
对于开发者而言,无需盲目追求 "完整的 Harness Engineering 体系",而是要基于自身业务场景,从信息边界层(L1)和约束恢复层(L6)开始,逐步构建适合自己团队的 Agent 基础设施。毕竟,Harness Engineering 的核心不是让模型更强,而是让模型在正确的环境里稳定发挥。