博客
首页归档关于搜索

关联站点

CodeRunCommon AuthNav2文件中转站Web Search

鄂ICP备19019526号

© 2026 博客

  1. 首页
  2. Harness Engineering 前沿挑战(八):未解决的问题与未来方向

Harness Engineering 前沿挑战(八):未解决的问题与未来方向

2026年4月17日·约 11 分钟·3097 字·0 次阅读
AIAI 日报大模型商业分析技术前沿
Harness Engineering 前沿挑战(八):未解决的问题与未来方向

目录

  • 引言
  • 一、棕地项目改造:最大的未解决挑战
  • 1.1 所有成功案例都是绿地
  • 1.2 Böckeler 的比喻
  • 1.3 Ambient Affordances 概念
  • 二、功能验证:严重被忽视的领域
  • 2.1 现状
  • 2.2 Böckeler 的尖锐批评
  • 2.3 Approved Fixtures 模式
  • 2.4 开放问题
  • 三、长期可维护性:没人知道答案
  • 3.1 Greg Brockman 的问题
  • 3.2 长期风险
  • 3.3 初步思路
  • 四、Harness 该做厚还是做薄?
  • 4.1 两个相反的案例
  • 4.2 Böckeler 的分析
  • 4.3 一个关键发现
  • 五、单 Agent vs 多 Agent:规模决定
  • 5.1 两个极端
  • 5.2 Decoding AI 的反直觉发现
  • 5.3 决策框架
  • 六、Harness 模板化:企业级未来
  • 6.1 趋势
  • 6.2 类比服务模板
  • 6.3 挑战
  • 七、开放问题清单
  • 7.1 设计层面
  • 7.2 工程层面
  • 7.3 安全层面
  • 八、给研究者的方向
  • 方向1:棕地渐进式改造
  • 方向2:可信的功能验证
  • 方向3:Harness 版本化理论
  • 方向4:自适应 Harness
  • 总结

Harness Engineering 前沿挑战(八):未解决的问题与未来方向

引言

Harness Engineering 是一个快速发展的领域,充满了未解的问题。了解这些"不知道"比记住已知的更重要——它们是指南针,指引着这个领域的未来研究方向。

这一篇整理了目前仍未解决的核心问题,以及社区正在探索的方向。


一、棕地项目改造:最大的未解决挑战

1.1 所有成功案例都是绿地

目前所有公开的 Harness Engineering 成功案例——OpenAI、Anthropic、Stripe、Hashimoto——全部是在全新项目上从零搭 Harness。

但现实中绝大多数团队面对的是已经跑了多年的代码库:

  • 十年历史、没有架构约束
  • 到处是技术债务
  • 规范散落在不同地方
  • 没有统一的入口文件

怎么把 Harness 引入一个这样的项目?目前没有任何公开方法论。

1.2 Böckeler 的比喻

她把这个挑战比作"在从未用过静态分析工具的代码库上运行静态分析":

你会被警报淹没。

不是因为静态分析工具不好,而是因为代码库里有太多违反规则的地方,同时规则本身也可能需要调整。

1.3 Ambient Affordances 概念

Böckeler 提出了一个深刻的概念:Ambient Affordances。

强类型语言天然有类型检查作 sensor; 清晰的模块边界方便定义架构约束; Spring 这样的框架抽象了很多细节。

环境本身的结构特性决定了 Harness 能做多好。

这意味着:

  • 绿地项目:可以从第一天就设计好 Harness
  • 棕地项目:需要先改善代码库的结构特性,再逐步引入 Harness

二、功能验证:严重被忽视的领域

2.1 现状

大量讨论聚焦在架构约束和熵管理,但功能正确性验证被严重忽视。

大多数团队的做法:

  1. Feedforward:给功能规格
  2. Feedback:看 AI 生成的测试套件是否绿色通过

2.2 Böckeler 的尖锐批评

"This puts a lot of faith into AI-generated tests, that's not good enough yet."

用 AI 生成的测试来验证 AI 生成的代码,本质上是在用同一双眼睛检查自己的作业。

2.3 Approved Fixtures 模式

Thoughtworks 的一些团队在某些场景下用 Approved Fixtures 模式取得了好效果:

  • 人工预先准备"正确结果"的 Fixture
  • Agent 生成的输出与 Fixture 对比
  • 适用于输出结构化、可预期的场景

但这个模式不适用于所有场景,不是一个全量解决方案。

2.4 开放问题

问题现状
如何验证 AI 做对了事?远未解决
AI 生成测试的可靠性?不足以作为唯一验证
人类审查的边界在哪?不清晰

三、长期可维护性:没人知道答案

3.1 Greg Brockman 的问题

2025 年 Greg Brockman(OpenAI 联合创始人)提出了一个问题:

LLM 代码经常重新实现已有功能,长期效果未知。

这个问题至今没有人回答。

3.2 长期风险

  1. 重复实现:每次需求来了,Agent 倾向于自己写而不是复用现有代码
  2. 风格漂移:不同时间的生成物风格不一致
  3. 依赖膨胀:Agent 引入外部依赖但没有清理
  4. 文档腐烂:生成代码的文档是否跟着更新?

3.3 初步思路

Carlini 的"去重 Agent"是应对策略之一:

专门有一个 Agent 负责检测并删除重复的代码实现

但这只是局部优化,不是系统性解决方案。


四、Harness 该做厚还是做薄?

4.1 两个相反的案例

团队方向现象
Manus越做越薄五次重写,每次都更简单
OpenAI越做越厚五个月投入,越做越复杂

4.2 Böckeler 的分析

场景决定设计。

  • 通用产品:追求最小化——覆盖最多场景,不针对特定需求
  • 特定产品:可以高度定制——针对特定领域优化

4.3 一个关键发现

Anthropic 验证了一个反直觉的结论:

随着模型变强,已有 Harness 应该定期简化。

因为每个 Harness 组件都编码了一个"模型靠自己做不到"的假设。当模型能力提升后,某些假设不再成立,对应的组件就变成了冗余。


五、单 Agent vs 多 Agent:规模决定

5.1 两个极端

人物立场理由
Hashimoto坚持单Agent"我不打算跑多个Agent,也不想跑"
Carlini16并行Agent需要并行才能在合理成本内完成编译器

5.2 Decoding AI 的反直觉发现

"我一开始建了5个专业Agent,每个处理一步。后来发现一个带记忆和智能上下文工程的单Agent表现超过了整个Agent群。"

5.3 决策框架

场景建议
小项目,单一目标单Agent + 配得好的Harness
大项目,复杂工作流多Agent分工
需要并行加速16+ 并行
不确定先试单Agent,瓶颈了再考虑多Agent

六、Harness 模板化:企业级未来

6.1 趋势

Böckeler 预测:

"Harness 将成为新的服务模板。"

大多数企业有两三个主要技术栈,未来团队可能会从一组预制 Harnesses 中选择,就像今天从服务模板实例化新服务。

6.2 类比服务模板

今天:

服务模板(Spring Boot模板、Koa模板)
  → 团队实例化
  → 自定义配置
  → 持续维护同步

未来:

Harness模板(电商Harness、SaaS后台Harness、数据管道Harness)
  → 团队选择
  → Agent类型和约束定制
  → 持续同步上游改进

6.3 挑战

但也面临类似服务模板的问题:

  • 团队实例化后会与上游不同步
  • 版本管理和贡献流程更复杂
  • Non-deterministic 组件难以测试

七、开放问题清单

7.1 设计层面

问题现状谁在关注
棕地改造方法论无公开方案Böckeler
功能验证体系严重缺失Böckeler
长期可维护性未知Greg Brockman
Harness厚薄判断场景决定Böckeler

7.2 工程层面

问题现状谁在关注
Harness覆盖率评测缺失Böckeler
多Agent冲突解决不成熟社区
跨Harness迁移困难Hermes(做迁移工具)

7.3 安全层面

问题现状谁在关注
提示注入防护CVE-2026-25253OpenClaw
多租户隔离不成熟企业用户
审计和合规早期金融、医疗

八、给研究者的方向

基于以上分析,以下是值得探索的方向:

方向1:棕地渐进式改造

问题:如何把 Harness 引入有技术债的现有代码库?

可能路径:

  • 先做代码库健康度评估
  • 设计"最小可行 Harness"从最高价值场景入手
  • 建立度量体系追踪改进

方向2:可信的功能验证

问题:如何验证 AI 生成的功能是正确的?

可能路径:

  • 形式化验证 + AI
  • Property-based testing + AI
  • Human-in-the-loop 但有效分工

方向3:Harness 版本化理论

问题:如何系统化管理 Harness 的演进?

可能路径:

  • 借鉴测试覆盖率的思想
  • 定义 Harness "覆盖率"和"质量"度量
  • 建立 CI 集成的 Harness 评测

方向4:自适应 Harness

问题:Harness 能否根据模型能力自动调节?

可能路径:

  • 模型能力评估 → Harness 组件选择
  • 根据任务难度动态调整约束强度
  • 自动移除冗余组件

总结

Harness Engineering 领域有七个"不知道"与一个"知道":

七个不知道:

  1. 棕地改造怎么搞
  2. 功能验证怎么做
  3. 长期可维护性如何保证
  4. Harness 该厚还是薄
  5. 单还是多 Agent 怎么选
  6. 如何评测 Harness 覆盖率
  7. 如何做自适应 Harness

一个知道:

模型决定上限,Harness 决定底线。结构和约束 in,结构和约束 out。

这是 Harness Engineering 的核心哲学,无论领域如何演进,这一条不会变。


标签:#AI #Agent #HarnessEngineering #前沿 #未解决问题 #研究方向

相关文章

  • Harness Engineering 入门教程(四):从零搭建你的第一个 Harness4月17日
  • Harness Engineering 高级话题(七):可观测性、熵管理与三类约束体系4月17日
  • Harness Engineering 技术原理(二):Feedforward、Feedback 与六层架构详解4月17日

系列:Harness Engineering 指南

  • 1. Harness Engineering 技术原理(二):Feedforward、Feedback 与六层架构详解
  • 2. Harness Engineering 架构设计(三):记忆系统、工具设计与沙箱隔离
  • 3. Harness Engineering 入门教程(四):从零搭建你的第一个 Harness
  • 4. Harness Engineering 框架对比(五):OpenClaw、Claude Code、OpenCode、Hermes 深度横评
  • 5. Harness Engineering 落地实践(六):一线团队案例深度解析
  • 6. Harness Engineering 高级话题(七):可观测性、熵管理与三类约束体系
  • 7. Harness Engineering 前沿挑战(八):未解决的问题与未来方向
  • 8. Harness Engineering 入门(一):为什么说"你不是模型,那你就是 Harness"
← Harness Engineering 高级话题(七):可观测性、熵管理与三类约束体系Harness Engineering 入门(一):为什么说"你不是模型,那你就是 Harness" →

评论

加载评论中…

发表评论

返回首页