在 AI 员工时代,重新发明组织 —— 在奇绩创坛 Harness 专场的分享
在奇绩创坛 Harness 专场的分享
上周末在奇绩讲了一场 Harness 专场。讲完又有人问能不能要 PPT。这次也一样——PPT 我不发,但内容整理在这里,连现场没讲完的也都写进去了。
这次想讲三件事。
一、AI 员工时代,组织正在被重写
我先讲了一个客户公司里普通销售的故事。不是销售总监,不是技术极客——就是一个普通员工。
两年前,他亲手回 200+ 条客户消息,手工整理跟进记录,下班后还在补白天漏掉的对话。今天,他在带一支 Agent 队伍并行处理 200+ 客户,他自己只处理被路由出来的低置信度对话;下班前半小时,看一遍当天 Agent 的交付报告。

这不是 demo,是每天都在跑的事。
我们做的不是 AI 工具,不是 Copilot —— 是在重新定义「员工」这件事:
- 交付:交付结果,不是输出 token
- 付薪:按底薪 + 提成,不再按 API 调用次数、不再按席位数
- 收费:SaaS 卖工具按人头收,AI 员工卖结果按交付收。整个商业逻辑在被改写
客户的预算,正在从「买软件」流向「买活」。
AI 原生组织,长什么样
这背后是一个判断:工具,让一个人更强。组织单元,让一个普通人能带一支队伍。
- 组织单元:从「人」变成「人 + Agent 队伍」
- 能力杠杆:从「雇更多人」变成「一个人带一支队伍」
- 管理权:从「只有 CEO 带人」变成「每个人都是管理者」
每一个普通员工,都将带着一支 Agent 队伍工作。这是 AI 原生组织的样子。
二、生产环境踩出来的 Harness 心得
这次专场叫 Harness——所以这一段我讲了我们 9 年在 IM 生产环境里踩出来的 harness 心得。
Demo 看起来像魔法。生产环境是另一回事
模型越强,两者的 gap 不减反增——因为期待涨得更快。
| Demo 环境 | 生产环境 |
|---|---|
| 输入清晰,目标单一 | 输入带表情包、错别字、截断、跳跃 |
| 工具可用率 100% | 工具超时、限流、接口变更 |
| 上下文干净无干扰 | 上下文里混着过去的噪声与偏见 |
| 失败了可以重跑 | 失败成本实打实——出一次错丢一个客户 |
| 跑 5 分钟,演完就过 | 7×24 在跑,每一秒都被真实客户评判 |
决定 Agent 能不能真的上岗的,不是模型——是把它装到生产环境的那套工程。我们叫它 Harness。
Agent = Model + Harness
同一个模型,不同 harness,表现可以差十倍。

- Model · 脑:规模、预训练数据、推理能力。今天的 SOTA,三个月后所有人都有
- Harness · 心:记忆、上下文管理、规划、反思、置信度、错误恢复——决定 Agent 在不确定性下如何行动
- Harness · 手:工具选择、调用编排、失败重试、权限与边界——决定 Agent 能真实操作世界的深度与安全性
鲁棒性几乎完全是 harness 层的问题。模型升级解决不了,只能靠工程。
鲁棒性可以拆成四个维度
每一个维度都有独立的失败模式,也都需要独立的工程解。
- 意图鲁棒性:用户说「算了」——是「放弃」还是「换一种」?
- 工具鲁棒性:API 超时——无限重试,还是直接放弃整任务?
- 长程鲁棒性:三小时的任务,第 17 步忘了最初要做什么
- 边界鲁棒性:Agent 自信地给错答案,而不是说「我不确定」
能系统性拆解鲁棒性的团队凤毛麟角。能把四个维度都工程化的,更少。
Human-in-the-loop 不是妥协
大部分人把 HITL 当成「AI 不够强的折中」——目标是尽快不需要人,衡量指标是 AI 替代率。
我们的视角不一样:HITL 是按置信度动态分配,AI 和人是鲁棒性系统的两种资源,目标是系统整体稳定交付。衡量的不是「替代率」,是「系统整体置信度」。
落到地上,就是三个 Pattern。
Pattern 01 · 置信度路由——每次请求都过一次分级:
≥ 90%:Agent 自主执行60–90%:Agent 执行 · 人工抽检< 60%:Agent 起草 · 人工确认
Pattern 02 · 多层校验——一次输出,过四道独立闸门:生成 → 规则校验(硬约束 / 合规 / 黑名单)→ 对抗 LLM(另一个 LLM 扮演挑刺者)→ 执行(发出消息 / 调用工具 / 落库)。
Pattern 03 · 评估飞轮——不是 benchmark,是真实客户每天在重训练:
- 生产数据
- 失败案例
- 规则与评估集
- 模型 + harness 重配
每天转一轮,下一版按真实数据走,又喂回生产。
「加几层、哪一层用 rule、哪一层用 LLM」是场景相关 know-how——IM 客服和金融风控的最优配置完全不同。
真正的护城河是飞轮
模型可抄。Harness 也可抄。这套循环里日积月累的失败案例库——抄不来。

我们把它做成了一个产品,叫句子守护。6 个模块覆盖 Agent 生命周期:上线前的 AI 测试 / 批量验收,上线中的灰度发布,上线后的 Badcase 反馈 / 回归测试 / AI 质检。
每天的循环长这样:
- 上千客户的真实生产数据——对话、点击、订单、投诉,每天百万级
- 失败案例进库——低置信度 + 客户 flag + 人工标注
- 规则库 / 评估集越变越大——新 case 进评估集,新模式进规则库
- 模型 + Harness 越调越准——下一版按真实数据走,又喂回生产
回到第 1 步——失败案例每天都在变多,下一版的 Agent 比上一版更准。
代码之外,我们做的三类 harness
代码这块,Claude Code 已经解了。剩下三类,我们一直在做:
- 客户专属 Agent:通用 harness 装不进客户的业务、规则、流程。我们用句子秒懂——低代码 Agent 平台,FDE 团队几天给客户搭出专属 Agent
- IM-native 的 Agent:通用 harness 入口是 terminal / web,不在 IM 里。Agent 必须出现在客户已经花 8 小时的地方。我们用句子秒回打通企微 / 飞书 / WhatsApp / TikTok / 小红书
- 行业专属的 Agent harness:通用 harness 不带行业工具、不接行业系统、不管行业合规。我们沉淀了 5 个高合规行业的 know-how + 工具集 + 系统对接 + FDE 交付
三类不是分别做的——是同一个客户身上同时跑。
三、我们正在交付的产品,和还没解的题
我们造 AI 员工,靠两个轮子同时转。
左轮 · 基础设施:句子秒回 + 句子秒懂 + 句子守护 = 完整的人机协作平台。沉淀过的 IM 通道适配、跨行业策略库、Agent workflow 引擎、质量保障体系。
右轮 · FDE(Forward-Deployed Engineer):把人机协作真的「装」进客户业务。当下 100 人团队中 ~10% 是 FDE,目标 12–24 个月扩到 ~30%。远程为主,重点客户驻场一段时间再回来。
FDE ≠ implementation consulting。50% 项目交付 + 50% 把客户人机协作的经验沉淀回基础设施——是 R&D feedback loop,不是人天生意。
客户已经开始用——都从 AI 销售开始
- 1000+ 服务企业用户数
- 3 年 营收连续翻倍增长
- 4 年 连续盈利
5 个高合规行业各自沉淀 know-how:教育(招生 / 续课)、电商(售前 / 售后)、金融(合规 / 客服)、政务(社工 / 普法调解)、泛互联网(增长 / 留存)。
客户的合同一直按结果计价——市场预算从「买软件」流向「买活」的这一年,我们做这件事的第 9 年。
企业 AI 的胜负,不在「更聪明」,在「更可控」
企业问的不再是「哪个模型最强」——而是「哪个能放心装进我的系统」。
- Predictability:输出可重复——outcome-tagged 数据让 Agent 行为可标定可回归
- Data Security:数据隔离——支持私有化 / 一体机部署,客户数据不出域
- Governance & Control:行为可管控——workflow 引擎写死边界 + 5 个高合规行业策略库
- Auditability:全程可审——每一次 Agent 决策可追溯,金融、政务直接吃这条
- Integration:对接现有系统——IM 通道适配 + 企业 CRM / 工单 / 知识库直连
- Scalability:规模化——1000+ 客户验证过的部署能力,不是 demo-scale
- Multi-Model:灵活切换模型——模型层抽象,按场景切换
企业 AI 比的不是模型,是装得进、跑得稳。
还没解的题
把 Agentic AI 真的做成「员工」,不是写一句口号就能完成的。每一个职能,都在重新定义自己的打法。

| 职能 | 题 |
|---|---|
| 产品 | 一个员工怎么带一队 Agent?调度、权限、监控、可视化——Agent 的「管理工具」这个品类还不存在 |
| FDE | 国内最早落地 Palantir FDE 模式——工程师把客户业务流程拆解成 Agent 的标准动作 |
| AI 销售 | 销售也要练「咨询力」。不是传统跟单——先帮客户做业务咨询、拆解问题、出方案。FDE 思路用在 GTM |
| 市场 | 新品类如何被快速理解。AI 员工不是 SaaS,不是 PaaS。市场叙事和定价逻辑,我们在从头设计 |
| 测试 | Agent 的「考核」怎么做。对话型产品的回归测试,跟传统 SaaS 完全不是一回事 |
| 运维 | 上岗后怎么保证每天都靠谱。7×24 监控、异常熔断、置信度告警——AI 员工的「值班」体系 |
| AI 管培生 | 怎么干 AI 原生的活。不是教你用 AI——是让你直接成为 AI 原生组织里的人 |
每一道,都在等一个对的人。
一起把它造出来
毕业就创业,不一定是最佳选择。但如果你想体验创业——也可以加入一家正在重新发明组织的早期公司。
张一鸣讲过一句话我特别认同:「加入一个优秀的早期公司有一个明显的好处——公司会想尽办法帮你提高,因为公司有很多事情要做,而人员又有限。这个时候就会对有潜质的人提出各种高的要求,帮助提高。」
用心认真的折腾,是没有风险的。
在句子互动你能拿到的:
- 无限量 token——爱怎么烧怎么烧
- 发给你 Claude Code 最适配的 MacBook Pro
- 两周一次 AI Workshop——所有人一起拆最新模型
- 我自己每天先跑——我跑出什么,你立刻能用
- 永远走在 AI 最前沿,没有第二个选择
组织,正在被重新发明。
而你 —— 可以是发明者之一。
如果今天讲到的某一个瞬间让你停了一下——来找我。
扫码关注我的公众号
个人微信:jiaruijuzi
加我的时候,请备注「来自博客」或者「来自这篇分享」 —— 不然我大概率通过不了。
句子互动,正在招
- 产品
- FDE
- AI 销售
- 市场
- 测试
- 运维
- AI 管培生
来一起把这件事做出来。
评论