李佳芮时间看得见
← 返回所有分享

在 AI 员工时代,重新发明组织 —— 在奇绩创坛 Harness 专场的分享

· PPTX
#Agentic AI#AI Agent#Harness#Claude Code#企业级 AI#创业#组织

在奇绩创坛 Harness 专场的分享

上周末在奇绩讲了一场 Harness 专场。讲完又有人问能不能要 PPT。这次也一样——PPT 我不发,但内容整理在这里,连现场没讲完的也都写进去了。

这次想讲三件事。


一、AI 员工时代,组织正在被重写

我先讲了一个客户公司里普通销售的故事。不是销售总监,不是技术极客——就是一个普通员工。

两年前,他亲手回 200+ 条客户消息,手工整理跟进记录,下班后还在补白天漏掉的对话。今天,他在带一支 Agent 队伍并行处理 200+ 客户,他自己只处理被路由出来的低置信度对话;下班前半小时,看一遍当天 Agent 的交付报告。

Agent 协作工作台 —— 一个普通销售带一组 Agent 跟 200+ 客户

这不是 demo,是每天都在跑的事。

我们做的不是 AI 工具,不是 Copilot —— 是在重新定义「员工」这件事

  • 交付:交付结果,不是输出 token
  • 付薪:按底薪 + 提成,不再按 API 调用次数、不再按席位数
  • 收费:SaaS 卖工具按人头收,AI 员工卖结果按交付收。整个商业逻辑在被改写

客户的预算,正在从「买软件」流向「买活」。

AI 原生组织,长什么样

这背后是一个判断:工具,让一个人更强。组织单元,让一个普通人能带一支队伍。

  • 组织单元:从「人」变成「人 + Agent 队伍」
  • 能力杠杆:从「雇更多人」变成「一个人带一支队伍」
  • 管理权:从「只有 CEO 带人」变成「每个人都是管理者」

每一个普通员工,都将带着一支 Agent 队伍工作。这是 AI 原生组织的样子。


二、生产环境踩出来的 Harness 心得

这次专场叫 Harness——所以这一段我讲了我们 9 年在 IM 生产环境里踩出来的 harness 心得。

Demo 看起来像魔法。生产环境是另一回事

模型越强,两者的 gap 不减反增——因为期待涨得更快。

Demo 环境 生产环境
输入清晰,目标单一 输入带表情包、错别字、截断、跳跃
工具可用率 100% 工具超时、限流、接口变更
上下文干净无干扰 上下文里混着过去的噪声与偏见
失败了可以重跑 失败成本实打实——出一次错丢一个客户
跑 5 分钟,演完就过 7×24 在跑,每一秒都被真实客户评判

决定 Agent 能不能真的上岗的,不是模型——是把它装到生产环境的那套工程。我们叫它 Harness。

Agent = Model + Harness

同一个模型,不同 harness,表现可以差十倍。

Agent = Model + Harness 三栏图 —— 脑、心、手

  • Model · 脑:规模、预训练数据、推理能力。今天的 SOTA,三个月后所有人都有
  • Harness · 心:记忆、上下文管理、规划、反思、置信度、错误恢复——决定 Agent 在不确定性下如何行动
  • Harness · 手:工具选择、调用编排、失败重试、权限与边界——决定 Agent 能真实操作世界的深度与安全性

鲁棒性几乎完全是 harness 层的问题。模型升级解决不了,只能靠工程。

鲁棒性可以拆成四个维度

每一个维度都有独立的失败模式,也都需要独立的工程解。

  • 意图鲁棒性:用户说「算了」——是「放弃」还是「换一种」?
  • 工具鲁棒性:API 超时——无限重试,还是直接放弃整任务?
  • 长程鲁棒性:三小时的任务,第 17 步忘了最初要做什么
  • 边界鲁棒性:Agent 自信地给错答案,而不是说「我不确定」

能系统性拆解鲁棒性的团队凤毛麟角。能把四个维度都工程化的,更少。

Human-in-the-loop 不是妥协

大部分人把 HITL 当成「AI 不够强的折中」——目标是尽快不需要人,衡量指标是 AI 替代率。

我们的视角不一样:HITL 是按置信度动态分配,AI 和人是鲁棒性系统的两种资源,目标是系统整体稳定交付。衡量的不是「替代率」,是「系统整体置信度」。

落到地上,就是三个 Pattern。

Pattern 01 · 置信度路由——每次请求都过一次分级:

  • ≥ 90%:Agent 自主执行
  • 60–90%:Agent 执行 · 人工抽检
  • < 60%:Agent 起草 · 人工确认

Pattern 02 · 多层校验——一次输出,过四道独立闸门:生成 → 规则校验(硬约束 / 合规 / 黑名单)→ 对抗 LLM(另一个 LLM 扮演挑刺者)→ 执行(发出消息 / 调用工具 / 落库)。

Pattern 03 · 评估飞轮——不是 benchmark,是真实客户每天在重训练:

  1. 生产数据
  2. 失败案例
  3. 规则与评估集
  4. 模型 + harness 重配

每天转一轮,下一版按真实数据走,又喂回生产。

「加几层、哪一层用 rule、哪一层用 LLM」是场景相关 know-how——IM 客服和金融风控的最优配置完全不同。

真正的护城河是飞轮

模型可抄。Harness 也可抄。这套循环里日积月累的失败案例库——抄不来。

句子守护 6 模块 + 每天怎么转的飞轮

我们把它做成了一个产品,叫句子守护。6 个模块覆盖 Agent 生命周期:上线前的 AI 测试 / 批量验收,上线中的灰度发布,上线后的 Badcase 反馈 / 回归测试 / AI 质检。

每天的循环长这样:

  1. 上千客户的真实生产数据——对话、点击、订单、投诉,每天百万级
  2. 失败案例进库——低置信度 + 客户 flag + 人工标注
  3. 规则库 / 评估集越变越大——新 case 进评估集,新模式进规则库
  4. 模型 + Harness 越调越准——下一版按真实数据走,又喂回生产

回到第 1 步——失败案例每天都在变多,下一版的 Agent 比上一版更准。

代码之外,我们做的三类 harness

代码这块,Claude Code 已经解了。剩下三类,我们一直在做:

  • 客户专属 Agent:通用 harness 装不进客户的业务、规则、流程。我们用句子秒懂——低代码 Agent 平台,FDE 团队几天给客户搭出专属 Agent
  • IM-native 的 Agent:通用 harness 入口是 terminal / web,不在 IM 里。Agent 必须出现在客户已经花 8 小时的地方。我们用句子秒回打通企微 / 飞书 / WhatsApp / TikTok / 小红书
  • 行业专属的 Agent harness:通用 harness 不带行业工具、不接行业系统、不管行业合规。我们沉淀了 5 个高合规行业的 know-how + 工具集 + 系统对接 + FDE 交付

三类不是分别做的——是同一个客户身上同时跑。


三、我们正在交付的产品,和还没解的题

我们造 AI 员工,靠两个轮子同时转。

左轮 · 基础设施:句子秒回 + 句子秒懂 + 句子守护 = 完整的人机协作平台。沉淀过的 IM 通道适配、跨行业策略库、Agent workflow 引擎、质量保障体系。

右轮 · FDE(Forward-Deployed Engineer):把人机协作真的「装」进客户业务。当下 100 人团队中 ~10% 是 FDE,目标 12–24 个月扩到 ~30%。远程为主,重点客户驻场一段时间再回来。

FDE ≠ implementation consulting。50% 项目交付 + 50% 把客户人机协作的经验沉淀回基础设施——是 R&D feedback loop,不是人天生意。

客户已经开始用——都从 AI 销售开始

  • 1000+ 服务企业用户数
  • 3 年 营收连续翻倍增长
  • 4 年 连续盈利

5 个高合规行业各自沉淀 know-how:教育(招生 / 续课)、电商(售前 / 售后)、金融(合规 / 客服)、政务(社工 / 普法调解)、泛互联网(增长 / 留存)。

客户的合同一直按结果计价——市场预算从「买软件」流向「买活」的这一年,我们做这件事的第 9 年。

企业 AI 的胜负,不在「更聪明」,在「更可控」

企业问的不再是「哪个模型最强」——而是「哪个能放心装进我的系统」。

  • Predictability:输出可重复——outcome-tagged 数据让 Agent 行为可标定可回归
  • Data Security:数据隔离——支持私有化 / 一体机部署,客户数据不出域
  • Governance & Control:行为可管控——workflow 引擎写死边界 + 5 个高合规行业策略库
  • Auditability:全程可审——每一次 Agent 决策可追溯,金融、政务直接吃这条
  • Integration:对接现有系统——IM 通道适配 + 企业 CRM / 工单 / 知识库直连
  • Scalability:规模化——1000+ 客户验证过的部署能力,不是 demo-scale
  • Multi-Model:灵活切换模型——模型层抽象,按场景切换

企业 AI 比的不是模型,是装得进、跑得稳。


还没解的题

把 Agentic AI 真的做成「员工」,不是写一句口号就能完成的。每一个职能,都在重新定义自己的打法。

Still Open —— 产品 / FDE / AI 销售 / 市场 / 测试 / 运维 / AI 管培生 七张卡片

职能
产品 一个员工怎么带一队 Agent?调度、权限、监控、可视化——Agent 的「管理工具」这个品类还不存在
FDE 国内最早落地 Palantir FDE 模式——工程师把客户业务流程拆解成 Agent 的标准动作
AI 销售 销售也要练「咨询力」。不是传统跟单——先帮客户做业务咨询、拆解问题、出方案。FDE 思路用在 GTM
市场 新品类如何被快速理解。AI 员工不是 SaaS,不是 PaaS。市场叙事和定价逻辑,我们在从头设计
测试 Agent 的「考核」怎么做。对话型产品的回归测试,跟传统 SaaS 完全不是一回事
运维 上岗后怎么保证每天都靠谱。7×24 监控、异常熔断、置信度告警——AI 员工的「值班」体系
AI 管培生 怎么干 AI 原生的活。不是教你用 AI——是让你直接成为 AI 原生组织里的人

每一道,都在等一个对的人。


一起把它造出来

毕业就创业,不一定是最佳选择。但如果你想体验创业——也可以加入一家正在重新发明组织的早期公司。

张一鸣讲过一句话我特别认同:「加入一个优秀的早期公司有一个明显的好处——公司会想尽办法帮你提高,因为公司有很多事情要做,而人员又有限。这个时候就会对有潜质的人提出各种高的要求,帮助提高。」

用心认真的折腾,是没有风险的。

在句子互动你能拿到的:

  • 无限量 token——爱怎么烧怎么烧
  • 发给你 Claude Code 最适配的 MacBook Pro
  • 两周一次 AI Workshop——所有人一起拆最新模型
  • 我自己每天先跑——我跑出什么,你立刻能用
  • 永远走在 AI 最前沿,没有第二个选择

组织,正在被重新发明。

而你 —— 可以是发明者之一。

如果今天讲到的某一个瞬间让你停了一下——来找我。

李佳芮的微信公众号 - Agentic AI 创业分享

扫码关注我的公众号

个人微信:jiaruijuzi

加我的时候,请备注「来自博客」或者「来自这篇分享」 —— 不然我大概率通过不了。

句子互动,正在招

  • 产品
  • FDE
  • AI 销售
  • 市场
  • 测试
  • 运维
  • AI 管培生

来一起把这件事做出来。

PPT 预览需要公网 URL(Office Online viewer 限制),本地预览看不到,请推到 GitHub Pages 后访问。

评论