AI 代码生成率 30%，交付周期纹丝不动 - 快手万人团队踩过的坑和找到的路

发表于 2026-02-14 更新于 2026-03-02 分类于 AI

快手技术团队最近发了一篇万字长文，复盘他们 10000+ 研发人员在 AI 研发提效上的三年探索。文章信息密度很高，我将其中PR话术剥掉之后，发现里面藏着几个对整个行业都有参考价值的硬核洞察。

这篇文章要说的核心问题只有一个：你的团队用上了 AI，为什么交付还是那么慢？

一个反直觉的不等式

先说快手披露的那组数据。

在最严格的度量口径下（把 AI 生成并最终入库的代码行和所有新增代码行做比对，编辑距离小于 50% 才算），他们的 AI 代码生成率从 1% 爬到了 30%+，部分业务线甚至到了 40%+。通过内部调研，开发人员主观感觉编码效率提升了 20-40%。

数字看着挺好。但当他们从全局视角，分析了核心业务线的客观研发数据后，发现了一个令人困惑的事实：

AI 代码生成率持续增长，但需求交付效率基本不变。

AI 代码生成率持续增长 vs 需求交付效率不变

翻译成大白话：程序员觉得自己写代码确实快了，但从老板视角看，需求该多久交付，还是多久交付。团队的吞吐量和交付周期，纹丝不动。

这不是快手一家的问题。2025 年的 DORA 报告（Google 出品的全球研发效能调查报告）里也指出了同一个现象：各企业普遍对 AI 提升个人效能有信心，但对团队效能的提升预估非常低。

快手把这个发现总结成了一个不等式：用 AI 开发工具 ≠ 个人提效 ≠ 组织提效。

碎片化时间陷阱：省下来的 10 分钟去哪了？

为什么个人提效无法传导到组织提效？快手做了深入调研后归纳了几个原因，我觉得其中两个最值得展开。

第一个：碎片化时间陷阱。

AI 帮程序员省下的时间是什么样的？是”写那个函数”的 5 分钟、”改那个 bug”的 10 分钟。这些时间碎片散落在一天的工作里。如果没有被刻意重新组织，它们不会自动汇聚成”多做一个需求”的整块时间。实际情况是，大部分工程师并没有因此接纳更多需求——省下的碎片被会议、等待联调、等待 code review 这些事情填满了。

这让我想到之前写过的一个观察：GitHub 的一份开发者调研显示，开发者花在等待构建（build）和等待 code review 上的时间，和写新代码的时间差不多。AI 加速了”写”，但”等”的部分原封不动。

第二个：木桶效应。

软件交付是一条流水线：需求评审 → 技术设计 → 编码 → 联调 → 测试 → 发布。编码只是其中一环，而且在很多团队里，编码环节的耗时可能只占总交付周期的 20-30%。AI 让这一环变快了，但联调要等其他端的同学，测试要排队，发布有窗口期。短板没变，整条线就快不起来。

快手的调研数据很直白：一个原本评估 5 天的开发任务，其中编码 1 天。用了 AI 辅助编码后，评估还是 5 天，只不过编码那天轻松了一些。

AI 是放大器，不是万能药

快手研发效能三阶段演进路线图

这里要提快手做对的一件事：他们没有在 2023 年直接上 AI 工具，而是先花了一年多时间做了三件”不性感”的基建工作：平台化、数字化、精益化。

具体来说：

平台化：建设三端（服务端/前端/客户端）一站式研发平台，把分散在各处的开发活动统一到标准流程上。一个月内推全了 1000+ 人的团队（效率确实猛）。
数字化：建立效能度量体系，以”人均交付产品需求数”为北极星指标。注意这里的衡量单位是交付的产品需求，不是代码量，也不是 commit 数。
精益化：通过数据识别瓶颈，对症下药。比如他们分析一个团队的”研发活动在线化率”，发现产品需求投入占比只有 59%，深挖下去发现根因是客户端架构劣化，缺陷和 oncall 消耗了大量产能。最终解法是做架构升级，和 AI 一点关系没有。

快手自己在总结里引用了 DORA 报告的一句话，我觉得很准确：

AI 是”透视镜”与”放大器”。在协同良好的组织中，AI 能使效能再提升 25%；在架构松散的组织中，AI 会暴露流程断点和数据孤岛。

说白了：你家流程本来就乱，AI 不会帮你理顺，只会让乱象更加显眼。 指望”买个 AI 工具就能提效”的管理者，大概率会失望。

之前写过的哈佛-宝洁联合实验也佐证了类似的观点：单独使用 AI 的个人，解决方案质量居然和不使用 AI 的团队相当。AI 提升的是个人能力的上限，但要在组织层面产生效果，需要重新设计协作方式。

从 Copilot 到 Agent：三级跳框架

这是快手这篇文章里我认为最有价值的部分。他们从实际业务中观察到三种 AI 开发方法，对效能的影响截然不同。

三种 AI 开发方法对比：L1 / L2 / L3

L1：AI 辅助编码（Copilot 模式）

大部分人目前的用法。在 IDE 里用 Cursor、Copilot、Claude Code 做代码补全、函数生成、问答。效果：编码效率提升 10-20%，但对需求整体交付周期影响有限。原因前面说过了：碎片化时间 + 木桶效应。

L2：AI 辅助开发（Agent 模式）

不止是编码环节用 AI，而是在研发全流程都让 AI 参与：需求分析、技术设计、编码、测试。人把需求拆分为多个任务，不同任务调用不同的 AI 能力完成，人负责审核和优化。由于全链路都在提速，效果叠加后，开发周期可以缩短约 30%。

L3：AI 协同开发（Agentic 模式）

最激进的模式：人变身 PM，把需求用自然语言描述清楚交给 AI，AI 端到端完成从设计到编码到测试。Karpathy 那个“Vibe Coding”的概念就属于这个范畴，不过快手在实践中发现，Vibe Coding 那些网上随处可见的”AI 做个小游戏”的场景和真实业务交付差距极大。真要在业务需求上用这种模式，前提是需求颗粒度够小、够独立，而且工程师本身能力要足够强（能全栈，能判断 AI 输出质量）。效果：开发周期缩短约 40%。

快手用了一个具体的例子来说明三者的差异。假设一个需求拆出 2 个开发任务（前端 + 后端），其中前端正常评估 5 天，编码 1 天：

L1 模式：评估还是 5 天，只是编码那天轻松点，省下的时间做做杂事。
L2 模式：从设计到编码到测试全面提速，可以 3.5 天完成。但整体快不快，还要看后端同学的进度和联调安排。
L3 模式：改变协作方式，比如 1 个人全栈做（原本要 10 天），不需要和别人集成验证，用 AI 协同后可以压到 6 天。

关键洞察在这里：从 L1 到 L2 到 L3，变化的不是工具，而是人机协作的方式和组织协同的流程。

快手分析了某个业务线三个月的已交付需求后发现：50-70% 的需求在不改变原有流程的情况下，就可以升级到 L2 模式；另有 2-10% 可以探索 L3。但现实中，只有不到 10% 的人在使用 L2 或 L3。

潜力巨大，执行率极低。这大概也是很多团队的现状。

度量的真话：别被虚荣指标骗了

快手在文章里说了一句狠话：业界看到的”代码生成率”指标，基本都是不置信的。

为什么？因为大多数 AI 编程工具自己报的数字，要么只统计工具内部的生成和提交，要么在分母上做了限定条件。这就像一个考试只考自己擅长的科目，然后宣布自己考了满分。

快手的做法是业内我见过最严格的：

分母：公司内所有最终入库的 commit 里的新增代码行，全量，无例外。
分子：把分母中每一行代码和 AI 曾经生成的代码做比对，编辑距离 < 50%（相似度高）才算 AI 贡献。
实现方式：不在 AI 工具端统计，而是由代码平台 + AI 工具联合提供数据，在离线数据层做精确计算。

这种度量方式没法作弊，但成本也高，需要企业有统一的代码平台和数据基建作为前提。

而且，快手到了后期已经不再把”AI 代码生成率”当核心指标了。他们转向了两个更直接的指标：

L1/L2/L3 级需求占比：有多少需求在用全流程 AI 模式交付
需求交付周期变化：端到端的交付时间到底缩短了没有

数据显示，最先完成 AI 范式转型的标杆团队，L2&L3 级需求占比达到 20.34% 时，需求交付周期下降了 58%。两个指标呈现明显正相关。

标杆团队数据：L2&L3 需求占比 vs 交付周期变化

这说明什么？看点”代码生成率”做做汇报可以，真想提效就得看需求端到端的交付周期。

三条行动建议

从快手三年的探索中，我提炼三条对大多数团队都适用的建议：

1. 先体检，再上 AI。

如果你的团队连研发流程都没标准化、度量体系都没建立，先别急着买 AI 工具的企业版。AI 只会让混乱变得更快、更贵。先把数字化基建做好，AI 的效果才能叠加上去。

2. 目标是”用 AI 改变工作方式”，而非”用 AI 写更多代码”。

从 L1（AI 辅助编码）到 L2（AI 辅助开发）的跃迁，关键在于让 AI 参与需求分析、技术设计、测试等全链路，而不仅仅是加速编码。这需要制定新的实践标准，做培训，树标杆，甚至重新设计团队的协作模式。

3. 度量要诚实。

不要用 AI 工具自带的”采纳率”自欺欺人。如果你真想知道 AI 有没有帮到你的团队，去看需求交付周期、人均需求吞吐量这些端到端的指标。过程指标可以参考，但别当成目标。

AI 研发提效不是一个购买决策，是一场组织变革。工具可以买来，但人的工作方式、团队的协作流程、管理者的度量思维，这些都需要一起变。快手用了三年、一万人的规模踩了这条路，至少证明了一件事：路径是存在的，但捷径是不存在的。