我爱免费 发表于 2025-7-13 02:44

AI 编程工具让你变慢了?最新研究颠覆认知:开发者效率不升反降

作者:微信文章
点击蓝字 关注我们
在人工智能浪潮席卷全球的今天,AI 编程工具被普遍视为软件开发领域的“超级马里奥”,能够将开发者从繁琐的编码工作中解放出来,实现效率的指数级跃升。然而,一项由非营利研究机构 METR(Model Evaluation & Threat Research)发布的随机对照试验研究,却给我们带来了意想不到甚至可以说是颠覆性的结论:AI 编程工具不仅没有让开发者变得更快,反而让他们变慢了。

更令人玩味的是,这种“减速”效应似乎也伴随着一种“认知幻觉”。参与研究的开发者们不仅在使用前预测 AI 将带来24%的效率提升,甚至在研究结束后,他们依然坚信 AI 帮助他们将任务完成时间缩短了20%。但冰冷的数据揭示了残酷的真相:AI 的介入实际上让他们的工作耗时增加了约19%。

研究报告中这样写道:“完成研究后,开发者们估计 AI 的使用使任务完成时间减少了20%。然而,令人惊讶的是,我们发现 AI 的使用实际上使完成时间增加了19%——AI 工具拖慢了开发者的速度。”



这究竟是怎么回事?让我们深入了解这项研究的细节,探寻背后的原因。

研究是如何进行的?

为了确保研究的严谨性和真实性,METR 的计算机科学家们精心设计了一项随机对照试验。

参与者:研究招募了16位经验丰富的软件开发者,他们都是大型开源项目的活跃贡献者,具备高超的专业技能和对自己所维护项目的深刻理解。

任务:研究任务并非凭空捏造的“实验题”,而是开发者们自己工作待办清单中真实存在的问题。这些问题总计246个,涵盖了漏洞修复、新功能开发等日常开发工作的方方面面。

方法:在任务开始前,开发者首先需要预测完成每项任务所需的时间。随后,这246个任务被随机分配为两组:“允许使用AI工具”组和“禁止使用AI工具”组。

工具与时间:在允许的情况下,开发者可以自由选择他们偏好的 AI 编程工具,其中主要是集成了 Claude 3.5 和 Claude 3.7 Sonnet 模型的 Cursor Pro。整个研究工作在2025年2月至6月期间进行。



通过这种设计,研究人员得以在真实的工作场景下,直接比较有无 AI 介入对开发效率的真实影响。

为何 AI 反而成了“减速带”?

数据显示,AI 工具让经验丰富的开发者们慢了下来。研究团队在分析了整个过程后,指出了导致这种“减速”现象的五个核心因素:

对AI效用的过度乐观:开发者们普遍抱有不切实际的期望,他们高估了 AI 在复杂编程任务中的实际帮助。这种乐观心态可能导致他们在遇到难题时,倾向于花费更多时间去“调教”AI,而不是依赖自己更可靠的专业知识。

开发者对代码库的高度熟悉:参与研究的都是资深开发者,他们对自己长期维护的代码库了如指掌。对于他们来说,直接上手编写或修改代码,可能远比构建一个精确的、能让 AI 理解复杂上下文的提示要来得更快。AI 提供的通用性建议,在这些“地头蛇”面前,反而显得班门弄斧。

代码库的庞大与复杂:研究发现,AI 在处理超过百万行代码的大型、复杂代码库时,性能会显著下降。这些庞大的项目拥有错综复杂的依赖关系和深厚的历史背景,而目前的 AI 模型很难完全理解和消化这些“隐性知识”。

AI 的低可靠性:这可能是最直接的原因。数据显示,开发者实际采纳 AI 生成的代码建议的比例低于44%。这意味着超过一半的 AI 输出被废弃了。而对于那些被初步采纳的建议,开发者还需要花费大量额外时间进行审查、清理、重构和测试,以确保其正确性和健壮性。这个“审核成本”严重拖累了整体效率。

隐性的代码库上下文:AI 模型缺乏对项目深层上下文的理解。它不知道项目的长期目标、设计哲学、团队的编码规范,也无法理解某些代码存在的历史原因。这种“只知其然,不知其所以然”的状态,导致其生成的代码可能在语法上正确,但在逻辑上或架构上却与整个项目格格不入。

此外,研究人员也提到,AI 生成代码的延迟、以及开发者未能向模型提供最优化的上下文输入等因素,也可能对结果产生了一定影响,但其具体影响程度尚不明确。

“增加的隐性工作”:时间都去哪儿了?

研究中的一张图表生动地揭示了开发者工作模式的变化。报告解释说:“当允许使用 AI 时,开发者花在主动编码、搜索和阅读信息上的时间减少了,取而代之的是,他们将时间花费在了编写提示、等待AI输出、审查AI结果以及无所事事的空闲上。”



简单来说,AI 改变了时间的分配。原本用于深度思考和创造的时间,被一系列与 AI 交互的“新工作”所占据。这种“增加的隐性工作”正是导致效率下降的关键。许多开发者在一线工作中也有类似的体会:AI 在自动化某些常规任务、或在低风险环境中快速测试新想法时确实很有帮助,但因为你必须花费同样甚至更多的时间去验证代码是否真的有效,所以总的来看并没有节省时间。更重要的是,AI 不会像一个人类实习生那样通过实践获得成长和学习。

换言之,AI 工具或许让编程的某些环节变得更有趣,但并未让整个过程变得更高效。

这并非孤例:更多研究指向相似结论

METR 的研究并非个例,近期其他一些研究和调查也从不同侧面印证了 AI 效能被夸大的可能性:

Qodo 研究:一家名为 Qodo 的 AI 编程公司最近的研究发现,AI 软件辅助带来的一些好处,被核查 AI 代码建议所需的额外工作所抵消。

丹麦经济调查:基于丹麦的数据进行的一项经济调查发现,生成式 AI 对就业或工资尚未产生任何实际影响。

英特尔研究:英特尔的一项研究表明,所谓的 AI PC 反而降低了用户的生产力。

中国某电力公司的呼叫中心:据报道,该中心的员工表示,虽然 AI 辅助可以加速某些任务,但它也会通过创造更多额外工作来拖慢整体进度。

如何客观看待这一研究结论?

尽管研究结果发人深省,但该研究的作者们——Joel Becker, Nate Rush, Beth Barnes, 和 David Rein,也谨慎地强调,这项工作应在非常特定的背景下进行解读。

他们指出:“我们观察到的‘减速’现象,并不意味着当前的 AI 工具无法在其他场景下提高开发者的生产力。我们发现,开发者对代码库的高度熟悉度、以及代码库本身的规模和成熟度,是导致效率下降的共同原因。而这些因素在许多其他的软件开发环境中并不适用。”

例如,对于一个新手开发者,或者在一个全新的、较小的项目中,AI 工具可能依然能提供巨大的帮助。

作者们进一步说明,他们的发现并不意味着当前 AI 系统毫无用处,更不意味着未来的 AI 模型不会做得更好。这只是当前技术水平、在特定实验条件下的一次“快照”。

总而言之,METR 的这项研究为我们敲响了警钟: 在盲目拥抱 AI 带来的生产力革命之前,我们或许需要更冷静、更批判性地审视 AI 工具在真实世界中的表现。对于那些在复杂、成熟项目上工作的资深开发者来说,目前的 AI 助手可能还不是一把削铁如泥的“瑞士军刀”,反而更像一个需要小心翼翼、时刻监督的“实习生”。

技术的进步永无止境,未来的 AI 模型必将更加智能、可靠。但就现在而言,人类开发者的经验、智慧和深刻的上下文理解能力,依然是无可替代的核心价值。
页: [1]
查看完整版本: AI 编程工具让你变慢了?最新研究颠覆认知:开发者效率不升反降