多客科技 发表于 2025-1-23 03:57

AI编程双城记下:万字长文剖析下一代技术革命与落地挑战

作者:微信文章

本文内容适合关注 AI 前沿的读者。回顾2024年 AI 编程领域技术和产品创新,同时总结企业提效在落地的真实效果和挑战,从落地实践和思考,观察行业趋势和分析解决方案。最后,展望2025年AI 编程下一代技术给大家的期待。文章信息量较大,建议阅读时长20-30分钟适宜。本文涉及:Github Copilot、Cursor、v0、reweb.so、AI Agent、Coding Agent、RAG、微调、Blot.new 、Devin.ai 、Cursor Composer 、AIOps、Function Call
企业现阶段落地的场景

数据建模

Text2SQL的发展

Text2SQL,Natural Language to SQL,它能够将自然语言的查询语句转换成结构化查询语言(SQL)的命令。这个过程使所有人通过日常的语言来与数据库进行交互,无需了解SQL的具体语法,下面是一些受欢迎的开源项目
名称描述GitHub链接优点Chat2db人工智能驱动的数据管理平台,支持多种数据库https://github.com/chat2db/chat2db支持几乎所有比较流行的数据库,提供7B开源模型VannaChat with your SQL database Accurate Text-to-SQL Generation via LLMs using RAGhttps://github.com/vanna-ai/vanna支持自定义可视化UI,灵活度高SuperSonic腾讯音乐开发的模型知识库和语义解析器https://github.com/tencentmusic/supersonic增强语义解析能力,支持多种数据库
企业内部技术团队基于 Text2SQL 构建复杂的SQL查询和增强数据分析能力。比如金融行业,Text2SQL系统从大量的数据表中,解析业务合规、风险问题,相应构建复杂的SQL规则,用于识别不符合规定的交易活动,甚至根据设定规则和公式自动创建查询,计算最新的信用分数
DB Agent 摸索

典型以腾讯**SuperSonic 、**阿里的蚂蚁团队 DB-GPT,用 Agent 集成Text2SQL,用自然语义,轻松完成 BI 分析工作,还自动化生成报表

https://github.com/eosphoros-ai/DB-GPT

产品效果:除了Text2SQL能力,还可以生成可视化的图表,并进行灵活自然语义的 BI 分析



DB Agent 典型的商业应用

百度 AppBuilder、字节Coze、AutoGen、FastGPT 都有针对 DB 的 RAG 支持,不用写代码,用 Agent 的 Function Call 有需要时候调用 DB。下面百度 AppBuilder的例子



当在Agent查询酒店信息时,Agent 自动查询数据库,因为它知道数据库里有这些信息


AI 设计表

大量实践证明,在市面上可见业务系统,大模型表设计能力不错,在长Token能支持范围内,准确度和理解能力已经成熟。不少技术团队已经表设计让AI先自动构建再Review方式,提升效率明显。下面是真实的视频教学系统为例,拿过去产品需求,直接作为提升从让大模型做表设计。

我们来对比原项目E-R图和AI生成的表设计




7张表一个不漏,包含表与表关系,里面详细字段,几乎准确无误


过去需要懂业务工程师花一天完成工作,AI 在几分钟之类可以设计出同质量的表


大部分这样的场景下,提升效率甚至能到几十倍




总结:个人非常看好这个方向,DB 领域本身比较结构化、标准化,非常适合大模型落地场景,核心看大模型对自然语言理解能力边界
AIOps 中故障定位和根因FAQ

用 AI 赋能Ops 领域尝试了很多年。这里我只提故障定位而不是故障分析,是因为运维故障分析核心技术并不是靠大模型的能力,它主要是基于历史时序数据进行未来预测的深度机器学习。
• 不过有大模型自然语义理解能力,RAG的检索增强,对过去的一些故障定位,FAQ也起到很大作用。最大的体现,过去故障根因,只能最精通的人分析数据,解答问题。现在拉低这个门槛,所有知识技术人员描述基本异常,大模型分析专业数据,给出通识化的答案。有点像一个24小时特殊训练过的故障专家协助工程师。• FAQ 这个环节极大提升效率,一定程度加快故障排查和解决的时间。

当然,预测异常大模型完成不了,国内外前沿一些科技公司,比如腾讯、阿里巴巴、中兴

重点关注 Datadog 推出 Bits AI 功能,基于 OpenAI 的人工智能助理,它提供单一对话接口,查询和关联整个Datadog平台上的重要数据,包括日志、指标、关注、内部文件甚至 Slack对话内容等。用户通过自然语言指令处理事件管理,加速问题诊断和确认影响范围

一些企业会深度做一些定制化的研发,通过自身丰富的 RAG 知识库,建立一个私有的故障定位和分析 FAQ 。随着数据不断被人为标注和大模型微调,覆盖的系统随之全面。产品形态,类似下面一个云原生可观测的开源项目

https://github.com/CloudDetail/apo



不需要专家,普通技术人员,只要给到上下文完整,可以拉低故障排查的门槛


2025最大期待:下下一代编程技术革命

你不得不感慨 AI 赋予编程技术最新创新,Cursor 尽管是编程 Copilot 新的革命,还不止,全新的 Coding Agent 时代也开始来临

这里划时代的产品:商业化中的 Devin.ai 、Blot.new 和完全开源的 Cline ,它们在做什么?

主要体现在:
• 用Agent 技术,代替我们自动化部署环境,自动化调试和修正程序,最后自动化运行程序。

直白来说,让一个独立的编程机器人,只需我们输入任务的描述,它去实现程序完成任务。

那么这个阶段条件已经具备了吗?是的,技术已经出来了,而且还开源出来了!
•这里定义它是下下一代的技术,主要是和 Cursor做一个区分。如果说 Cursor 带来是人与AI 交互编程的最高天花板, Coding Agent 标志零编程的最高天花板。• Devin 号称全球第一个AI 工程师,2024年上半年火爆全球,虽然被普遍质疑,最近推出企业付费版本,最低 500美金/月。不少业界专业人士已经试用过,真实反馈,假肯定不假,完成任务能力还停在实习生阶段。它体现出来的自动化能力,技术上可以做到


• Blot.new : Web 开发平台,旨在简化开发流程,相比本地运行 Devin,开发者直接在线在浏览器中快速地构建、运行、编辑和部署全栈 Web 应用程序



Devin.ai、Blot.new 毕竟还是黑盒的,那么我就要重点提一下 Cline ,你可以任务它是开源的 Devin,这个是真的一个里程碑,这里非常感恩开源技术社区的贡献

https://github.com/cline/cline


对,你没听错,下下一代技术已经开源了!我用 Cline 加最新通用大模型 Deepseeker V3,做了一个完整真实项目。
• 项目有独立的前、后端子项目,中间还包含访问数据库,生成图形报表交互需求。这种项目从难度和复杂度,应该满足软件工程里面 60% 编程场景。当然,调用大模型 API 还是要花钱,最终完成这样一个项目成本几块钱。• Cline 本质来说是一个个Agent,从产品功能能够体现出来,你喂给它一个需求目标。它唤起一个个独立机器人,不停地完成一个个任务


• 在运行过程当中,如果出现了 Bug,他会尝试帮我们分析 Bug,还自动修复 Bug。这个能力实在太棒,下面Cline在自动运行程序,出现依赖缺失错误后,它开始尝试自动修复



还不赖,它修复成功,正常启动了程序



    对于一些复杂的功能,它在执行过程中,一路磕磕绊绊。

    我经过两天,近50次尝试,发现了各种问题:

    1、大模型本身逻辑推理问题,比如实例中代码缺陷无法识别和自动修复的问题

    2、单轮对话无法完成复杂的问题



    第一轮对话只完成项目的原始构建

    3、提示词需要不断打磨优化,COT 策略需要引入

    4、还顺带修复 Cline IDE 中环境 Bug,像环境权限、路径变量的问题

    最后,因为是开源,我们完成一套 Solution下来,只需要一套提示词模版,和多轮对话技巧,甚至在大模型有缺陷情况下,十几分钟零代码、零编程方式完成这个任务。

而且,接下来每次的运行,都几乎100%能成功。



完成的页面效果

对比访问数据库中的数据



• Cline 应该能够完成企业70%的编程场景任务,你的产品设计做的比较完善,理解上下文和Cot的精髓,它真的可以完成你期望的任务。前提是你真正懂编程,大模型原理,然后你才能充分利用好编程工具,工程越复杂,中间还有不断调试,优化的过程。• 如果你只想不切实际用直白自然语言让AI给你完成一个高难度项目,我劝你还是放弃幻想。• 越复杂系统做编程,越是接近于艺术创造,让AI 去取代人类角色,完成艺术创造,我觉得这是一个错误的思路。AI 更应该协助人类,高效完成基础功能。这是它能掌握和擅长的。• 更进一步,如果用编程描述语言,完整做到核心的架构的描述,一些技术原理的描述,把复杂问题解耦成一个个基础单元,AI 是可以完成一些复杂的功能,甚至会让我们觉得非常惊艳。而且Cline 是开源的,完全可以做这个方向定制化
RAG和微调对AI 编程深远影响

微调 和 RAG 分别从大模型参数化、非参数知识两个维度做增强。大模型知识储备能力、推理能力都可以得到提高。需要到定制化RAG和微调都是面向 To B,重点是满足下面几个诉求:
• RAG: 对代码补全的上下文准确率至关重要,同时企业也可以作为内部代码知识库



百度Comate远程SaaS平台上传知识文档



本地IDE对话编程工具的效果
• 微调:代码补全模版完善,判定 Good/Base Case, 增强企业定制化业务逻辑
// bad
const Index<Props>=({ children }) => {
return <>{children}</>
}
// good
const Index: React.FC<Props> = (props) => {
return <>{props.children}</>
}
微调以后,代码补全提示是正确的Case



• 特别是对代码、数据安全要求高,不希望外传云端的大模型有刚性需求企业,私有化部署这类企业包括:银行、政府部门、金融机构等等

RAG 和微调涉及东西太多,这里不核心展开。2025年,一定比例企业还会持续投入私有化代码大模型建设,对数据安全是它们底线,这是一个追求效率和安全的平衡。就算没有云服务AI 编程工具能力,在保证数据安全下有本质提效,节约成本,也达到他们最终的目标。
混合云模式

我相信未来还会有私有云和公有云同时存在的AI编程模式,根据不同项目,不同业务隔离机制,不同团队采用不同模式,这也是合情合理。
双刃剑

AI 污染互联网

AI 编程粗糙滥用,会有反噬效应:

现在一大部分人,似乎走在一个错误的方向:处于不同目的,一类人不厌其烦用 AI 生产一些 Hello World 的 Demo。另一类人,还幻想用 AI ,用最简单口令,去马上完成一些复杂到大部分人类都很难的艺术编程。它们除了价值不大以外,会产生很多低质量的代码,这些代码一旦散布网上,事实上已经如此:

在 ChatGPT 爆火之初,Stack Overflow 便宣布「临时禁用」。

从 ChatGPT 获得正确答案的平均比例太低了!官方在声明的吐槽
https://36kr.com/p/2962446022201350

一些低质量的 AI 代码海量发布到 Github ,充斥到一些知名技术社区的 FAQ。另一方面,大模型现在几乎零识别抓取、收录到低质量的、有幻觉的代码,将结果返回给用户。

如此这般形成恶性循环,我觉得这所有人都需要在2025年深度思考的点。
AI 编程需要是Solution

AI 编程要在企业发光发热,AI 工具必不可少,但光有工具远远不够。企业需要的是一整套的解决方案 Solution。这个 Solution 包含工具外,还应该包含:

1、和 AI 能力配套的先进软件流程体系,一种 OKR,而不是盲目追求代码采纳率的 KPI

2、创新的产研协同思维,产品设计、市场运营应用上AI ,整合研发AI,将 AI 价值无限放大。这不是天方夜谭,下面 是 Qunar 技术团队最新推行的 “AI重塑后的开发流程”



去哪儿网前端代码自动生成技术实践
https://mp.weixin.qq.com/s/qEbvFBqgnHYVFLh1mJ9ytw

3、工具混合使用,场景化定制:企业一种务实做法,具体场景看具体优势,甚至结合自身需求做定制化。我接触一家金融科技公司,内部用 AI 做业务缺陷查找:自审、资金损失提醒、交易流程防范手段,不需要投入额外人力,查漏率直接提高60%

AI 时代来临,要求企业自身改变,适应新的理念,如果没有一套先进,体系的方法论,就算给了再好的工具,生产力也提不上去。



AI 编程工具用得不合理,甚至有企业反馈不但没有提效,而且还会把过去的开发效率会降低,那就要好好思考下是否用对了正确的方法
作者简介

蒋志伟,Next4.ai 创始人 ( 微信 nizhanali ) 目前从事 AI 创业和技术顾问,关注 AI Agent、RAG、AI搜索、智能编程领域 曾就职 阿里、Qunar、美团,前 Pmcaff.com CTO,核心研发过上亿用户搜索推荐系统 我开源了一个用来测评 AI 编程质量的开源项目,也欢迎大家关注和交流

https://github.com/laziobird/CodeLLMEval
页: [1]
查看完整版本: AI编程双城记下:万字长文剖析下一代技术革命与落地挑战