新闻 发表于 2025-7-12 18:20

从Data4AI到AI4Data,揭秘上海AI Lab如何用AI重构大模型数据生命线

作者:微信文章
大模型浪潮席卷全球,推动人工智能迈入全新纪元。然而,支撑这些“智能巨人”崛起的核心燃料——高质量、海量训练数据——其生产本身正面临前所未有的效率与质量挑战。传统Data4AI(数据服务AI)模式如何突破瓶颈?上海人工智能实验室大模型数据研发专家蒋乾,将在7月25-26日深圳DA数智技术大会分享《AI4Data在大模型数据生产中的应用与实践》演讲,揭示破局之道:用AI重塑数据生产全链路,以“AI4Data”实现更高效、更智能的“Data4AI”目标!

https://mmbiz.qpic.cn/sz_mmbiz_jpg/EBaibcQicPxgzCibu5ULDrgZnYKFXtdF6nhzsyiaSEKIECh4r642FHvK0HG1Lz2OSTlK4rRh5ncAat0RTZ46qnoPqg/640?wx_fmt=jpeg&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1

作为上海AI Lab大模型预训练数据生产的关键负责人,蒋乾深谙数据对于模型性能的决定性影响。他专注于设计和落地“Data+AI”融合的系统架构,致力于解决大模型数据生产中的核心痛点:效率与易用性。本次演讲,他将首次系统分享团队如何构建一套数据不间断生产的基础设施,为模型迭代提供澎湃动力。

蒋乾的演讲将带您深入大模型数据生产的“心脏地带”,解析从Data4AI到AI4Data的范式跃迁:

1. 数据生产的进化图谱:回顾数据生产方式随大模型发展而经历的深刻变革,理解当前面临的效率与质量瓶颈。

2. 范式跃迁:从Data4AI到AI4Data,阐释为何必须引入AI技术来优化数据生产本身,实现从“人工密集型”向“智能驱动型”的根本转变。

3. 数据生产链路上的“AI工具箱”:揭秘在数据采集、接入、分类、标注、合成、检索、训练、存储等全环节中,如何嵌入智能化工具,显著提升各节点效率与产出质量。

4. 数仓思维赋能:高效数据组织之道,分享如何借鉴数仓(Data Warehouse)的组织理念,构建高效的数据管理体系,确保海量数据易查找、易理解、易使用,极大提升端到端的数据交付效率。

5. 未来之路:AI4Data的无限可能,展望智能化数据生产的前沿探索方向,描绘更自动化、更自适应数据生态的蓝图。

同时,蒋乾也将重点剖析团队在落地“AI4Data”过程中攻坚的关键挑战与创新方案:

挑战一:生产效率亟待飞跃。如何满足大模型对数据“量”与“速”的饥渴需求?

方案:构建云原生架构支撑的数据不间断生产流水线,实现任务的自动化调度、资源的弹性伸缩,最大化利用算力,支撑数据的快速迭代与持续供给。

挑战二:生产出来的数据必须“好用”、“易用”。如何确保海量数据不再是负担,而是唾手可得的宝藏?

方案:深度融合AI驱动的数据治理与组织。利用智能分类、打标、质量评估、语义检索等技术,赋予数据清晰的语义和脉络;借鉴数仓模型进行逻辑分层与主题域划分,使数据资产一目了然,满足研发、算法、评测等各团队任意时间点的精准、高效取数用数需求。

https://mmbiz.qpic.cn/sz_mmbiz_png/EBaibcQicPxgzCibu5ULDrgZnYKFXtdF6nhDbSdR1oiapibShYneTGvibd3LsKKJfZkdBialZ5XKGzKKhSVLYVjmlnYOA/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1

扫码报名,查看更多精彩内容

听众能从蒋乾的演讲中获得的收益包括:

掌握范式转变:深刻理解“AI4Data”如何成为实现高效“Data4AI”的必由之路;

洞悉生产全貌:一览大模型训练数据生产的完整链路及其背后的先进系统架构设计精髓;

获取效率密钥:学习智能化的数据组织与管理方式,大幅提升数据从生产到应用的端到端效率;

预见未来趋势:把握大模型数据生产领域的前沿探索方向与技术脉搏。

大模型的竞争,本质是数据生产力与数据治理能力的竞争。无论您是数据平台开发者、算法研究员,还是关注大模型基础设施的技术决策者,这都是一场不可错过的深度解析。

活动推荐

DA 数智大会2025·深圳站 现已进入全价期,扫描二维码报名可享受专属折扣,也可直接联系票务经理:13311343487。最新日程实时同步,可点击「阅读原文」进行查看。

https://mmbiz.qpic.cn/sz_mmbiz_jpg/EBaibcQicPxgzCibu5ULDrgZnYKFXtdF6nhm2pIgOt6NN2ncicvnvxOb09pvJnfSMI5jmPfibtsrdjIES8VXMP5Df4Q/640?wx_fmt=jpeg&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1
页: [1]
查看完整版本: 从Data4AI到AI4Data,揭秘上海AI Lab如何用AI重构大模型数据生命线