腾讯重磅调整大模型架构:前OpenAI专家加盟高层团队;OpenAI推出新版图像生成神器,性能超越谷歌Nano Banana!

我爱免费 · 发表于 2025-12-17 18:38

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章

AI资讯

ARTIFICIAL INTELLIGENCE

1. 特斯拉机器人因手部技术延期交货，中国灵巧手领跑市场

特斯拉的人形机器人因灵巧手技术问题延期交付，而中国公司灵心巧手的高自由度、高性能灵巧手产品已实现商业化，并在多个场景中得到应用。该公司认为灵巧手不仅是人形机器人的关键部件，也是具身智能的核心执行平台，具备广泛应用前景。阅读更多

2. 腾讯重磅调整大模型架构：前OpenAI专家加盟高层团队

腾讯宣布调整其大模型组织架构，并任命姚顺雨为首席AI科学家，向总裁刘炽平汇报。姚顺雨此前是OpenAI研究员，在Agent研究领域有重要贡献。此次调整还包括成立新的AI Infra部和大语言模型部，以强化公司在大模型研发上的能力。阅读更多

3. 全新通义万相2.6：全球最强视频生成黑科技来袭

阿里发布了新一代通义万相2.6视频生成模型，具备文生视频、图生视频等多种功能，是目前全球功能最全的视频生成模型。新版本引入了多音频驱动生视频能力以及音画同步等技术，并在日常短视频和二创方面表现出色，尽管存在一些小瑕疵，但整体上已经非常实用。阅读更多

4. 大模型新突破：从Words to Worlds | 对话商汤首席科学家林达华

商汤科技发布其最新的空间智能模型SenseNova-SI，在多个基准测试中超越了李飞飞团队的Cambrian-S。商汤首席科学家林达华表示，单纯依赖大规模参数的传统AI范式已面临瓶颈，未来将从多模态和原生架构进行创新，实现从语言到物理世界的迁移。阅读更多

5. 全新无训练框架VGGT4D：解锁低成本4D场景重建能力

香港科技大学（广州）与地平线研究团队提出了一种无需训练的新框架VGGT4D，通过挖掘3D基础模型内部的运动线索，在处理动态4D场景时取得优异性能。实验显示，该方法在多个基准数据集上优于现有解决方案，并展示了低成本4D重建和零样本迁移任务中的潜力。阅读更多

6. 新型双流记忆框架：让大模型从错误中学习并提升性能

南京理工大学与百度等单位提出了一种新的多模态记忆方法ViLoMem，通过构建视觉流和逻辑流的双流语义记忆框架，使大模型能够从错误中学习并提升性能。实验结果显示，这种方法在多个基准测试中显著提高了GPT-4.1和Qwen3-VL-8B等模型的表现，并且无需微调即可将大模型的记忆迁移给小模型，增强其推理能力。阅读更多

7. Google全链路方案助力出海：3人团队操控千智能体，初创企业弯道超车机遇来临

Google Cloud大中华区负责人Dennis Yue在量子位MEET2026大会上分享了AI智能体对初创企业出海的深远影响，并介绍了谷歌推出的全链路解决方案。他认为未来一年内整个AI领域将快速演进，建议创业公司认真考虑如何通过智能体赛道实现高效出海增长。阅读更多

8. 英伟达收购开源调度工具Slurm开发商，巩固高性能计算和AI市场地位

英伟达低调收购开源算力调度工具Slurm的开发商SchedMD，此举扩大了其在高性能计算和AI领域的影响力。Slurm被全球过半顶级超算及多家科技巨头采用，确保英伟达能够进一步锁定核心客户群体。尽管英伟达承诺保持Slurm开源性质，外界仍对其后续开发持观望态度。阅读更多

9. OpenAI推出新版图像生成神器，性能超越Nano Banana！

OpenAI发布了新的图像生成模型GPT-Image-1.5，改进了精准编辑和细节保留功能，并在文本转图像和图像编辑方面超越Nano Banana。该模型已面向所有ChatGPT用户开放，并降低了API成本20%。然而，在精细图像编辑能力上仍不及谷歌的模型。阅读更多

10. Meta发布SAM Audio：语音分离神器，让特定声音一键分割

Meta公司近日发布了SAM Audio模型，这是一种先进的音频分割技术，能够通过文本、视觉和时间跨度提示从复杂混合中分离出特定声音。该模型基于Perception Encoder Audiovisual引擎构建，并提供了多种应用工具如基准测试平台和自动评测系统，旨在提升用户在音频处理上的效率与创造力。阅读更多

11. 万相2.6震撼上线：普通人也能创作电影级视频特效

阿里云于12月16日发布了万相2.6版本，这是首个具备声画一致性角色定制能力的模型，支持视频生成、图生视频和参考生视频等功能。它提高了画面质量、音效和指令遵循能力，并带来了分镜控制功能，使得普通用户能够轻松制作高质量的电影级视频内容。阅读更多

12. LightSearcher：大幅提升AI效率的记忆黑科技

北邮百家AI团队提出LightSearcher框架，通过引入经验记忆和自适应奖励机制，在保持高准确率的同时，显著减少了DeepSearch大模型的搜索工具调用次数（减少39.6%）和推理时间（缩短48.6%），提升了系统的整体效率。阅读更多

13. VGGT4D：零训练成本，解锁3D模型4D场景重建潜力

香港科技大学（广州）与地平线团队提出了VGGT4D框架，无需额外训练即可让3D基础模型处理动态4D场景。通过挖掘Visual Geometry Transformer的内部机制，VGGT4D在动态物体分割、相机位姿估计和长序列4D重建等任务上表现出色，并显著提升了现有模型的性能。阅读更多

14. 浙大与字节联合发布：300万样本视频编辑数据集OpenVE-3M及高效模型OpenVE-Edit

浙江大学与字节跳动联合发布大规模指令跟随视频编辑数据集OpenVE-3M，包含300万样本对，并提出高效模型OpenVE-Edit，在较小参数量下超越现有开源模型效果。同时构建了评测体系OpenVE-Bench，确保模型性能与人类评价高度一致。阅读更多

15. 中国AI推出“一键成片”神器，全球内测开启！

中国新推出的Vidu Agent AI工具实现了“一键成片”的功能，为专业视频创作提供了高效便捷的解决方案，适用于广告、品牌宣传和创意短片等多种场景，并支持多语言定制。从12月16日起，该工具在全球范围内开放内测。阅读更多

16. AAAI研讨会视频生成挑战赛：一等奖20万等你来夺！

AAAI 2026研讨会期间将举办视频生成一致性挑战赛，旨在解决AI视频生成技术中的“一致性”问题。比赛由多所高校和研究机构联合主办，设立主赛道和技术创意赛道，并提供总计超过21万元人民币的奖金。报名截止日期为2025年12月25日，决赛将于2026年1月12日举行。阅读更多

17. 打字太慢拖后腿？专家预言：AGI时代人机协作迎大飞跃！

OpenAI Codex负责人Alexander Embiricos指出，当前通往通用人工智能（AGI）的一个瓶颈是人类打字速度过慢，限制了人机协作效率。多位科技行业大佬也强调了类似问题，并提出未来的突破在于让AI智能体能够自主工作而不依赖于人类的输入和验证。Embiricos预计从2026年开始将出现生产力大幅飞跃，预示着AGI时代的来临。阅读更多

18. OpenAI发布科学推理新基准：AI离一流科学家还有多远？

OpenAI于2025年12月16日发布了新的科研基准FrontierScience，旨在评估AI在物理、化学和生物领域的科学推理能力。该系统包括700多道题目，其中160道为“黄金组”题目，涵盖竞赛与研究两个赛道。初步测试结果显示，GPT-5.2在这两项任务中分别获得了77%和25%的得分，目前处于领先地位。研究表明，尽管AI在某些方面表现出色，但距离成为真正的一流科学家仍有一段距离。阅读更多

19. 北大团队提出HD²-SSC：解决自动驾驶语义场景补全难题 | AAAI'26

北京大学彭宇新教授团队提出了一种名为「高维度-高密度」(HD²-SSC) 的视觉语义场景补全方法，解决了自动驾驶中2D输入与3D输出之间的维度差异和人工标注与真实场景之间的密度差异问题。该方法在SemanticKITTI 和 SSCBench-KITTI-360 数据集上取得了当前最优的性能。阅读更多

20. 腾讯与清华联手：生成式AI彻底变革广告推荐系统！

腾讯广告联合清华大学发布了一项新技术论文《GPR》，提出用生成式AI重构大规模广告推荐系统，摒弃传统的多阶段流水线模型，采用单一模型实现从理解用户到生成推荐的全过程。这一技术革新不仅提高了系统的整体优化能力，还显著减少了工程复杂性和误差累积问题，标志着广告推荐技术范式的根本性转变。阅读更多

21. 字节跳动明日召开AI安全论坛，发布智能体管理平台

12月18日15时，字节跳动将举办「AI安全论坛」，分享AI安全落地实践和技术创新。会议还将首发智能体身份和权限管理平台。详情请通过官方渠道获取。阅读更多

22. 揭秘Programmatic Tool Calling：提升大语言模型的可靠性和效率

随着大语言模型的稳定性和工具调用能力提升，传统直接的工具调用机制在复杂任务中暴露出诸多问题。为了解决这些问题，Programmatic Tool Calling（PTC）应运而生，它通过重新划分模型、上下文与执行边界来提高系统的稳定性和可预测性，并有效控制了token成本和上下文膨胀的问题。这种方法使得模型不再直接参与执行细节，而是生成程序代码由外部环境执行，从而提高了复杂任务处理的效率和可靠性。阅读更多

账号		自动登录	找回密码
密码			注册

萍聚头条

腾讯重磅调整大模型架构:前OpenAI专家加盟高层团队;OpenAI推出新版图像生成神器,性能超越谷歌Nano Banana!

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块