找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 166|回复: 0

腾讯重磅调整大模型架构:前OpenAI专家加盟高层团队;OpenAI推出新版图像生成神器,性能超越谷歌Nano Banana!

[复制链接]
发表于 2025-12-17 18:38 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
w1.jpg

w2.jpg
AI资讯

ARTIFICIAL INTELLIGENCE

1. 特斯拉机器人因手部技术延期交货,中国灵巧手领跑市场

特斯拉的人形机器人因灵巧手技术问题延期交付,而中国公司灵心巧手的高自由度、高性能灵巧手产品已实现商业化,并在多个场景中得到应用。该公司认为灵巧手不仅是人形机器人的关键部件,也是具身智能的核心执行平台,具备广泛应用前景。阅读更多

2. 腾讯重磅调整大模型架构:前OpenAI专家加盟高层团队

腾讯宣布调整其大模型组织架构,并任命姚顺雨为首席AI科学家,向总裁刘炽平汇报。姚顺雨此前是OpenAI研究员,在Agent研究领域有重要贡献。此次调整还包括成立新的AI Infra部和大语言模型部,以强化公司在大模型研发上的能力。阅读更多

3. 全新通义万相2.6:全球最强视频生成黑科技来袭

阿里发布了新一代通义万相2.6视频生成模型,具备文生视频、图生视频等多种功能,是目前全球功能最全的视频生成模型。新版本引入了多音频驱动生视频能力以及音画同步等技术,并在日常短视频和二创方面表现出色,尽管存在一些小瑕疵,但整体上已经非常实用。阅读更多

4. 大模型新突破:从Words to Worlds | 对话商汤首席科学家林达华

商汤科技发布其最新的空间智能模型SenseNova-SI,在多个基准测试中超越了李飞飞团队的Cambrian-S。商汤首席科学家林达华表示,单纯依赖大规模参数的传统AI范式已面临瓶颈,未来将从多模态和原生架构进行创新,实现从语言到物理世界的迁移。阅读更多

5. 全新无训练框架VGGT4D:解锁低成本4D场景重建能力

香港科技大学(广州)与地平线研究团队提出了一种无需训练的新框架VGGT4D,通过挖掘3D基础模型内部的运动线索,在处理动态4D场景时取得优异性能。实验显示,该方法在多个基准数据集上优于现有解决方案,并展示了低成本4D重建和零样本迁移任务中的潜力。阅读更多

6. 新型双流记忆框架:让大模型从错误中学习并提升性能

南京理工大学与百度等单位提出了一种新的多模态记忆方法ViLoMem,通过构建视觉流和逻辑流的双流语义记忆框架,使大模型能够从错误中学习并提升性能。实验结果显示,这种方法在多个基准测试中显著提高了GPT-4.1和Qwen3-VL-8B等模型的表现,并且无需微调即可将大模型的记忆迁移给小模型,增强其推理能力。阅读更多

7. Google全链路方案助力出海:3人团队操控千智能体,初创企业弯道超车机遇来临

Google Cloud大中华区负责人Dennis Yue在量子位MEET2026大会上分享了AI智能体对初创企业出海的深远影响,并介绍了谷歌推出的全链路解决方案。他认为未来一年内整个AI领域将快速演进,建议创业公司认真考虑如何通过智能体赛道实现高效出海增长。阅读更多

8. 英伟达收购开源调度工具Slurm开发商,巩固高性能计算和AI市场地位

英伟达低调收购开源算力调度工具Slurm的开发商SchedMD,此举扩大了其在高性能计算和AI领域的影响力。Slurm被全球过半顶级超算及多家科技巨头采用,确保英伟达能够进一步锁定核心客户群体。尽管英伟达承诺保持Slurm开源性质,外界仍对其后续开发持观望态度。阅读更多

9. OpenAI推出新版图像生成神器,性能超越Nano Banana

OpenAI发布了新的图像生成模型GPT-Image-1.5,改进了精准编辑和细节保留功能,并在文本转图像和图像编辑方面超越Nano Banana。该模型已面向所有ChatGPT用户开放,并降低了API成本20%。然而,在精细图像编辑能力上仍不及谷歌的模型。阅读更多

10. Meta发布SAM Audio:语音分离神器,让特定声音一键分割

Meta公司近日发布了SAM Audio模型,这是一种先进的音频分割技术,能够通过文本、视觉和时间跨度提示从复杂混合中分离出特定声音。该模型基于Perception Encoder Audiovisual引擎构建,并提供了多种应用工具如基准测试平台和自动评测系统,旨在提升用户在音频处理上的效率与创造力。阅读更多

11. 万相2.6震撼上线:普通人也能创作电影级视频特效

阿里云于12月16日发布了万相2.6版本,这是首个具备声画一致性角色定制能力的模型,支持视频生成、图生视频和参考生视频等功能。它提高了画面质量、音效和指令遵循能力,并带来了分镜控制功能,使得普通用户能够轻松制作高质量的电影级视频内容。阅读更多

12. LightSearcher:大幅提升AI效率的记忆黑科技

北邮百家AI团队提出LightSearcher框架,通过引入经验记忆和自适应奖励机制,在保持高准确率的同时,显著减少了DeepSearch大模型的搜索工具调用次数(减少39.6%)和推理时间(缩短48.6%),提升了系统的整体效率。阅读更多

13. VGGT4D:零训练成本,解锁3D模型4D场景重建潜力

香港科技大学(广州)与地平线团队提出了VGGT4D框架,无需额外训练即可让3D基础模型处理动态4D场景。通过挖掘Visual Geometry Transformer的内部机制,VGGT4D在动态物体分割、相机位姿估计和长序列4D重建等任务上表现出色,并显著提升了现有模型的性能。阅读更多

14. 浙大与字节联合发布:300万样本视频编辑数据集OpenVE-3M及高效模型OpenVE-Edit

浙江大学与字节跳动联合发布大规模指令跟随视频编辑数据集OpenVE-3M,包含300万样本对,并提出高效模型OpenVE-Edit,在较小参数量下超越现有开源模型效果。同时构建了评测体系OpenVE-Bench,确保模型性能与人类评价高度一致。阅读更多

15. 中国AI推出一键成片神器,全球内测开启!

中国新推出的Vidu Agent AI工具实现了“一键成片”的功能,为专业视频创作提供了高效便捷的解决方案,适用于广告、品牌宣传和创意短片等多种场景,并支持多语言定制。从12月16日起,该工具在全球范围内开放内测。阅读更多

16. AAAI研讨会视频生成挑战赛:一等奖20万等你来夺!

AAAI 2026研讨会期间将举办视频生成一致性挑战赛,旨在解决AI视频生成技术中的“一致性”问题。比赛由多所高校和研究机构联合主办,设立主赛道和技术创意赛道,并提供总计超过21万元人民币的奖金。报名截止日期为2025年12月25日,决赛将于2026年1月12日举行。阅读更多

17. 打字太慢拖后腿?专家预言:AGI时代人机协作迎大飞跃!

OpenAI Codex负责人Alexander Embiricos指出,当前通往通用人工智能(AGI)的一个瓶颈是人类打字速度过慢,限制了人机协作效率。多位科技行业大佬也强调了类似问题,并提出未来的突破在于让AI智能体能够自主工作而不依赖于人类的输入和验证。Embiricos预计从2026年开始将出现生产力大幅飞跃,预示着AGI时代的来临。阅读更多

18. OpenAI发布科学推理新基准:AI离一流科学家还有多远?

OpenAI于2025年12月16日发布了新的科研基准FrontierScience,旨在评估AI在物理、化学和生物领域的科学推理能力。该系统包括700多道题目,其中160道为“黄金组”题目,涵盖竞赛与研究两个赛道。初步测试结果显示,GPT-5.2在这两项任务中分别获得了77%和25%的得分,目前处于领先地位。研究表明,尽管AI在某些方面表现出色,但距离成为真正的一流科学家仍有一段距离。阅读更多

19. 北大团队提出HD²-SSC:解决自动驾驶语义场景补全难题 | AAAI'26

北京大学彭宇新教授团队提出了一种名为「高维度-高密度」(HD²-SSC) 的视觉语义场景补全方法,解决了自动驾驶中2D输入与3D输出之间的维度差异和人工标注与真实场景之间的密度差异问题。该方法在SemanticKITTI 和 SSCBench-KITTI-360 数据集上取得了当前最优的性能。阅读更多

20. 腾讯与清华联手:生成式AI彻底变革广告推荐系统!

腾讯广告联合清华大学发布了一项新技术论文《GPR》,提出用生成式AI重构大规模广告推荐系统,摒弃传统的多阶段流水线模型,采用单一模型实现从理解用户到生成推荐的全过程。这一技术革新不仅提高了系统的整体优化能力,还显著减少了工程复杂性和误差累积问题,标志着广告推荐技术范式的根本性转变。阅读更多

21. 字节跳动明日召开AI安全论坛,发布智能体管理平台

12月18日15时,字节跳动将举办「AI安全论坛」,分享AI安全落地实践和技术创新。会议还将首发智能体身份和权限管理平台。详情请通过官方渠道获取。阅读更多

22. 揭秘Programmatic Tool Calling:提升大语言模型的可靠性和效率

随着大语言模型的稳定性和工具调用能力提升,传统直接的工具调用机制在复杂任务中暴露出诸多问题。为了解决这些问题,Programmatic Tool Calling(PTC)应运而生,它通过重新划分模型、上下文与执行边界来提高系统的稳定性和可预测性,并有效控制了token成本和上下文膨胀的问题。这种方法使得模型不再直接参与执行细节,而是生成程序代码由外部环境执行,从而提高了复杂任务处理的效率和可靠性。阅读更多
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-12-18 14:16 , Processed in 0.086630 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表