OpenAI史上最强模型 o4-mini和o3正式发布;「元宝」AI助手正式入驻微信;可灵AI发布2.0版本丨AI速递
作者:微信文章Hi,
FUTURE
AIGC周报
Weekly AI NewsExpress
数字未来事务所
DIGITAL FUTURE AGENCY
2025.04.13-2025.04.19
本周AI行业前沿速递
PART.01
OpenAI史上最强模型
o4-mini和o3正式发布
DFA
谷歌Deep Research近日宣布升级,搭载了最新的
OpenAI正式发布了o4-mini和满血版o3两款多模态模型,以下是对其的详细介绍:
模型功能
这两款模型能够同时处理文本、图像和音频等多种模态的数据,并且可以作为智能体自动调用网络搜索、图像生成、代码解析等工具,还具备深度思考模式,能在思维链中思考图像。
性能表现
o4-mini :在AIME2024测试中,准确率达到93.4%;在AIME2025测试中,准确率为92.7%。在Codeforces编程竞赛测试中,获得了2700分左右的成绩,跻身全球前200名最强程序员之列。
满血版o3 :在AIME2024测试中,准确率为91.6%;在 AIME2025测试中,准确率为88.9%。在Codeforces编程竞赛测试中,得分为2706分。
应用与服务
用户使用 :目前,o3 和 o4-mini已向ChatGPT Plus、Pro和Team用户开放使用,ChatGPT Enterprise和Edu 用户预计在一周后获得访问权限。免费用户也可通过 ChatGPT界面中的 “Think” 功能来体验o4-mini的能力。
开发者服务 :开发者可以通过Chat Completions API和Responses API接入新模型,未来版本还将逐步开放API对网络搜索、文件检索、代码解释器等内置工具的调用支持。
PART.02
字节正式发布
豆包1.5深度思考模型
DFA
字节跳动于4月17日发布了豆包1.5深度思考模型,以下是对其的详细介绍:
模型架构与性能
该模型采用MoE架构,总参数量达200B,激活参数为 20B,在高并发场景下延迟低至20毫秒,兼具性能与效率,相比业界同类模型,其参数规模降低了50%,具有显著的推理成本优势。
测试表现
在AIME、GPQA等测试中取得不错成绩,其中在AIME 2024测试中得分追平OpenAI o3-mini-high,在GPQA Diamond测试中成绩也接近o3-mini-high。在ARC-AGI测试中得分为39.9分。
功能特点
“边想边搜” 功能 :不同于其他推理模型 “先搜索再思考” 的模式,豆包1.5深度思考模型可以 “边想边搜”。例如在推荐露营装备时,能够拆解具体需求、规划信息,自行判断信息是否完备并补充搜索,经多轮搜索后给出细致周到的推荐。
视觉理解功能 :能理解图像内容并进行分析,如根据照片分析地貌特征,辅助旅行点餐决策,在企业办公中帮助绘制项目管理流程图等。
PART.03
「元宝」AI助手正式入驻微信
DFA
「元宝」AI助手已正式入驻微信,搭载腾讯混元与DeepSeek双模引擎,以联系人形式嵌入微信通讯录。其功能丰富,支持聊天、答题,兼容文字及语音输入,还可进行文章解读、文件解析和图片识别等操作。不过目前仍处初期阶段,存在功能限制,比如不支持设置聊天背景、语音 / 视频通话以及群聊等功能。
PART.04
OpenAI 也要开始做社交了?
DFA
据多家媒体报道,OpenAI目前正在内部测试一款社交网络原型,主打AI生成内容+社交信息流。其核心功能是ChatGPT的图像生成功能,并融合了社交动态信息流,允许用户生成和分享内容。OpenAI首席执行官Sam Altman已开始私下向外部人士征求反馈。
开发这一社交平台的主要目的是获取大量实时用户数据,以弥补与X和Meta相比在训练数据上的不足。此外,Grok与X平台的深度整合效果也刺激了OpenAI的这一举动。目前尚不清楚该社交网络会作为独立应用发布,还是会整合到ChatGPT中。
PART.05
可灵AI发布2.0版本
DFA
可灵AI 2.0版本已发布,升级了可灵视频生成和可图文生图模型,构建起MVL多模态语言系统,支持文本、图片和视频的精准交互。新版本还新增了多模态编辑功能,具备替换、增加和删除三种模式,可在5秒视频基础上进行精确修改,并配备AI音效生成能力。目前,可灵AI拥有2200万用户,创作了1.68亿视频及3.4亿图片,上万开发者使用其API,累计生成1200万图像和4000万视频。
PART.06
开源语音模型Orpheus
让LLM涌现出人类情感
DFA
开源语音模型Orpheus赋予了大型语言模型(LLM)共情能力,能够从文本中生成包含叹息、笑声等情感的语音,性能超越ElevenLabs和OpenAI等闭源模型。该模型基于Llama架构,拥有30亿参数,在A100 40GB显卡上进行流式推理的速度甚至快于音频播放速度,并且支持zero-shot语音克隆以及实时语音输出。Orpheus模型将发布四个不同规模的版本,参数规模从30亿到1.5亿不等。它采用了CNN tokenizer和Snac采样技术,并通过滑动窗口改进消除了弹跳问题,从而将延迟降低到了25-50毫秒。
FUTURE
PART.07
Gemini 2.5编程全球霸榜
谷歌重回AI王座
DFA
在多语言编程能力测试中,Gemini 2.5 Pro登顶全球第一,其性价比远高于Claude 3.7 Sonnet,成本仅为6美元。而谷歌还暗藏更强大的编程模型Dragontail,在Web开发领域表现惊艳,于UI设计、功能实现和代码质量等多方面全面超越Gemini 2.5 Pro。目前谷歌AI实力全面领先,Gemini系列在多项权威测评中均排名第一,同时在性能与成本方面做到了兼顾。
PART.08
CADCrafter,单图能直接生成
可编辑的CAD文件
DFA
CADCrafter能够将单张图像直接转换为可编辑的CAD工程文件,有效解决了AI生成3D模型难以编辑的痛点。该框架融合了VAE(变分自编码器)与扩散模型,并运用蒸馏策略从多视图过渡到单视图,从而生成具有高精度和良好编辑性的模型。相较于传统的网格模型方法CADCrafter在表面质量、几何准确性和实用性等方面均实现了显著提升,为相关领域的工作带来了极大便利。
PART.09
谷歌Veo 2震撼升级
一键get好莱坞级视觉盛宴
DFA
在谷歌Next 2025大会上,谷歌推出了升级版视频创作工具Veo 2。此次升级让它从一个普通的生成工具变身为专业的视频创作平台。Veo 2的功能非常全面,包括视频编辑、背景移除和帧插值等。使用者在网上进行的实际测试展示了它惊人的效果。只需输入简单的描述,Veo 2就能生成具备电影质感的视频,其中包括慢动作、360度旋转、特写镜头等专业效果。
此外,当Veo 2与Freepik AI Suite一起使用时,效果会更好。后者提供了AI图像生成、风格定制和专业编辑功能,它们共同为创意工作者提供了强大的创作工具。
图片素材出自互联网 版权归原作者所有 #数字未来事务所# 整合编译 欢迎分享至朋友圈 投稿/合作请留言 或 公众号菜单栏添加微信
https://mmbiz.qpic.cn/mmbiz_png/ZfQy6sNMuhQ8CwfMv0iagUlaZSLAeuFD62QAfIiaInKYIlc2KwEMB8vxvqJSniaayEia9a1xua4DytqEY0ZiciaWNvBA/640?wx_fmt=other&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp
https://mmbiz.qpic.cn/mmbiz_png/ZfQy6sNMuhRUjlmepeqgYBJS8M8rMK1bF1fO6b6VBqd5OhaHmIMib8mblsOVho6Xp2U6TgKADE04xneSGcnRugw/640?wx_fmt=other&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp
https://mmbiz.qpic.cn/mmbiz_png/ZfQy6sNMuhRZcHNBeOQ5HwIzsfApUjEIUX8dwL4opcWMM6v5V8nwr9DP7Tvo6ovQkUpORsiabkpIPics5Qd2FGhw/640?wx_fmt=other&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp
页:
[1]