【OpenAI史上最强模型 o4-mini和o3正式发布;「元宝」AI助手正式入驻微信;可灵AI发布2.0版本丨AI速递】萍聚社区-德国热线-德国实用信息网人工智能

新闻发表于 2025-4-19 10:58

OpenAI史上最强模型 o4-mini和o3正式发布;「元宝」AI助手正式入驻微信;可灵AI发布2.0版本丨AI速递

作者：微信文章

Hi,

FUTURE

AIGC周报

Weekly AI NewsExpress

数字未来事务所

DIGITAL FUTURE AGENCY

2025.04.13-2025.04.19

本周AI行业前沿速递

PART.01

OpenAI史上最强模型

o4-mini和o3正式发布

DFA

谷歌Deep Research近日宣布升级，搭载了最新的

OpenAI正式发布了o4-mini和满血版o3两款多模态模型，以下是对其的详细介绍：

模型功能

这两款模型能够同时处理文本、图像和音频等多种模态的数据，并且可以作为智能体自动调用网络搜索、图像生成、代码解析等工具，还具备深度思考模式，能在思维链中思考图像。

性能表现

o4-mini ：在AIME2024测试中，准确率达到93.4%；在AIME2025测试中，准确率为92.7%。在Codeforces编程竞赛测试中，获得了2700分左右的成绩，跻身全球前200名最强程序员之列。

满血版o3 ：在AIME2024测试中，准确率为91.6%；在 AIME2025测试中，准确率为88.9%。在Codeforces编程竞赛测试中，得分为2706分。

应用与服务

用户使用：目前，o3 和 o4-mini已向ChatGPT Plus、Pro和Team用户开放使用，ChatGPT Enterprise和Edu 用户预计在一周后获得访问权限。免费用户也可通过 ChatGPT界面中的 “Think” 功能来体验o4-mini的能力。

开发者服务：开发者可以通过Chat Completions API和Responses API接入新模型，未来版本还将逐步开放API对网络搜索、文件检索、代码解释器等内置工具的调用支持。

PART.02

字节正式发布

豆包1.5深度思考模型

DFA

字节跳动于4月17日发布了豆包1.5深度思考模型，以下是对其的详细介绍：

模型架构与性能

该模型采用MoE架构，总参数量达200B，激活参数为 20B，在高并发场景下延迟低至20毫秒，兼具性能与效率，相比业界同类模型，其参数规模降低了50%，具有显著的推理成本优势。

测试表现

在AIME、GPQA等测试中取得不错成绩，其中在AIME 2024测试中得分追平OpenAI o3-mini-high，在GPQA Diamond测试中成绩也接近o3-mini-high。在ARC-AGI测试中得分为39.9分。

功能特点

“边想边搜” 功能：不同于其他推理模型 “先搜索再思考” 的模式，豆包1.5深度思考模型可以 “边想边搜”。例如在推荐露营装备时，能够拆解具体需求、规划信息，自行判断信息是否完备并补充搜索，经多轮搜索后给出细致周到的推荐。

视觉理解功能：能理解图像内容并进行分析，如根据照片分析地貌特征，辅助旅行点餐决策，在企业办公中帮助绘制项目管理流程图等。

PART.03

「元宝」AI助手正式入驻微信

DFA

「元宝」AI助手已正式入驻微信，搭载腾讯混元与DeepSeek双模引擎，以联系人形式嵌入微信通讯录。其功能丰富，支持聊天、答题，兼容文字及语音输入，还可进行文章解读、文件解析和图片识别等操作。不过目前仍处初期阶段，存在功能限制，比如不支持设置聊天背景、语音 / 视频通话以及群聊等功能。

PART.04

OpenAI 也要开始做社交了？

DFA

据多家媒体报道，OpenAI目前正在内部测试一款社交网络原型，主打AI生成内容+社交信息流。其核心功能是ChatGPT的图像生成功能，并融合了社交动态信息流，允许用户生成和分享内容。OpenAI首席执行官Sam Altman已开始私下向外部人士征求反馈。

开发这一社交平台的主要目的是获取大量实时用户数据，以弥补与X和Meta相比在训练数据上的不足。此外，Grok与X平台的深度整合效果也刺激了OpenAI的这一举动。目前尚不清楚该社交网络会作为独立应用发布，还是会整合到ChatGPT中。

PART.05

可灵AI发布2.0版本

DFA

可灵AI 2.0版本已发布，升级了可灵视频生成和可图文生图模型，构建起MVL多模态语言系统，支持文本、图片和视频的精准交互。新版本还新增了多模态编辑功能，具备替换、增加和删除三种模式，可在5秒视频基础上进行精确修改，并配备AI音效生成能力。目前，可灵AI拥有2200万用户，创作了1.68亿视频及3.4亿图片，上万开发者使用其API，累计生成1200万图像和4000万视频。

PART.06

开源语音模型Orpheus

让LLM涌现出人类情感

DFA

开源语音模型Orpheus赋予了大型语言模型（LLM）共情能力，能够从文本中生成包含叹息、笑声等情感的语音，性能超越ElevenLabs和OpenAI等闭源模型。该模型基于Llama架构，拥有30亿参数，在A100 40GB显卡上进行流式推理的速度甚至快于音频播放速度，并且支持zero-shot语音克隆以及实时语音输出。Orpheus模型将发布四个不同规模的版本，参数规模从30亿到1.5亿不等。它采用了CNN tokenizer和Snac采样技术，并通过滑动窗口改进消除了弹跳问题，从而将延迟降低到了25-50毫秒。

FUTURE

PART.07

Gemini 2.5编程全球霸榜

谷歌重回AI王座

DFA

在多语言编程能力测试中，Gemini 2.5 Pro登顶全球第一，其性价比远高于Claude 3.7 Sonnet，成本仅为6美元。而谷歌还暗藏更强大的编程模型Dragontail，在Web开发领域表现惊艳，于UI设计、功能实现和代码质量等多方面全面超越Gemini 2.5 Pro。目前谷歌AI实力全面领先，Gemini系列在多项权威测评中均排名第一，同时在性能与成本方面做到了兼顾。

PART.08

CADCrafter，单图能直接生成

可编辑的CAD文件

DFA

CADCrafter能够将单张图像直接转换为可编辑的CAD工程文件，有效解决了AI生成3D模型难以编辑的痛点。该框架融合了VAE（变分自编码器）与扩散模型，并运用蒸馏策略从多视图过渡到单视图，从而生成具有高精度和良好编辑性的模型。相较于传统的网格模型方法CADCrafter在表面质量、几何准确性和实用性等方面均实现了显著提升，为相关领域的工作带来了极大便利。

PART.09

谷歌Veo 2震撼升级

一键get好莱坞级视觉盛宴

DFA

在谷歌Next 2025大会上，谷歌推出了升级版视频创作工具Veo 2。此次升级让它从一个普通的生成工具变身为专业的视频创作平台。Veo 2的功能非常全面，包括视频编辑、背景移除和帧插值等。使用者在网上进行的实际测试展示了它惊人的效果。只需输入简单的描述，Veo 2就能生成具备电影质感的视频，其中包括慢动作、360度旋转、特写镜头等专业效果。

此外，当Veo 2与Freepik AI Suite一起使用时，效果会更好。后者提供了AI图像生成、风格定制和专业编辑功能，它们共同为创意工作者提供了强大的创作工具。

图片素材出自互联网版权归原作者所有 #数字未来事务所# 整合编译欢迎分享至朋友圈投稿/合作请留言或公众号菜单栏添加微信

https://mmbiz.qpic.cn/mmbiz_png/ZfQy6sNMuhQ8CwfMv0iagUlaZSLAeuFD62QAfIiaInKYIlc2KwEMB8vxvqJSniaayEia9a1xua4DytqEY0ZiciaWNvBA/640?wx_fmt=other&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp

https://mmbiz.qpic.cn/mmbiz_png/ZfQy6sNMuhRUjlmepeqgYBJS8M8rMK1bF1fO6b6VBqd5OhaHmIMib8mblsOVho6Xp2U6TgKADE04xneSGcnRugw/640?wx_fmt=other&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp

https://mmbiz.qpic.cn/mmbiz_png/ZfQy6sNMuhRZcHNBeOQ5HwIzsfApUjEIUX8dwL4opcWMM6v5V8nwr9DP7Tvo6ovQkUpORsiabkpIPics5Qd2FGhw/640?wx_fmt=other&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

OpenAI史上最强模型 o4-mini和o3正式发布;「元宝」AI助手正式入驻微信;可灵AI发布2.0版本丨AI速递