AI | 告别文本!视频将成为AI的“终极眼睛”.OpenAI的Sora 2开启新纪元
作者:微信文章声明:本公众号以分享市场信息,探讨经济相关知识为原则,仅与广大投资者分享交流,不构成投资建议。资本市场有风险,投资需谨慎。
本文来源于经济学人2025年10月11日刊,77-78页,原文标题Artificial intelligence- Look at me!(人工智能——看我生成的视频!),正文可能有删改,使用扣子、DeepSeek翻译,配图使用pollination生成
导读:以OpenAI的Sora为代表的人工智能视频模型正成为新趋势,其价值远超生成网络热门内容。研究表明,这类视频模型无需专门训练,就能作为“零样本推理器”解决广泛的视觉和空间问题,展现出通用视觉问题解决的潜力,可能预示着一场类似由ChatGPT引发的AI新热潮。
人工智能领域的新趋势:视频可能超越文本跃居前沿
浏览聊天机器人开发公司OpenAI推出的新型视频应用Sora上的推送内容,就如同置身于一场奇异幻景之中。画面里,一位身着柔道服的女子先是向一头大象鞠躬行礼,紧接着竟将大象轻松过肩摔倒;还有年轻的花样滑冰运动员在土星的光环间飞驰;甚至能看到模糊不清的监控录像画面,内容是OpenAI的创始人兼老板山姆·奥特曼试图偷拿一张显卡。
倘若这款好似TikTok的应用所展示的视频并非全部由人工智能生成,对于一家专注于人工智能的公司而言,它的确会显得有些奇特。在Sora上,用户既没有上传自己拍摄视频的选项,甚至也无法开启摄像头(除了有一个能将自己的形象插入到人工智能视频生成器中的功能)。Sora的推送内容全是由人工智能生成的“滥俗之作”——时时刻刻皆是如此。如今,随着文本类人工智能的热度逐渐消退,像构建Sora应用所使用的这类视频模型正掀起人工智能行业的新热潮,而且其影响不仅仅局限于大众传媒领域。
这一影响可不容小觑尽管Sora目前仅接受邀请注册使用,但它在美国和加拿大的应用商店排行榜上名列前茅,这两个地区正是该应用首次发布的地点。*。Sora上线后,在排行榜上紧随其后的是谷歌的Gemini应用——得益于该公司的“纳米香蕉”图像生成器,这款应用在类似“滥俗内容”推动下热度也有所提升。用户向系统提出各种要求,比如生成一张模仿90年代恐怖片主角风格的照片,或是重现儿时拥抱自己的画面,亦或是其他同样异想天开的内容,系统都会一一照做。
成功背后往往伴随着代价。对于那些有幸获得邀请码的用户来说,使用Sora是免费的,但运行这款应用的成本可不低。据估算,基于Sora首个版本的定价标准,在该平台上生成每一个视频,OpenAI需要在算力方面投入大约1美元,而且用户每天能生成100个视频。社交媒体的过人之处在于用户自愿免费上传内容,广告商则为在这些内容旁展示广告的位置付费。但如果一家公司在用户发布的每一条内容上都要亏损,那么这种视频应用的商业模式前景就不容乐观了。
不过,Sora以及谷歌的Veo 3等类似视频模型的真正价值,不太可能仅仅体现在它们所生成的这些“滥俗内容”上——即便这些内容确实吸引了用户的目光。谷歌旗下深度思维(DeepMind)的研究人员在一篇新论文中认为,这类系统无需进行任何专门训练,就能解决一系列视觉和空间问题。
视频模型的工作原理是先获取随机生成的视觉噪点,然后逐步“去噪”,为无序的内容赋予秩序。在每一步操作中,模型都会自问:“怎样才能让这个画面看起来更符合我所得到的提示呢?”如果提示内容是对可分享内容的描述,那么模型就会生成相应的内容。要是提示描述的是一项视觉任务,比如图像处理或解决现实世界中的问题,结果表明,最新一代的视频模型也能应对自如。
给模型一张树上鹦鹉的图片,并给出指令要求它生成一个视频,展示所有颜色和细节逐渐消失,最终只留下边缘可见的效果,它就能出色地完成任务——在边缘检测这一原本需要专业系统才能完成的任务中,表现得游刃有余。类似地,给它一个提示,要求对图片进行类似《犯罪现场调查》风格的去模糊处理,或者标记出图片的组成部分,它也能尝试去完成。
它还能处理与图像编辑截然不同的任务。给它一个未完成的数独谜题,并提示生成一个完成该谜题的视频,模型就能做到。一张机器人手拿着罐子的照片,它可以将此扩展成一段完整的视频,呈现出机器人手打开罐子所需的动作。
视觉智能的崛起
论文指出,此类模型能执行的任务范围广泛,这使它们成为“零样本推理器”。称其为“零样本”,是因为这些视频系统能够解决它们从未见过、也未曾接受过专门训练的任务;称其为“推理器”,是因为至少在某些情况下,它们似乎得益于研究人员所说的“帧链视觉推理”,可以逐步解决诸如在迷宫中寻找出口这类任务。
论文提到,令人振奋的是,新的视频系统在通用问题解决能力方面比上一代视频模型有了显著提升。论文作者认为,这意味着视频模型“在不久的将来将成为视觉领域的通用基础模型”,最终能够在无需特殊训练的情况下,解决任何面临的视觉挑战。
这无疑是一项大胆的论断,但却有着历史性的回响。2022年,谷歌和东京大学的一个研究团队发表了一篇论文,指出“大型语言模型是零样本推理器”,并认为当时方兴未艾的大型语言模型领域具备“尚未开发且研究不足的基本零样本能力”。六个月后,ChatGPT登场,人工智能热潮就此兴起。人们希望视频模型也能在类似的热潮中走向成熟,如此一来,Sora目前的“滥俗内容”阶段可能会成为其发展历程中一个有趣的注脚,而非其真正的价值所在。
各位读者朋友们
如果您喜欢阅读经济学人期刊,或者希望养成每天5分钟阅读习惯
或是渴望在知识的海洋里与志同道合之人分享见解,碰撞思维火花
又或是对道巴朔狐分享的文章有独到看法及任何意见或建议
都欢迎您加入道巴朔狐读者群
同时,还欢迎您一同见证道巴朔狐公众号从日更200天向日更1000天迈进
加入方式:点击下方文章,添加小狐微信,发送“读者群”,小狐抱你入群
独学无获,众论生慧|道巴朔狐读者交流群4月20日开放邀请
公众号已有超过1000篇的经济学人文章,可以作为一个小型知识库使用,使用方法见经济学人知识库与号内搜索指引
公众号已接入AI机器人,可直接在聊天窗口找“小狐AI”提问,取代之前的公众号标签功能,小狐已全面掌握经济学人文章知识库,想找特定文章或随便聊聊,赶快来撩小狐吧!
页:
[1]