AI视频生成,3年狂飙
作者:微信文章今天玩了一天不同的AI视频生成工具,也看了下技术产品进化的故事线。先说说它是怎么一步步走到今天的。 有问题,欢迎纠正。2022年之前,AI视频就是个玩具。GAN逐帧生成的那些DeepFake内容,几秒钟,前后帧缺乏连贯性,运动模糊,不真实,根本没法用。2022年底开始有转机。Meta的Make-A-Video首次将扩散模型应用于视频生成,包括Google的Imagen Video,Transformer + 扩散模型视频生成时代来了。视频能看了,3到5秒,画面清晰多了。但问题还在——运动不自然,跑步像滑行,开车像漂移,不像真实世界该有的样子。2023年是商业化元年。Runway Gen-2能控制镜头了,Pika能编辑了,工具开始好用。画面质量、时序一致性、物理逻辑虽有瑕疵,但足够创作者用拿它做东西,不再只是实验室demo。突破点在2024年2月,Sora发布。那个东京街头的女孩,光影、透视、运动的惯性,全对了。视频时长可达 1 分钟,远超之前模型的 4–16 秒。Sora也被认为是 视频生成的“ChatGPT时刻”。那一刻可以意识到:这不是改进,是跨越。早期的AI不懂世界是怎么运转的。水为什么往低处流?人走路为什么有重量感?阳光照进屋子为什么会在地上投影?这些物理规律,早期模型根本不知道。但Sora开始懂了。它不是在拼贴像素,而是在模拟一个遵循物理规律的世界。"世界模型"的概念也是那时候爆发出圈。2025年10月这几天,Sora2的发布,又将视频生成拉到一个叙事高度。音画同出、分镜效果、10秒真实的叙事能力、Cameo功能的人物社交玩法。这标志着AI视频从"片段素材"进化为"可消费内容"。过去5年,AI视频生成经历了从不可用到可用再到好用的三级跳。技术突破往往不是线性的。从不能用到能用,可能需要3年;但从能用到好用,可能只需要1年。 AI视频正好走到这个拐点上。 电影从早期1895年卢米埃尔兄弟的《火车进站》,到1927年有声电影,用了32年;从黑白到彩色,又是20多年;从胶片到数字,横跨了整个20世纪。每一次技术跃迁,都需要几代人的积累。 AI视频生成,从2022年的模糊抖动,到2024年Sora的物理真实,再到2025年Sora2的音画叙事——3年时间,走完了传统电影技术的百年进化。我们正在见证历史!(完)欢迎VX交流:say-amazing
页:
[1]