5分钟AI小课堂 | 如何评估AI的“视频理解力”?英特尔研究指出关键路径
作者:微信文章超越简单描述,采用结构化场景图,新基准为模型时空推理能力提供“精准标尺”
研究人员正致力于提升AI理解视频,特别是长视频的能力,其关键挑战之一在于视频中的时间序列,即事件发生的先后顺序。
例如,有一段视频,一个人拿起水杯,喝了一口水,把水杯放回桌面,过了一会儿,又喝了一口水,拿着水杯走出了房间。这个视频看起来不复杂,但AI常常搞错“人在房间里还是房间外”“水杯在哪里”这样的问题。这是因为,大模型的工作机制是一次性输入,一次性输出,不像人类可以维持长时间工作的记忆,也就难以理解动态变化的世界。
新需求
传统意义上,评估大模型视频理解能力的基准测试主要基于简单的叙述或者标签,像是“有人在喝水”和“喝水”。
然而,在实际应用中,这样的能力远远不够,大模型常常需要理解不同对象之间的关系,动作的先后顺序,以及事件的因果链条。例如,工厂需要保证制造按照工序进行,医院需要监测患者是否遵守康复方案,自动驾驶汽车需要更好地分析和预测行人和其它车辆的行为模式。
新路径
为突破这些技术限制,英特尔与大学的研究人员合作开发了一套系统性方法:以“第一人称视角动作场景图”(egocentric action scene graphs)为基础,构建了名为EASG-Bench的“第一人称视角动作场景图基准测试”,用于评估多模态AI模型对可穿戴摄像机拍摄的第一人称视频的理解能力。场景图可视为一种精密的关系地图,它不仅标注视频中出现的物体,更精确刻画这些物体如何相互连接、如何与执行动作的人产生交互。
研究团队采用纯文本大语言模型(LLM),从场景图中系统生成四类问题:目的性问题(探究物体使用意图)、直接对象问题(聚焦动作操纵的主要物体)、间接对象问题(关注交互中的次要元素)以及时序排序问题(测试对事件序列的理解)。每个问题均经过两阶段严格过滤,确保必须通过直接观察视频内容才能作答。该流程最终基于221个视频片段产出1,807个高质量问答对,可深度检验AI系统对视频内容的理解能力。
新方向
这项工作标志着AI视频理解迈出了重要一步:目标不仅是让AI“看到”视频中发生什么,更要让其理解事件随时间推移如何以及为何演变的深层模式。研究结果凸显了未来研究的必要性,即必须专注于长视频理解中的时空推理,这远超出了对文本符号序列的处理。理解事物在位置和时间上的交互方式,将显著提升AI模型的预测能力、环境导航与系统控制能力。当AI不仅能进行序列标注,更能具备真正的“时间感”和“空间感”时,它将在工业、医疗、交通等领域发挥出更大的变革性作用。
如需更加深入了解,请访问:
https://community.intel.com/t5/Blogs/Tech-Innovation/Artificial-Intelligence-AI/How-Intel-Creates-Better-AI-Video-Understanding-with-Scene-Graph/post/1718842
©英特尔公司,英特尔、英特尔logo及其它英特尔标识,是英特尔公司或其分支机构的商标。文中涉及的其它名称及品牌属于各自所有者资产。
相关资讯
/转载请注明出处/
页:
[1]