苹果新AI模型长视频理解夺冠,小规模版本也领先对手

2025年8月23日
news

(图片来自网络)

苹果研究团队开源了 SlowFast-LLaVA-1.5 长视频多模态大语言模型,在1B、3B、7B等参数规模下,刷新了 LongVideoBenchMLVU 等多项行业基准纪录。甚至小至1B版本的模型也领先竞争对手,展现了强大长视频理解能力。


该模型针对现有大语言模型处理视频存在的3重局限性(依赖长上下文窗口、训练管道复杂、仅针对视频优化),创新了双流(慢流、快流)设置。其中,“慢流” 选取少量高分辨率帧捕捉场景细节,“快流” 选取更多低分辨率帧追踪运动变化,适配128帧输入(快流96帧、慢流32帧)。



  1. 该模型在知识问答、数学推理、OCR等图像相关任务也表现出色,实现视频与图像通用理解;

  2. 完全基于公开数据集训练,方便学术与产业复现;

  3. 已在GitHub与Hugging Face开源,促进AI技术发展。


测试显示,该模型不仅长视频理解能力领先,1B版本也能在多项基准上超越对手,为AI行业带来新突破。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-08-23 16
    开源对行业帮助大,能促进更多创新。
  • 网友9 2025-08-23 16
    看到科技在长视频理解的突破,感觉未来很美好。
  • 网友8 2025-08-23 16
    即使小规模也能领先,说明通用性强。
  • 网友7 2025-08-23 16
    训练用公开数据,学术复现容易,利于进步。
  • 网友6 2025-08-23 16
    能刷新多项基准,说明技术实力强,很值得期待。
  • 网友5 2025-08-23 16
    视频与图像通用,以后跨媒体处理更智能。
  • 网友4 2025-08-23 16
    开源后更多团队能研究,行业发展快了。
  • 网友3 2025-08-23 16
    针对视频处理局限性的创新很巧妙,期待应用场景。
  • 网友2 2025-08-23 16
    小规模版本都领先,说明效率很高,资源占用少吗?
  • 网友1 2025-08-23 16
    这个AI模型长视频理解能力夺冠,以后用起来肯定很方便!
查看“苹果新AI模型长视频理解夺冠,小规模版本也领先对手”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙