关于本站登录

苹果新AI模型长视频理解夺冠，小规模版本也领先对手

2025年8月23日

（图片来自网络）

苹果研究团队开源了 SlowFast-LLaVA-1.5 长视频多模态大语言模型，在1B、3B、7B等参数规模下，刷新了 LongVideoBench、MLVU 等多项行业基准纪录。甚至小至1B版本的模型也领先竞争对手，展现了强大长视频理解能力。

该模型针对现有大语言模型处理视频存在的3重局限性（依赖长上下文窗口、训练管道复杂、仅针对视频优化），创新了双流（慢流、快流）设置。其中，“慢流” 选取少量高分辨率帧捕捉场景细节，“快流” 选取更多低分辨率帧追踪运动变化，适配128帧输入（快流96帧、慢流32帧）。

该模型在知识问答、数学推理、OCR等图像相关任务也表现出色，实现视频与图像通用理解；

完全基于公开数据集训练，方便学术与产业复现；

已在GitHub与Hugging Face开源，促进AI技术发展。

测试显示，该模型不仅长视频理解能力领先，1B版本也能在多项基准上超越对手，为AI行业带来新突破。

（声明：该内容经AI精编）查看原网页

精彩评论（10）

网友10 2025-08-23 16

开源对行业帮助大，能促进更多创新。
网友9 2025-08-23 16

看到科技在长视频理解的突破，感觉未来很美好。
网友8 2025-08-23 16

即使小规模也能领先，说明通用性强。
网友7 2025-08-23 16

训练用公开数据，学术复现容易，利于进步。
网友6 2025-08-23 16

能刷新多项基准，说明技术实力强，很值得期待。
网友5 2025-08-23 16

视频与图像通用，以后跨媒体处理更智能。
网友4 2025-08-23 16

开源后更多团队能研究，行业发展快了。
网友3 2025-08-23 16

针对视频处理局限性的创新很巧妙，期待应用场景。
网友2 2025-08-23 16

小规模版本都领先，说明效率很高，资源占用少吗？
网友1 2025-08-23 16

这个AI模型长视频理解能力夺冠，以后用起来肯定很方便！

查看“苹果新AI模型长视频理解夺冠，小规模版本也领先对手”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙