苹果新AI模型长视频理解夺冠,小规模版本也领先对手
(图片来自网络)
苹果研究团队开源了 SlowFast-LLaVA-1.5 长视频多模态大语言模型,在1B、3B、7B等参数规模下,刷新了 LongVideoBench、MLVU 等多项行业基准纪录。甚至小至1B版本的模型也领先竞争对手,展现了强大长视频理解能力。
该模型针对现有大语言模型处理视频存在的3重局限性(依赖长上下文窗口、训练管道复杂、仅针对视频优化),创新了双流(慢流、快流)设置。其中,“慢流” 选取少量高分辨率帧捕捉场景细节,“快流” 选取更多低分辨率帧追踪运动变化,适配128帧输入(快流96帧、慢流32帧)。
- 该模型在知识问答、数学推理、OCR等图像相关任务也表现出色,实现视频与图像通用理解;
- 完全基于公开数据集训练,方便学术与产业复现;
- 已在GitHub与Hugging Face开源,促进AI技术发展。
测试显示,该模型不仅长视频理解能力领先,1B版本也能在多项基准上超越对手,为AI行业带来新突破。
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2025年11月6日:晶采观察丨新政密集落地 读懂中国开放背后的底气
- 2025年11月6日:6G与AI驱动通信发展,vivo电池特惠等科技热点
- 2025年11月6日:谷歌Gemini智能家居误判宠物:狗狗被错认成猫咪 引发网友热议
- 2025年11月6日:2035,AI重新定义人类的‘24小时’
- 2025年11月6日:集邦咨询:内存价格失控 DDR5芯片现货一周暴涨30%
- 2025年11月6日:谷歌下一代旗舰AI模型Gemini 3 Pro曝光:11月发布或带百万Token上下文窗口
- 2025年11月6日:6G技术发展及标准确立 相关产业迎来机遇期
- 2025年11月6日:微言 | “注水”的知识付费,该“脱水”了
- 2025年11月6日:ICML 2026发布史上最严新规:LLM不得列为作者,滥用AI直接退稿
- 2025年11月6日:多领域科技资讯早报:小鹏L4智驾、苹果代码泄露等最新动态
- 2025年11月6日:安东尼-爱德华兹因腿筋拉伤缺席两周后今日客战尼克斯将复出
- 2025年11月6日:欧冠赛场马赛主帅谈球队三场戏剧性失利与晋级潜力
- 2025年11月6日:NBA新秀榜更新:探花埃奇库姆领跑,11号秀考沃德居次,弗拉格位列第三
- 2025年11月6日:内尔高谈阿森纳防守:防守成球队文化,热衷稳定零封
- 2025年11月5日:最新 iOS 设备性能榜单出炉:iPad 家族包揽前五,iPhone 17 Pro 排名第六
- 2025年11月5日:AI换机潮驱动高端手机需求,高通交出超预期业绩成绩单
- 2025年11月5日:宇树科技创始人王兴兴:机器人大模型状态类比ChatGPT发布前1 - 3年
- 2025年11月5日:宇树与智元机器人在进博会开展‘隔空对话’:王兴兴谈具身智能困惑,稚晖君展示全栈创新
- 2025年11月5日:OpenAI首席财务官回应上市计划:暂无IPO安排,称AI泡沫担忧被夸大,强调算力合作与基建
- 2025年11月5日:高通2025年预计斩获先进制程芯片39%份额 成行业龙头

精彩评论(10)