俄亥俄等院校联合推出首个多模态AI研究代理评估基准
(图片来自网络)
在人工智能快速发展的当下,多模态大语言模型已能理解图像、文本等多种信息,但它们在执行复杂研究任务时的表现如何?2026年1月,俄亥俄州立大学、亚马逊、密歇根大学等多所机构联合完成的研究,发布了首个多模态深度研究代理(Deep Research Agents, 简称DRA)评估基准——MMDeepResearch-Bench(MMDR-Bench)。
该平台是专门为AI研究助手设置“学术能力考试”,强调处理多模态信息(如图表、数据可视化等)的能力。研究团队设计了140个专家级任务,覆盖21个学科领域,分为日常与研究任务两类,由博士级专家设计确保专业性与必要性。
评估采用三重框架:FLAE(评估研究报告质量)、TRACE(检查引用准确性)、MOSAIC(验证文本与视觉证据一致性),且采用分层激活机制,确保评估效率与准确性。测试25个先进AI系统,Gemini深度研究系统表现最佳,得分49.41分,但研究发现AI能力维度存在权衡,视觉能力提升未必总带来性能提升,多模态对齐与引用也存在分歧。
人类一致性检查显示评估框架可靠性高,研究揭示了AI研究助手的能力边界与改进方向,提示使用时需注意验证引用与图表解读,人类监督不可或缺。若想了解技术细节,可查询论文arXiv:2601.12346v1。
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2026年1月25日:腾讯元宝新春活动送10亿现金红包,单笔最高10000元
- 2026年1月25日:俄罗斯测试新型等离子推进系统 火星旅行有望缩至1 - 2个月
- 2026年1月25日:外媒测试引争议 OpenAI GPT - 5.2可信度受质疑
- 2026年1月25日:小米汽车熔岩橙配色下架 雷军无奈谈行业困境
- 2026年1月25日:“死了么”App爆火:背后是庞大独居群体的隐忧
- 2026年1月25日:死龙虾变身机器人:科技赋予废弃生物新功能
- 2026年1月25日:网购微星RTX 5090显卡遇调包 网友分享浴巾裹石头骗局经历
- 2026年1月25日:北京新能源汽车保有量超130万辆 超充站达1044座
- 2026年1月25日:荣耀平板新春版更新官宣:视频锁屏与PC级应用等亮点来袭
- 2026年1月25日:中国正能量网络精品征集展播活动:记录奋进力量 激荡社会正能量
- 2026年1月25日:达沃斯论坛青年谈中国:展现多维发展形象
- 2026年1月25日:这样的河南,值得你高看一眼!
- 2026年1月25日:海南12345热线:封关首年成为自贸港联通世界的核心桥梁
- 2026年1月25日:从29场发布会看广东‘十四五’发展答卷:成绩亮眼未来可期
- 2026年1月25日:北京出台政策推动商业卫星遥感数据应用 从数据孤岛迈向应用蓝海
- 2026年1月25日:荣耀官方提醒Magic8 Pro Air避免使用一体式全包镜头膜
- 2026年1月25日:AMD核显规划分化:中端APU将沿用RDNA3.5架构直至2029年
- 2026年1月25日:人口仅1.5万的小岛靠‘.ai’域名年赚超7000万美元,成财政新亮点
- 2026年1月25日:苹果iOS 27系统Siri将升级为完整聊天机器人:深度集成不单独成应用
- 2026年1月25日:香港城市大学研究揭示,锂电池回收可大幅减低环境负担

精彩评论(10)