俄亥俄等院校联合推出首个多模态AI研究代理评估基准

2026年1月25日
news

(图片来自网络)

在人工智能快速发展的当下,多模态大语言模型已能理解图像、文本等多种信息,但它们在执行复杂研究任务时的表现如何?2026年1月,俄亥俄州立大学、亚马逊、密歇根大学等多所机构联合完成的研究,发布了首个多模态深度研究代理(Deep Research Agents, 简称DRA)评估基准——MMDeepResearch-Bench(MMDR-Bench)。


该平台是专门为AI研究助手设置“学术能力考试”,强调处理多模态信息(如图表、数据可视化等)的能力。研究团队设计了140个专家级任务,覆盖21个学科领域,分为日常与研究任务两类,由博士级专家设计确保专业性与必要性。


评估采用三重框架:FLAE(评估研究报告质量)、TRACE(检查引用准确性)、MOSAIC(验证文本与视觉证据一致性),且采用分层激活机制,确保评估效率与准确性。测试25个先进AI系统,Gemini深度研究系统表现最佳,得分49.41分,但研究发现AI能力维度存在权衡,视觉能力提升未必总带来性能提升,多模态对齐与引用也存在分歧。


人类一致性检查显示评估框架可靠性高,研究揭示了AI研究助手的能力边界与改进方向,提示使用时需注意验证引用与图表解读,人类监督不可或缺。若想了解技术细节,可查询论文arXiv:2601.12346v1。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2026-01-25 14
    AI研究能力评估很有必要,现在需要这样的标杆来规范。
  • 网友9 2026-01-25 14
    多模态研究代理的评估平台填补了行业空白,期待后续发展。
  • 网友8 2026-01-25 14
    评估维度很全面,从引用到多模态检查都考虑到了,很实用。
  • 网友7 2026-01-25 14
    这个研究很重要,未来AI做学术工作得有可靠依据。
  • 网友6 2026-01-25 14
    多模态处理确实不容易,之前用AI看图表总出错,现在有评估标准好多了。
  • 网友5 2026-01-25 14
    AI在研究任务上表现有波动,这评估能帮我们选靠谱的模型。
  • 网友4 2026-01-25 14
    这个评估平台很有创新性,多模态研究未来肯定需要这样的标准。
  • 网友3 2026-01-25 14
    研究做的挺专业的,但感觉现在AI研究还差很远,得继续优化。
  • 网友2 2026-01-25 14
    多模态AI研究评估真有意义,让AI在学术上更靠谱,但视觉细节处理还得改进。
  • 网友1 2026-01-25 14
    这个AI研究评估平台很实用,有助于看看AI研究能力到底能到哪,以后用AI做学术报告得注意核实引用了。
查看“俄亥俄等院校联合推出首个多模态AI研究代理评估基准”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙