俄亥俄等院校联合推出首个多模态AI研究代理评估基准

2026年1月25日

（图片来自网络）

在人工智能快速发展的当下，多模态大语言模型已能理解图像、文本等多种信息，但它们在执行复杂研究任务时的表现如何？2026年1月，俄亥俄州立大学、亚马逊、密歇根大学等多所机构联合完成的研究，发布了首个多模态深度研究代理（Deep Research Agents, 简称DRA）评估基准——MMDeepResearch-Bench（MMDR-Bench）。

该平台是专门为AI研究助手设置“学术能力考试”，强调处理多模态信息（如图表、数据可视化等）的能力。研究团队设计了140个专家级任务，覆盖21个学科领域，分为日常与研究任务两类，由博士级专家设计确保专业性与必要性。

评估采用三重框架：FLAE（评估研究报告质量）、TRACE（检查引用准确性）、MOSAIC（验证文本与视觉证据一致性），且采用分层激活机制，确保评估效率与准确性。测试25个先进AI系统，Gemini深度研究系统表现最佳，得分49.41分，但研究发现AI能力维度存在权衡，视觉能力提升未必总带来性能提升，多模态对齐与引用也存在分歧。

人类一致性检查显示评估框架可靠性高，研究揭示了AI研究助手的能力边界与改进方向，提示使用时需注意验证引用与图表解读，人类监督不可或缺。若想了解技术细节，可查询论文arXiv:2601.12346v1。

（声明：该内容经AI精编）查看原网页

精彩评论（10）

网友10 2026-01-25 14

AI研究能力评估很有必要，现在需要这样的标杆来规范。
网友9 2026-01-25 14

多模态研究代理的评估平台填补了行业空白，期待后续发展。
网友8 2026-01-25 14

评估维度很全面，从引用到多模态检查都考虑到了，很实用。
网友7 2026-01-25 14

这个研究很重要，未来AI做学术工作得有可靠依据。
网友6 2026-01-25 14

多模态处理确实不容易，之前用AI看图表总出错，现在有评估标准好多了。
网友5 2026-01-25 14

AI在研究任务上表现有波动，这评估能帮我们选靠谱的模型。
网友4 2026-01-25 14

这个评估平台很有创新性，多模态研究未来肯定需要这样的标准。
网友3 2026-01-25 14

研究做的挺专业的，但感觉现在AI研究还差很远，得继续优化。
网友2 2026-01-25 14

多模态AI研究评估真有意义，让AI在学术上更靠谱，但视觉细节处理还得改进。
网友1 2026-01-25 14

这个AI研究评估平台很实用，有助于看看AI研究能力到底能到哪，以后用AI做学术报告得注意核实引用了。

查看“俄亥俄等院校联合推出首个多模态AI研究代理评估基准”相关搜索 >

俄亥俄等院校联合推出首个多模态AI研究代理评估基准

精彩评论（10）

最新新闻