中山大学新作SpatialDreamer,复杂空间推理性能提升超55%,达行业新标杆!
(图片来自网络)
中山大学联合研究团队推出SpatialDreamer技术,在复杂空间推理领域实现重大突破,性能提升超55%,达到行业领先(SOTA)水平。这项研究通过模拟人类主动探索、想象与空间推理过程,解决了人工智能在空间任务中的局限,为AI空间智能发展开辟新方向。
背景方面,多模态大语言模型(MLLMs)虽然场景理解能力提升,但在需要心理模拟的复杂空间推理任务(如视角变换判断遮挡物体)表现受限。现有方法多依赖被动观察空间数据,缺乏人类特有的主动想象与动态更新内部表征能力,容易在视角变化等任务中推理失败。为解决这一问题,研究团队提出SpatialDreamer,采用强化学习框架,构建“探索-想象-推理”闭环流程。
SpatialDreamer的闭环推理流程包含三个核心步骤:
- 探索:模型推理出最优自我中心动作(如「前进0.75米」或「左转45度」);
- 想象:调用世界模型生成执行动作后的新视角图像;
- 推理:整合所有累积的视觉证据,生成最终答案。
此外,研究团队提出GeoPO策略优化方法,解决长序列推理中奖励稀疏的问题。GeoPO包含树状采样、多级奖励、几何惩罚机制,在提升模型性能的同时加快训练收敛速度。同时构建SpatialDreamer-SFT数据集,包含单轮推理与反思式推理数据,引导模型学习“思考-想象-回答”的模式。
实验结果表现亮眼:在SAT、MindCube-Tiny、VSI-Bench等空间推理基准上均实现SOTA。例如MindCube-Tiny任务,较基线提升超55%,在物体计数、相对方向判断等任务中全面领先。这项技术不仅提升了推理准确率,更证明多模态大语言模型(MLLMs)可通过“想象力”增强推理能力,为人工智能发展具备类似人类空间智能开辟了重要路径。
论文参考链接:https://arxiv.org/pdf/2512.07733
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2025年12月21日:恩里克谈博利伤情及进球:无大碍且进球是积极信号
- 2025年12月21日:姆巴佩西甲单年进39球 列进球榜第三位
- 2025年12月21日:加斯佩里尼解析战尤后:罗马暂处竞争阶梯较低位置 但有发展潜力
- 2025年12月21日:特尔施特根将随队客战黄潜,预计替补出战
- 2025年12月21日:斯帕莱蒂点评客战罗马:早知强队对决辛苦 罗马属联赛顶尖球队之一
- 2025年12月20日:小米17 Ultra首张样片发布 携带一英寸主摄与2亿像素长焦成亮点
- 2025年12月20日:莫耶斯谈阿森纳比赛:点球前难制造麻烦 赛后吐槽裁判判罚
- 2025年12月20日:奥蓬达谈意甲处子球:联赛适应不易 众人支持为伴
- 2025年12月20日:埃弗顿主帅赛后点评赛事:点球判罚存争议 奥布赖恩手球需反思
- 2025年12月20日:加帅赛后点评罗马与尤文比赛:虽失利仍盼球队信心延续
- 2025年12月20日:阿莫林谈梅努坐板凳:类比C罗鲁尼经历,强调专注比赛赢球
- 2025年12月20日:上市15天,摩尔线程剑指英伟达腹地
- 2025年12月20日:时间的‘相对论’:为何总觉得时间越跑越快?
- 2025年12月20日:蓝色起源完成里程碑任务:残障人士登上太空边缘
- 2025年12月20日:新型发电技术‘超级跑车’来了!超临界二氧化碳发电效率突破
- 2025年12月20日:上海滴水湖畔举办大会 以‘比邻星之问’求解未来产业未来范式
- 2025年12月20日:朱光耀:中美AI实力对比,中国具备三项优势
- 2025年12月20日:阿森纳1-0埃弗顿后哲凯赖什谈点球进球与场上状态
- 2025年12月20日:哈曼谈多特团结:若专注擅长事,完全能成功
- 2025年12月20日:英超官方:VAR判定萨利巴对巴里身体接触不构成判点理由

精彩评论(10)