大模型外挂逻辑脑,推理准确率提升超四成

(图片来自网络)
新智元报道编辑:LRST
【新智元导读】中德科研团队发布最新成果,给大模型外挂「逻辑脑」:用答案集编程当“慢思考”,大语言模型(LLM)当“快直觉”,空间推理准确率提升超四成。这套会自我修正的「神经-符号」双系统,让AI既能清晰呈现逻辑步骤,又能跨任务迁移,向更可靠的通用推理迈出关键一步。
大语言模型(LLMs)虽在文本生成等领域能力惊人,但在涉及严谨逻辑与空间推理的任务上仍显不足。比如理解物体相对位置、多步骤推理时,易出现逻辑断裂。尽管“思维链”等方法有所提升,但在复杂场景下仍难保证逻辑一致性。
为弥合神经网络与符号系统鸿沟,科研人员提出创新「神经-符号」框架。该框架结合大语言模型与「答案集编程(ASP)」,通过「翻译-执行-修正」协同模式:
- 翻译(Semantic Parsing):LLM将自然语言问题转成ASP可理解的逻辑代码
- 执行(Logical Reasoning):ASP求解器计算满足约束的解
- 修正(Iterative Feedback):LLM与ASP迭代修正错误代码
在StepGame、SpartQA等基准测试中,准确率相比直接方法提升超四成(StepGame 82 - 93%,SpartQA 71 - 80%)。该框架使推理透明可追溯,为通用AI发展提供新路径。
研究团队指出,该技术有望解决AI可解释性、可靠性等问题,可扩展到法律推理等多领域,迈向通用人工智能(AGI)。
论文链接:https://www.sciencedirect.com/science/article/pii/S0893608025009025
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2025年9月22日:提高、提前!“十四五”节水型社会建设成绩单亮相
- 2025年9月22日:十四五科技创新成绩单:活力满满,新成果亮眼
- 2025年9月22日:一展创新赋能 一城蓄势“飞天”——“航空城”长春逐梦苍穹向新行
- 2025年9月22日:黄河安澜‘万象新’:守护与发展共谱时代强音
- 2025年9月22日:中国梦·大国工匠篇|斯兰别克·沙合什:用半世纪坚守焕新滑雪“活化石”
- 2025年9月22日:一江碧水润荆楚 万脉安澜惠中华——湖北现代水网建设纪实
- 2025年9月22日:精耕深蓝 沿海各地积极推动海洋经济高质量发展
- 2025年9月22日:机器人赛道资本狂热再起,人形机器人项目成投资抢手标的
- 2025年9月22日:蔚来ES8上市爆单 李斌笑称“斌鬼” 蔚来BBA定价引关注
- 2025年9月22日:硅基流动推出企业级MaaS,助力大模型规模化落地
- 2025年9月22日:法蒂复出两战进球宣告回归,博格巴加盟后长时间未登场
- 2025年9月22日:六台:若阿隆索手下维尼修斯表现未改善 或冬窗离队
- 2025年9月22日:三星Galaxy S26系列手机将首搭APV编码器 对标苹果ProRes
- 2025年9月22日:刘强东亲自下厨,“人间烟火气”背后的京东商业哲学
- 2025年9月22日:中国国际信息通信展览会即将开幕 数实融合成焦点
- 2025年9月22日:联发科天玑9500旗舰芯片单核跑分超4000,性能比肩苹果A19 Pro
- 2025年9月22日:篮球运动员布林克分享身高变化故事:曾被告知长到1米78后三年长到1米93
- 2025年9月22日:23岁榜眼布兰登-米勒主动担领袖责任,亲自辅导新秀尼克-史密斯
- 2025年9月22日:本地生活服务不能只做榜单热闹——新民快评
- 2025年9月22日:外媒报道前沿科技突破:量子计算、制冷材料等有多项进展
精彩评论(10)