OpenAI开源99.9%零权重新模型 尝试替代MoE推动AI可解释性
(图片来自网络)
OpenAI突然开源一款创新的大语言模型,其核心特色是**99.9%的权重为0**,并通过新稀疏性方法替代传统混合专家模型(MoE),试图解决AI决策“黑箱”问题。以下是对该事件的详细报道:
这款模型仅包含0.4B参数,却通过Circuit Sparsity(电路稀疏性)技术,将模型内部99.9%的无效连接切断,仅保留千分之一的有效通路,让模型内部计算电路像电路图一样清晰可追踪。这种“极致稀疏+功能解耦”的思路,本质是为了让AI的决策过程可解读。
传统大模型内部神经元连接密密麻麻,而Circuit Sparsity模型反其道而行之,通过严格约束权重,让信息传递沿“固定路径”(留存的有效连接),实现“像电路图一样可理解的推理过程”。例如处理Python引号闭合任务时,仅需2个MLP神经元和1个注意力头构成核心电路,功能模块清晰,如同电路图里的元件各自分工。
- 实验显示:在预训练损失相同下,稀疏模型任务电路规模比稠密模型小16倍,且保留模块就能完成任务,删节点则失效,逻辑可精准追踪。
- 对比MoE模型:MoE通过拆分专家近似稀疏性,存在专家同质化、功能边界模糊等缺陷;而Circuit Sparsity追求原生稀疏,特征投射正交、单义,解决传统模型概念分散问题,不依赖 hack 手段。
不过该模型当前存在算力成本极高(训练推理是传统模型的100-1000倍)的短板,短期内难以达到顶尖大模型能力。但OpenAI后续计划扩展到更大模型,且发现两种优化方法(从密集模型提取稀疏电路、优化训练机制),有望降低成本、高效落地。
这项工作被视为AI可解释性探索的早期步骤,后续将推动大模型从“黑箱”向“可理解”转型,逐步揭开AI决策面纱。相关链接:[1]https://openai.com/zh-Hans-CN/index/understanding-neural-networks-through-sparse-circuits/[2]https://x.com/byebyescaling/status/1999672833778287033?s=20
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2025年12月14日:从广交天下到科交未来:一场跨越六十余载的科技盛宴
- 2025年12月14日:三星拟与AMD洽谈2nm芯片供应!下代Zen6霄龙CPU迎来新代工选择?
- 2025年12月14日:国产AI低调登顶全球SQL榜单后高调开源技术!
- 2025年12月14日:广汽高域飞行汽车试飞检测基地正式运营,推动低空经济新发展
- 2025年12月14日:范戴克调解利物浦内斗 劝萨拉赫留队
- 2025年12月14日:王曼昱4-2险胜蒯曼,卫冕WTT总决赛女单冠军
- 2025年12月14日:2026壁纸来袭,用创意屏保点亮年度浪漫
- 2025年12月14日:深耕中国 年度经济会议给外资吃下‘定心丸’
- 2025年12月14日:五色成韵!从文物看东方色彩文化之美
- 2025年12月14日:科技赋能“冰雪+” 助力打造消费新场景
- 2025年12月14日:玉渊谭天 | 侵华日军制造173场全国重大惨案,勿忘历史
- 2025年12月14日:历史审判揭露日军细菌战等反人类罪行
- 2025年12月14日:亿缕阳光下的暖心善意:每一份善意都值得被看见
- 2025年12月14日:外媒解析哈国中国市场:中国品牌汽车受青睐原因透视
- 2025年12月14日:《让历史说话》纪录片聚焦细菌战,还原历史真相
- 2025年12月14日:屏屏同映“春晚红” 骐骥主题点亮新春序幕
- 2025年12月14日:海南自贸港全岛封关运作准备就绪!
- 2025年12月14日:‘AI+能源’新风口,珠海成为智能电池技术发展‘最佳试验场’
- 2025年12月14日:集微咨询发布《2025中国射频前端芯片行业上市公司研究报告》
- 2025年12月14日:小米澎湃OS优化进展示意图,小米15手机相机等问题已修复

精彩评论(10)