DeepSeek R1 登《Nature》封面 梁文锋通讯作者创AI历史

(图片来自网络)
DeepSeek R1 论文《DeepSeek-R1 incentivizes reasoning in LLMthrough reinforcement learning》成功登上 Nature 杂志封面,梁文锋 作为通讯作者,使其成为首个经过同行评议、具备全球影响力的通用大型语言模型(LLM),为人工智能领域发展书写新篇章。
该论文于今年2月提交,经严格同行评议后今日正式刊载,更新了今年1月发布的预印本,详细阐述了DeepSeek如何通过强化学习增强大语言模型的推理能力。
补充材料首次披露,R1的训练成本仅需 29.4万美元,而其基于的基础LLM训练成本约 600万美元,整体投入远低于市场对竞品模型的预期。R1主要采用英伟达H800芯片进行训练。
截至目前,R1在AI社区平台Hugging Face上的下载量已达 1090万次,成为同类模型中最受欢迎之一,充分体现其价值和影响力。
经过严格同行评审后,R1被认定为首个经历同行评议的重要LLM。《自然》审稿人之一Lewis Tunstall表示,将大部分过程公之于众的规范,能帮助评估模型潜在风险,为行业树立良好榜样。
DeepSeek团队为回应同行评审意见,调整了论文中部分表述,并补充了技术细节与技术安全性说明,进一步提升成果可靠性与透明度。
俄亥俄州立大学AI研究员Huan Sun认为,严格同行评审有助于验证模型有效性与实用性,其他企业也应效仿这一做法,推动行业健康可持续发展。
DeepSeek的核心创新在于采用“纯粹强化学习”自动化试错方法,通过奖励模型得出正确答案来优化推理策略,且使用“组相对策略优化”技术提升效率,这种训练方式为2025年及以后多数LLM强化学习研究提供启发。
在与审稿人交流中,DeepSeek研究人员明确R1未通过复制OpenAI模型推理示例学习,其推理配方经多实验室复现验证,仅通过纯粹强化学习实现高-performance,充分展现自主创新能力。
自然审稿人Tunstall指出,其他实验室已尝试应用R1方法提升现有LLM推理能力,R1的推出引发AI领域革命性变革,推动大语言模型向更高性能、更低成本方向发展。
最新新闻
- 2025年9月18日:快手推出OneSearch,革新电商搜索体验
- 2025年9月18日:创历史!GPT - 5全球编程大赛夺冠,人类排名第二,北交大团队国内领先
- 2025年9月18日:从公众号智能体看AI Agent的工业化发展路径
- 2025年9月18日:华为发布全球最强算力超节点与集群 徐直军:全面领先!
- 2025年9月18日:黄河旋风子公司引入战略投资,有望突破国外半导体衬底材料垄断
- 2025年9月18日:云计算厂商竞逐AI与出海 腾讯云战略布局加速
- 2025年9月18日:Claude CEO预警:未来5年近半白领岗位或被AI替代
- 2025年9月18日:2026款腾势N9上市,比亚迪全球化进阶再下一城
- 2025年9月18日:OPPO K15 系列新增 6.5X 中屏 高配测试骁龙 8 Gen5 处理器
- 2025年9月18日:追觅汽车官图发布 新技术亮眼
- 2025年9月18日:孙兴慜6场5球完成帽子戏法 助洛杉矶4-1获胜
- 2025年9月18日:华为Atlas 950超级集群50万卡超集群计划2026年Q4上市
- 2025年9月18日:万字长文 | AI落地的十大问题
- 2025年9月18日:鸿蒙智行智界ADS 4.0升级计划公布:周五启动、9月23日全量推送
- 2025年9月18日:金九银十BBA燃油车促销热潮:多款车型优惠超10万 奥迪A4L跌入20万元内
- 2025年9月18日:12国官员来渝交流 助推新能源汽车标准跨国互认
- 2025年9月18日:科学家造出最接近真实的人工肾脏,多领域科技突破引关注
- 2025年9月18日:华为徐直军部署芯片三年计划 推“超节点+集群”算力方案
- 2025年9月18日:DeepSeek首次回应“蒸馏OpenAI”质疑,登《Nature》封面!
- 2025年9月18日:Meta首款带显示AI眼镜发布 新引擎推动AI创作
精彩评论(10)