DeepSeek R1 登《Nature》封面 梁文锋通讯作者创AI历史

2025年9月18日
news

(图片来自网络)

DeepSeek R1 论文《DeepSeek-R1 incentivizes reasoning in LLMthrough reinforcement learning》成功登上 Nature 杂志封面,梁文锋 作为通讯作者,使其成为首个经过同行评议、具备全球影响力的通用大型语言模型(LLM),为人工智能领域发展书写新篇章。


该论文于今年2月提交,经严格同行评议后今日正式刊载,更新了今年1月发布的预印本,详细阐述了DeepSeek如何通过强化学习增强大语言模型的推理能力。


补充材料首次披露,R1的训练成本仅需 29.4万美元,而其基于的基础LLM训练成本约 600万美元,整体投入远低于市场对竞品模型的预期。R1主要采用英伟达H800芯片进行训练。


截至目前,R1在AI社区平台Hugging Face上的下载量已达 1090万次,成为同类模型中最受欢迎之一,充分体现其价值和影响力。


经过严格同行评审后,R1被认定为首个经历同行评议的重要LLM。《自然》审稿人之一Lewis Tunstall表示,将大部分过程公之于众的规范,能帮助评估模型潜在风险,为行业树立良好榜样。


DeepSeek团队为回应同行评审意见,调整了论文中部分表述,并补充了技术细节与技术安全性说明,进一步提升成果可靠性与透明度。


俄亥俄州立大学AI研究员Huan Sun认为,严格同行评审有助于验证模型有效性与实用性,其他企业也应效仿这一做法,推动行业健康可持续发展。


DeepSeek的核心创新在于采用“纯粹强化学习”自动化试错方法,通过奖励模型得出正确答案来优化推理策略,且使用“组相对策略优化”技术提升效率,这种训练方式为2025年及以后多数LLM强化学习研究提供启发。


在与审稿人交流中,DeepSeek研究人员明确R1未通过复制OpenAI模型推理示例学习,其推理配方经多实验室复现验证,仅通过纯粹强化学习实现高-performance,充分展现自主创新能力。


自然审稿人Tunstall指出,其他实验室已尝试应用R1方法提升现有LLM推理能力,R1的推出引发AI领域革命性变革,推动大语言模型向更高性能、更低成本方向发展。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-09-18 12
    以后用AI工具可能更智能,解决问题能力更强,这波技术进步会让我们生活更轻松。
  • 网友9 2025-09-18 12
    如果AI推理能力提升,可能对教育领域有推动,比如学习辅助工具,很期待。
  • 网友8 2025-09-18 12
    强化学习+组策略优化,这些技术细节很新颖,对提升模型推理确实有帮助,值得关注。
  • 网友7 2025-09-18 12
    感觉AI发展越来越快,这种突破以后可能让生活更便捷,比如智能服务之类的,很有希望。
  • 网友6 2025-09-18 12
    这对企业来说,在研发人工智能产品时,成本控制很重要,R1的例子给了很多启示。
  • 网友5 2025-09-18 12
    AI能登Nature,以后肯定能做更多厉害的事,像超智能助手一样,很神奇!
  • 网友4 2025-09-18 12
    从成本来看,R1确实很厉害,在性能和成本间平衡得很好,未来可能更多模型会效仿这种训练方式。
  • 网友3 2025-09-18 12
    同行评议很关键,这体现了科学严谨性,希望更多研究能这么做,提升行业公信力。
  • 网友2 2025-09-18 12
    DeepSeek这波太牛了!作为学生我觉得这对以后学习、写论文之类的帮助很大,期待更多成果。
  • 网友1 2025-09-18 12
    这太厉害了,AI领域又有大突破,感觉未来生活会更方便,希望以后能应用到更多地方。
查看“DeepSeek R1 登《Nature》封面 梁文锋通讯作者创AI历史”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙