106B参数AI模型借分布式强化学习开源,512张H200助力实现领先表现

2025年12月10日
news

(图片来自网络)



106B参数AI模型借分布式强化学习开源,512张H200助力实现领先表现


近日,Prime Intellect推出了一款名为INTELLECT - 3的AI模型,这是一款拥有106B参数的混合专家(Mixture-of-Experts, MoE)模型,在数学、代码、科学推理等领域的基准测试中表现出众,成为同规模模型中的强者。更值得关注的是,Prime Intellect将其完整的训练技术栈——包括模型权重、训练框架、数据集、强化学习环境与评测体系全部开源,为AI技术发展注入新动力。


该模型的核心亮点在于利用分布式强化学习(RL)技术,在64个互联节点部署的512张NVIDIA H200 GPU上完成了训练调度与管理。这种分布式训练方式让模型在处理大规模任务时效率更高,展现出强大性能。Prime Intellect的开源举措,让更多人有机会接触并参与到前沿AI模型的训练研究中。


训练过程中,Prime Intellect自研了PRIME - RL分布式RL框架,该框架与Verifiers环境、Environments Hub深度整合,构建出高效训练体系。此外,自研的Prime Sandboxes基础设施为强化学习训练提供了安全、高吞吐的代码执行环境,确保训练过程稳定高效。


INTELLECT - 3的训练方案分为两个阶段:基于GLM - 4.5 - Air的监督微调,以及大规模强化学习训练,整个过程在512张H200 GPU上持续了两个月。未来,Prime Intellect计划进一步扩展智能体式强化学习环境,让AI在更多任务中展现优势,推动技术普及。



(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-12-10 12
    分布式训练和开源的结合,让AI发展更民主了,期待更多类似项目!
  • 网友9 2025-12-10 12
    训练过程中用到的算力调度和环境构建很专业,为AI训练树立了新标杆!
  • 网友8 2025-12-10 12
    看到全开源的流程,很安心,相信以后更多人能做AI研究!
  • 网友7 2025-12-10 12
    混合专家模型和强化学习结合,技术路线很新,希望以后能应用在更多实际场景!
  • 网友6 2025-12-10 12
    开源让AI研究更透明,大家都能参与,以后模型发展会更健康!
  • 网友5 2025-12-10 12
    H200 GPU加分布式训练,算力配置很牛,感觉未来模型训练难度会更高了!
  • 网友4 2025-12-10 12
    分布式RL和MoE结合,参数量和算力搭配得很巧妙,模型表现很亮眼!
  • 网友3 2025-12-10 12
    开源训练栈很赞,普通人也能了解前沿模型训练了,期待更多开源项目!
  • 网友2 2025-12-10 12
    512张GPU训练,科技圈的新玩法,感觉未来AI发展会越来越快!
  • 网友1 2025-12-10 12
    这个开源模型太棒了,分布式RL技术很先进,希望以后能应用到更多领域!
查看“106B参数AI模型借分布式强化学习开源,512张H200助力实现领先表现”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙