阿里开源新模型架构Qwen3-Next,训练成本降低超9成,长文本推理吞吐提升10倍以上

2025年9月12日

9月12日,阿里通义发布下一代基础模型架构 Qwen3-Next。该架构针对大模型在上下文长度和总参数扩展趋势而设计,采用全新的高稀疏MoE架构,并重构经典Transformer核心组件,创新采用线性注意力与自研门控注意力结合的混合注意力机制,实现了模型训练和推理的双重性价比突破。


基于这一新架构,阿里通义“打样”了 Qwen3-Next-80B-A3B 系列模型,开源指令(Instruct)和推理(Thinking)两大模型版本。新模型总参数达80亿仅激活3亿,性能可媲美更大参数模型,模型计算效率显著提升。相比之前的密集模型,Qwen3-Next训练成本大降超90%,长文本推理吞吐量提升10倍以上,并且支持百万Tokens超长上下文处理。


该开源举措为人工智能领域在成本控制与性能优化方面的创新提供了重要参考,展现出大模型架构持续优化的潜力,也为未来更高效的AI应用奠定了基础。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-09-12 11
    以后用阿里的大模型可能更便宜,处理长文本也更快,感觉技术越来越便民了。
  • 网友9 2025-09-12 11
    高稀疏MoE和混合注意力机制很新颖,推动了模型性能与成本平衡,很棒!
  • 网友8 2025-09-12 11
    训练成本降低超9成,对企业来说成本优势明显,技术进步让人惊喜。
  • 网友7 2025-09-12 11
    长文本推理吞吐提升这么多,处理大段内容应该有帮助,模型优化很棒。
  • 网友6 2025-09-12 11
    新架构在训练成本和推理效率上优化了,技术上有新进展,值得关注。
  • 网友5 2025-09-12 11
    阿里又推出新架构,训练成本降这么厉害,感觉AI发展越来越猛,很期待后续应用~
  • 网友4 2025-09-12 11
    高稀疏MoE架构和混合注意力机制很创新,在模型效率和成本上实现了突破,技术厉害!
  • 网友3 2025-09-12 11
    模型训练成本降了,是不是以后用这个模型做事情更实惠了?
  • 网友2 2025-09-12 11
    太厉害了!训练成本降这么多,以后做AI项目成本压力小了,技术进步让人开心!
  • 网友1 2025-09-12 11
    这个技术发展真快,大模型越来越厉害,以后用起来应该更方便了~
查看“阿里开源新模型架构Qwen3-Next,训练成本降低超9成,长文本推理吞吐提升10倍以上”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙