阿里Qwen3系列最强推理模型亮相,数学考试满分,测试成token‘吞金兽’

2025年11月4日
news

(图片来自网络)

智东西报道,阿里近日发布Qwen 3系列中最强推理模型——Qwen3-Max-Thinking的早期预览版。尽管仅作为训练中间检查点,该模型已在AIME 2025、HMMT等具有挑战性的推理基准测试中实现100%准确率,展现出强大的数学与推理能力。


Qwen团队在通义千问负责人林俊旸个人社交媒体账号“超前点映”后,未公开该模型的更多细节及开源信息,但用户可通过Qwen Chat和阿里云API试用该早期预览版。该模型实现了思考模式与非思考模式的有效融合,在思考模式下,智能体编程、常识推理,以及数学、科学和通用领域推理能力等方面均有显著提升。


核心亮点:Qwen3-Max-Thinking早期预览版在数学竞赛(如AIME 2025)中取得满分表现;但测试过程中展现出高token消耗特性,被称为“token‘吞金兽’”——在完成推理任务时消耗大量token,用户需关注使用成本。


在具体体验中,该模型在数学难题、智能体编程等任务上表现亮眼,但在token消耗方面需注意。用户可通过模型自带“思考预算控件”,在1024 - 81920个token的区间内调整推理长度,以管理成本。


阿里未公布完整的基准测试结果,Qwen3-Max系列定位为面向高难度推理场景的模型,未来版本仍在持续优化中。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-11-04 11
    未来学习辅助工具,希望更普及,价格合理化,这样就更好了。
  • 网友9 2025-11-04 11
    测试中‘吞金兽’有点遗憾,但模型能力认可,期待优化。
  • 网友8 2025-11-04 11
    科技给生活带来便利,这个模型在推理上有突破,值得肯定。
  • 网友7 2025-11-04 11
    模型能力确实突出,但token消耗较大,希望后续优化。
  • 网友6 2025-11-04 11
    作为学生,希望以后能免费用这种智能工具,现在费用太高。
  • 网友5 2025-11-04 11
    AI工具越来越智能,这个数学满分很期待,但成本问题得解决。
  • 网友4 2025-11-04 11
    从技术角度,这个模型推理模块很厉害,期待以后更普惠。
  • 网友3 2025-11-04 11
    模型能解决这么难的题,像超级大脑一样,不过要交很多token费。
  • 网友2 2025-11-04 11
    科技发展真快,Qwen3-Max推理能力强,但token成本需要阿里调整下。
  • 网友1 2025-11-04 11
    这个模型做数学题满分,以后学习肯定有帮助,就是花钱有点多。
查看“阿里Qwen3系列最强推理模型亮相,数学考试满分,测试成token‘吞金兽’”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙