阿里Qwen3系列最强推理模型亮相，数学考试满分，测试成token‘吞金兽’

2025年11月4日

（图片来自网络）

智东西报道，阿里近日发布Qwen 3系列中最强推理模型——Qwen3-Max-Thinking的早期预览版。尽管仅作为训练中间检查点，该模型已在AIME 2025、HMMT等具有挑战性的推理基准测试中实现100%准确率，展现出强大的数学与推理能力。

Qwen团队在通义千问负责人林俊旸个人社交媒体账号“超前点映”后，未公开该模型的更多细节及开源信息，但用户可通过Qwen Chat和阿里云API试用该早期预览版。该模型实现了思考模式与非思考模式的有效融合，在思考模式下，智能体编程、常识推理，以及数学、科学和通用领域推理能力等方面均有显著提升。

核心亮点：Qwen3-Max-Thinking早期预览版在数学竞赛（如AIME 2025）中取得满分表现；但测试过程中展现出高token消耗特性，被称为“token‘吞金兽’”——在完成推理任务时消耗大量token，用户需关注使用成本。

在具体体验中，该模型在数学难题、智能体编程等任务上表现亮眼，但在token消耗方面需注意。用户可通过模型自带“思考预算控件”，在1024 - 81920个token的区间内调整推理长度，以管理成本。

阿里未公布完整的基准测试结果，Qwen3-Max系列定位为面向高难度推理场景的模型，未来版本仍在持续优化中。