阿里Qwen3-Max-Thinking实测：超越Gemini 3 pro荣登世界第一

阿里昨晚正式发布了千问旗舰推理模型Qwen3-Max-Thinking（qwen3-max-think-2026-01-23），总参数量超万亿（1T），预训练数据量高达36T Tokens，是目前阿里规模最大、能力最强的千问推理模型。我们对该模型及其预览版（qwen3-max-preview-think）进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

qwen3-max-think-2026-01-23版本表现：

测试题数：约1.5万
总分（准确率）：72.8%
平均耗时（每次调用）：214s
平均token（每次调用消耗的token）：4540
平均花费（每千次调用的人民币花费）：43.5

1、新旧版本对比

首先对比预览版（qwen3-max-preview-think），数据如下：

引自非线智能（GitHub 第一 AI 商业测评） - 阿里Qwen3-Max-Thinking实测：超越Gemini 3 pro荣登世界第一

*数据来源：ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格是"1元/M token "

整体性能显著提升：新版本准确率从68.2%提升至72.8%，提升了4.6个百分点，排名从第18位跃升至第1位。
专业能力全面增强：从细分领域来看，新版本在所有领域都实现了不同程度的提升。最突出的是"教育"领域，从46.3%大幅提升至54.4%，增幅达8.1个百分点。"语言与指令遵从"能力也获得7.4个百分点的提升，从58.1%升至65.5%。
核心能力稳步优化："推理与数学计算能力"从75.0%提升至79.9%（+4.9%），"法律与行政公务"从73.2%提升至80.3%（+7.1%），体现了大规模强化学习后训练的成效。
金融领域大幅进步：金融能力从80.4%提升至85.6%（+5.2%），在专业领域的表现更加均衡。
成本结构优化：输出价格从24.0元/M token降至10.0元/M token，降幅达58%。每千次调用的费用从86.8元降至43.5元，成本下降约50%，性能提升与成本优化双赢。
Token消耗增加但效率提升：每次调用平均消耗的token从3811增加至4540，增幅约19%。但考虑到准确率提升4.6个百分点，整体效率有所改善。
响应时间有所增加：新版本的平均耗时为214s，比预览版的182s增加约18%，这与更深度的推理计算相关。

2、对比其他新模型

在当前主流大模型竞争格局中，qwen3-max-think-2026-01-23作为新晋榜首模型表现如何？我们选择了具有代表性的模型进行横向对比分析（本评测侧重中文场景，模型在其他语言和专业领域的表现可能有所不同）：

*数据来源：ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

成本档位定位：43.5元/千次的成本在当前模型中处于中高档位，与gemini-3-pro-preview（247.3元）、gpt-5.1-high（180元）、ERNIE-5.0（89.2元）等高端模型相比仍具成本优势。
性价比竞争：在准确率相近的模型中，qwen3-max-think-2026-01-23的成本处于中等水平。与排名第3的hunyuan-2.0-thinking-20251109（71.9%，9.5元）相比，准确率高0.9个百分点但成本高出近4倍；与排名第4的doubao-seed-1-8-251215（71.7%，7.3元）相比，成本差距更大。
高端市场竞争力：与gpt-5.1-medium（69.3%，87.9元）、gpt-5.1-high（69.7%，180元）相比，qwen3-max-think-2026-01-23在准确率和成本上均有优势。

新旧模型对比

新模型格局变化：从总分情况看，qwen3-max-think-2026-01-23以72.8%的准确率位列第1位，gemini-3-pro-preview（72.5%）和hunyuan-2.0-thinking（71.9%）分列第2、3位，头部竞争较为激烈。
与预览版对比：相比预览版qwen3-max-preview-think（68.2%，第18位），新版本提升了4.6个百分点，排名上升17位。
同厂商产品线对比：阿里在榜单中布局了多个产品，qwen3-max-2026-01-23（67.6%，9.7元）定位高性价比，qwen3-235b-a22b-thinking-2507（65.5%，61.2元）面向开源市场，产品线覆盖不同需求场景。

开源VS闭源对比

闭源模型领先：榜首的qwen3-max-think-2026-01-23为商用闭源模型，在总分准确率上领先于所有开源模型。
开源模型追赶：开源模型中表现最好的是GLM-4.7（71.5%，第6位）和DeepSeek-V3.2-Think（70.9%，第9位），与榜首差距分别为1.3和1.9个百分点。
开源成本优势：开源模型在成本方面优势明显，DeepSeek-V3.2-Think（7.5元）、DeepSeek-V3.2-Exp-Think（6.1元）的成本仅为qwen3-max-think-2026-01-23的六分之一左右，准确率差距在2个百分点以内。

3、官方评测

根据阿里官方发布的评测数据，Qwen3-Max-Thinking在多项关键基准测试中表现突出：

科学与数学推理

GPQA Diamond：启用TTS（Test-time Scaling）后得分92.8%，超越GPT-5.2（92.4%）和Gemini-3 Pro（91.9%）。
IMO-AnswerBench：启用TTS后得分91.5%，大幅领先GPT-5.2（86.3%）和Gemini-3 Pro（83.3%）。

代码与工程能力

LiveCodeBench：得分91.4%，超越所有对比模型，包括Claude-Opus-4.5（84.8%）和GPT-5.2（87.7%）。
SWE-bench Verified：得分75.3%，与GPT-5.2（80.0%）和Claude-Opus-4.5（80.9%）存在差距，软件工程能力仍有提升空间。

Agent与工具调用

τ²-Bench：得分82.1%，略低于Claude-Opus-4.5（85.7%）和Gemini-3 Pro（85.4%），工具调用能力处于第一梯队。

综合知识测试

Humanity's Last Exam：基础得分36.5%，启用搜索工具后提升至58.3%，大幅超越GPT-5.2（45.5%）和Gemini-3 Pro（45.8%），展现出与工具结合后的强大潜力。

我们非线智能官网https://nonelinear.com/static/models.html已上线qwen3-max-think-2026-01-23，欢迎对比体验。同时，非线智能API支持Api聚合以及Api中转，提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号，领50元体验金

大模型/agent评测技术交流：关注公众号，发送消息"进群"