阿里昨晚正式发布了千问旗舰推理模型Qwen3-Max-Thinking(qwen3-max-think-2026-01-23),总参数量超万亿(1T),预训练数据量高达36T Tokens,是目前阿里规模最大、能力最强的千问推理模型。我们对该模型及其预览版(qwen3-max-preview-think)进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

qwen3-max-think-2026-01-23版本表现:

  • 测试题数:约1.5万

  • 总分(准确率):72.8%

  • 平均耗时(每次调用):214s

  • 平均token(每次调用消耗的token):4540

  • 平均花费(每千次调用的人民币花费):43.5

1、新旧版本对比

首先对比预览版(qwen3-max-preview-think),数据如下:

引自非线智能(GitHub 第一 AI 商业测评) - 阿里Qwen3-Max-Thinking实测:超越Gemini 3 pro荣登世界第一引自非线智能(GitHub 第一 AI 商业测评) - 阿里Qwen3-Max-Thinking实测:超越Gemini 3 pro荣登世界第一

*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格是"1元/M token "

  • 整体性能显著提升:新版本准确率从68.2%提升至72.8%,提升了4.6个百分点,排名从第18位跃升至第1位。

  • 专业能力全面增强:从细分领域来看,新版本在所有领域都实现了不同程度的提升。最突出的是"教育"领域,从46.3%大幅提升至54.4%,增幅达8.1个百分点。"语言与指令遵从"能力也获得7.4个百分点的提升,从58.1%升至65.5%。

  • 核心能力稳步优化:"推理与数学计算能力"从75.0%提升至79.9%(+4.9%),"法律与行政公务"从73.2%提升至80.3%(+7.1%),体现了大规模强化学习后训练的成效。

  • 金融领域大幅进步:金融能力从80.4%提升至85.6%(+5.2%),在专业领域的表现更加均衡。

  • 成本结构优化:输出价格从24.0元/M token降至10.0元/M token,降幅达58%。每千次调用的费用从86.8元降至43.5元,成本下降约50%,性能提升与成本优化双赢。

  • Token消耗增加但效率提升:每次调用平均消耗的token从3811增加至4540,增幅约19%。但考虑到准确率提升4.6个百分点,整体效率有所改善。

  • 响应时间有所增加:新版本的平均耗时为214s,比预览版的182s增加约18%,这与更深度的推理计算相关。

2、对比其他新模型

在当前主流大模型竞争格局中,qwen3-max-think-2026-01-23作为新晋榜首模型表现如何?我们选择了具有代表性的模型进行横向对比分析(本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同):

引自非线智能(GitHub 第一 AI 商业测评) - 阿里Qwen3-Max-Thinking实测:超越Gemini 3 pro荣登世界第一

*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

  • 成本档位定位:43.5元/千次的成本在当前模型中处于中高档位,与gemini-3-pro-preview(247.3元)、gpt-5.1-high(180元)、ERNIE-5.0(89.2元)等高端模型相比仍具成本优势。

  • 性价比竞争:在准确率相近的模型中,qwen3-max-think-2026-01-23的成本处于中等水平。与排名第3的hunyuan-2.0-thinking-20251109(71.9%,9.5元)相比,准确率高0.9个百分点但成本高出近4倍;与排名第4的doubao-seed-1-8-251215(71.7%,7.3元)相比,成本差距更大。

  • 高端市场竞争力:与gpt-5.1-medium(69.3%,87.9元)、gpt-5.1-high(69.7%,180元)相比,qwen3-max-think-2026-01-23在准确率和成本上均有优势。

新旧模型对比

  • 新模型格局变化:从总分情况看,qwen3-max-think-2026-01-23以72.8%的准确率位列第1位,gemini-3-pro-preview(72.5%)和hunyuan-2.0-thinking(71.9%)分列第2、3位,头部竞争较为激烈。

  • 与预览版对比:相比预览版qwen3-max-preview-think(68.2%,第18位),新版本提升了4.6个百分点,排名上升17位。

  • 同厂商产品线对比:阿里在榜单中布局了多个产品,qwen3-max-2026-01-23(67.6%,9.7元)定位高性价比,qwen3-235b-a22b-thinking-2507(65.5%,61.2元)面向开源市场,产品线覆盖不同需求场景。

开源VS闭源对比

  • 闭源模型领先:榜首的qwen3-max-think-2026-01-23为商用闭源模型,在总分准确率上领先于所有开源模型。

  • 开源模型追赶:开源模型中表现最好的是GLM-4.7(71.5%,第6位)和DeepSeek-V3.2-Think(70.9%,第9位),与榜首差距分别为1.3和1.9个百分点。

  • 开源成本优势:开源模型在成本方面优势明显,DeepSeek-V3.2-Think(7.5元)、DeepSeek-V3.2-Exp-Think(6.1元)的成本仅为qwen3-max-think-2026-01-23的六分之一左右,准确率差距在2个百分点以内。

3、官方评测

根据阿里官方发布的评测数据,Qwen3-Max-Thinking在多项关键基准测试中表现突出:

引自非线智能(GitHub 第一 AI 商业测评) - 阿里Qwen3-Max-Thinking实测:超越Gemini 3 pro荣登世界第一

科学与数学推理

  • GPQA Diamond:启用TTS(Test-time Scaling)后得分92.8%,超越GPT-5.2(92.4%)和Gemini-3 Pro(91.9%)。

  • IMO-AnswerBench:启用TTS后得分91.5%,大幅领先GPT-5.2(86.3%)和Gemini-3 Pro(83.3%)。

代码与工程能力

  • LiveCodeBench:得分91.4%,超越所有对比模型,包括Claude-Opus-4.5(84.8%)和GPT-5.2(87.7%)。

  • SWE-bench Verified:得分75.3%,与GPT-5.2(80.0%)和Claude-Opus-4.5(80.9%)存在差距,软件工程能力仍有提升空间。

Agent与工具调用

τ²-Bench:得分82.1%,略低于Claude-Opus-4.5(85.7%)和Gemini-3 Pro(85.4%),工具调用能力处于第一梯队。

综合知识测试

Humanity's Last Exam:基础得分36.5%,启用搜索工具后提升至58.3%,大幅超越GPT-5.2(45.5%)和Gemini-3 Pro(45.8%),展现出与工具结合后的强大潜力。




我们非线智能官网https://nonelinear.com/static/models.html已上线qwen3-max-think-2026-01-23,欢迎对比体验。同时,非线智能API支持Api聚合以及Api中转,提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号,领50元体验金

大模型/agent评测技术交流:关注公众号,发送消息"进群"