阿里近期发布的Qwen3-Max新版本qwen3-max-2026-01-23,作为千问旗舰模型的非思考模式版本,相比上一版本(qwen3-max-2025-09-23)在多个维度实现了优化。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

qwen3-max-2026-01-23版本表现:

  • 测试题数:约1.5万

  • 总分(准确率):67.6%

  • 平均耗时(每次调用):96s

  • 平均token(每次调用消耗的token):1159

  • 平均花费(每千次调用的人民币花费):9.7

1、新旧版本对比

首先对比上个版本(qwen3-max-2025-09-23),数据如下:

引自非线智能(GitHub 第一 AI 商业测评) - 阿里 qwen3-max-2026-01-23 实测引自非线智能(GitHub 第一 AI 商业测评) - 阿里 qwen3-max-2026-01-23 实测

*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格单位: 元/百万token

  • 整体性能小幅提升:新版本准确率从66.8%提升至67.6%,提升了0.8个百分点,排名从第32位上升至第23位。

  • 多数领域有所改善:从细分领域来看,"金融"从81.4%提升至83.9%(+2.5%),"法律与行政公务"从78.0%提升至80.7%(+2.7%),"医疗与心理健康"从80.1%提升至81.5%(+1.4%),"语言与指令遵从"从56.7%提升至60.0%(+3.3%),"推理与数学计算"从72.6%提升至74.6%(+2.0%)。

  • 部分领域有所回落:"教育"从51.0%下降至50.8%(-0.2%),"agent与工具调用"从63.7%下降至59.7%(-4.0%),后者降幅较为明显。

  • 成本大幅下降:输出价格从24.0元/M token下调至10.0元/M token,降幅达58%。每千次调用的费用从23.4元降至9.7元,成本下降约59%。

  • 响应速度显著提升:平均耗时从187s缩短至96s,提升了约49%,用户体验明显改善。

  • Token消耗基本持平:每次调用平均消耗的token从1167略微下降至1159,变化不大。

2、对比其他模型

在当前主流大模型竞争格局中,qwen3-max-2026-01-23表现如何?我们选择了具有代表性的模型进行横向对比分析(本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同):

引自非线智能(GitHub 第一 AI 商业测评) - 阿里 qwen3-max-2026-01-23 实测

*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

  • 成本档位定位:9.7元/千次的成本在当前模型中处于中低档位,与hunyuan-2.0-thinking-20251109(9.5元)、hunyuan-t1-20250711(9.9元)处于同一水平。

  • 同档位竞争:在10元以下成本区间,hunyuan-2.0-thinking-20251109(71.9%,9.5元)准确率更高,doubao-seed-1-8-251215(71.7%,7.3元)成本效率比更优,qwen3-max-2026-01-23在该档位竞争力一般。

新旧模型对比

  • 非思考模式定位:qwen3-max-2026-01-23作为非思考模式版本,67.6%的准确率与同厂商思考模式版本qwen3-max-think-2026-01-23(72.8%)存在5.2个百分点的差距,但成本仅为后者的22%(9.7元 vs 43.5元)。

  • 同定位产品对比:从总分情况看,与其他非思考模式产品相比,qwen-plus-2025-07-28(67.6%,1.8元)准确率相同但成本更低,hunyuan-2.0-instruct-20251111(66.8%,1.5元)成本优势更明显。

开源VS闭源对比

  • 开源模型表现亮眼:总分情况来看,开源模型中GLM-4.7(71.5%)、GLM-4.6(68.1%)等表现较好,均超过qwen3-max-2026-01-23的67.6%。

  • 成本对比:qwen3-max-2026-01-23(9.7元)的成本高于多数同档位开源模型,如qwen3-235b-a22b-instruct-2507(67.2%,7.2元)准确率接近但成本更低。

  • 速度优势:qwen3-max-2026-01-23的96s响应时间优于部分开源模型,如GLM-4.6(59s)更快,但LongCat-Flash-Thinking-2601(376s)、DeepSeek-V3.2-Exp(201s)则慢很多。


我们非线智能官网https://nonelinear.com/static/models.html已上线qwen3-max-2026-01-23,欢迎对比体验。同时,非线智能API支持Api聚合以及Api中转,提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号,领50元体验金

大模型/agent评测技术交流:关注公众号,发送消息"进群"