阿里 qwen3-max-2026-01-23 实测 · 非线智能 NoneLinear

阿里近期发布的Qwen3-Max新版本qwen3-max-2026-01-23，作为千问旗舰模型的非思考模式版本，相比上一版本（qwen3-max-2025-09-23）在多个维度实现了优化。我们对这两个版本进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

qwen3-max-2026-01-23版本表现：

测试题数：约1.5万
总分（准确率）：67.6%
平均耗时（每次调用）：96s
平均token（每次调用消耗的token）：1159
平均花费（每千次调用的人民币花费）：9.7

1、新旧版本对比

首先对比上个版本（qwen3-max-2025-09-23），数据如下：

引自非线智能（GitHub 第一 AI 商业测评） - 阿里 qwen3-max-2026-01-23 实测

*数据来源：ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格单位：元/百万token

整体性能小幅提升：新版本准确率从66.8%提升至67.6%，提升了0.8个百分点，排名从第32位上升至第23位。
多数领域有所改善：从细分领域来看，"金融"从81.4%提升至83.9%（+2.5%），"法律与行政公务"从78.0%提升至80.7%（+2.7%），"医疗与心理健康"从80.1%提升至81.5%（+1.4%），"语言与指令遵从"从56.7%提升至60.0%（+3.3%），"推理与数学计算"从72.6%提升至74.6%（+2.0%）。
部分领域有所回落："教育"从51.0%下降至50.8%（-0.2%），"agent与工具调用"从63.7%下降至59.7%（-4.0%），后者降幅较为明显。
成本大幅下降：输出价格从24.0元/M token下调至10.0元/M token，降幅达58%。每千次调用的费用从23.4元降至9.7元，成本下降约59%。
响应速度显著提升：平均耗时从187s缩短至96s，提升了约49%，用户体验明显改善。
Token消耗基本持平：每次调用平均消耗的token从1167略微下降至1159，变化不大。

2、对比其他模型

在当前主流大模型竞争格局中，qwen3-max-2026-01-23表现如何？我们选择了具有代表性的模型进行横向对比分析（本评测侧重中文场景，模型在其他语言和专业领域的表现可能有所不同）：

*数据来源：ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

成本档位定位：9.7元/千次的成本在当前模型中处于中低档位，与hunyuan-2.0-thinking-20251109（9.5元）、hunyuan-t1-20250711（9.9元）处于同一水平。
同档位竞争：在10元以下成本区间，hunyuan-2.0-thinking-20251109（71.9%，9.5元）准确率更高，doubao-seed-1-8-251215（71.7%，7.3元）成本效率比更优，qwen3-max-2026-01-23在该档位竞争力一般。

新旧模型对比

非思考模式定位：qwen3-max-2026-01-23作为非思考模式版本，67.6%的准确率与同厂商思考模式版本qwen3-max-think-2026-01-23（72.8%）存在5.2个百分点的差距，但成本仅为后者的22%（9.7元 vs 43.5元）。
同定位产品对比：从总分情况看，与其他非思考模式产品相比，qwen-plus-2025-07-28（67.6%，1.8元）准确率相同但成本更低，hunyuan-2.0-instruct-20251111（66.8%，1.5元）成本优势更明显。

开源VS闭源对比

开源模型表现亮眼：总分情况来看，开源模型中GLM-4.7（71.5%）、GLM-4.6（68.1%）等表现较好，均超过qwen3-max-2026-01-23的67.6%。
成本对比：qwen3-max-2026-01-23（9.7元）的成本高于多数同档位开源模型，如qwen3-235b-a22b-instruct-2507（67.2%，7.2元）准确率接近但成本更低。
速度优势：qwen3-max-2026-01-23的96s响应时间优于部分开源模型，如GLM-4.6（59s）更快，但LongCat-Flash-Thinking-2601（376s）、DeepSeek-V3.2-Exp（201s）则慢很多。

我们非线智能官网https://nonelinear.com/static/models.html已上线qwen3-max-2026-01-23，欢迎对比体验。同时，非线智能API支持Api聚合以及Api中转，提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号，领50元体验金

大模型/agent评测技术交流：关注公众号，发送消息"进群"