
正文:
阿里通义千问发布了新一代旗舰模型Qwen3.7-Max,Qwen3.7-Max被官方定位为面向Agent时代的旗舰商用模型,重点强化代码智能体、办公自动化、长程任务执行和跨工具框架泛化能力。我们对其API版本qwen3.7-max进行了全面评测,测试其在准确率、响应时间、token消耗和调用花费等关键指标上的表现。
需要说明的是,本次评测侧重中文场景下的综合能力考察,评测维度覆盖教育、医疗、金融、法律、推理数学、语言指令、Agent工具调用以及coding等板块。
qwen3.7-max版本表现:
测试题数:约1.5万
总分(准确率):76.9%
平均耗时(每次调用):51s
平均token(每次调用消耗的token):2920
平均花费(每千次调用的人民币花费):99
1、新旧对决
对比上一代版本qwen3.6-max-preview,qwen3.7-max最值得注意的变化不是单纯分数提升,而是在总分登顶的同时,平均耗时和实际调用花费都明显下降。数据如下:


*数据来源:非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
*输出价格单位: 元/百万token
整体性能提升:新版本准确率从75.4%提升至76.9%,提升了1.5个百分点,榜单排名从第2位升至第1位。
Agent与工具调用提升最明显:agent与工具调用从65.2%提升至68.8%,提升了3.6个百分点,是本次迭代中提升幅度最大的维度。这与官方强调Qwen3.7-Max面向Agent工作流、复杂工具使用和长程任务执行的定位相吻合。
医疗与推理维度同步改善:医疗与心理健康从86.1%提升至89.0%(+2.9%),推理与数学计算从81.8%提升至84.7%(+2.9%)。这两项提升说明新版本并不是只针对Agent任务做专项强化,传统中文综合能力也有稳定进步。
金融和教育表现继续抬升:金融从86.5%提升至89.1%(+2.6%),教育从63.2%提升至65.4%(+2.2%)。
法律和语言维度变化较小:法律与行政公务从83.7%提升至85.3%(+1.6%),语言与指令遵从从71.4%微增至71.8%(+0.4%)。这两项属于稳步改善,其中语言指令维度基本保持上一代水平。
响应速度明显提升:平均耗时从80s缩短至51s,减少29s,降幅约36%。在总分提升的同时,响应时间明显缩短,说明Qwen3.7-Max并不是通过更长推理时间简单换取准确率。
Token略增,但成本明显下降:平均token从2789增至2920,增加约4.7%;但输出价格从54.0元/百万token降至36.0元/百万token,下降约三分之一。最终每千次调用花费从139.2元降至99元,下降约28.9%。
2、横向对比
在当前主流大模型竞争格局中,qwen3.7-max作为阿里最新商用旗舰表现如何?我们从三个维度进行横向对比分析:

*数据来源:非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
同成本档位对比
90至160元/千次区间的头部位置:qwen3.7-max(76.9%,99元)所在区间的主要参照对象包括qwen3.6-max-preview(75.4%,139.2元)、gpt-5.5(75.3%,158.5元)、gemini-3.5-flash(73.9%,151.2元)、kimi-k2.6(72.9%,100.4元)、gpt-5.4-high(72.6%,122.3元)和claude-opus-4.6(70.0%,96.5元)。在这个成本区间内,qwen3.7-max准确率最高,且花费低于qwen3.6-max-preview、gpt-5.5、gemini-3.5-flash和gpt-5.4-high。
与前沿闭源模型对比:相比gpt-5.5(75.3%,158.5元),qwen3.7-max准确率高1.6个百分点,花费低约38%;相比gemini-3.1-pro-preview(75.2%,250.5元),准确率高1.7个百分点,花费低约60%。不过在响应速度上,qwen3.7-max的51s仍慢于gpt-5.5(15s)和gemini-3.5-flash(13s),因此它更像是一个准确率与成本效率兼顾的旗舰,而不是低延迟优先的模型。
向下看低成本替代方案:qwen3.5-plus(73.3%,22.9元)、Doubao-Seed-2.0-pro(72.8%,22.5元)、deepseek-v4-pro(71.7%,54.3元)等模型仍以显著更低成本提供了接近头部的中文综合准确率。对于预算敏感、且对3至5个百分点准确率差距不敏感的场景,低成本模型依然有很强吸引力。
新旧模型对比
自身代际进步明确:qwen3.7-max(76.9%)相比qwen3.6-max-preview(75.4%)提升1.5个百分点,排名从第2位升至第1位;相比qwen3.5-plus(73.3%)提升3.6个百分点;相比早期qwen3-max-2026-01-23(64.8%)和qwen3-max-2025-09-23(63.5%),提升幅度已经非常明显。
阿里产品线层次清晰:从榜单看,Qwen系已经形成了较完整的梯队。商用旗舰qwen3.7-max(76.9%,第1位)和qwen3.6-max-preview(75.4%,第2位)占据头部;qwen3.5-plus(73.3%,第6位)以开源属性和低成本形成成本效率比支点;Qwen3.5-122B-A10B(70.9%,第13位)、qwen3.6-plus(70.7%,第15位)、Qwen3.5-27B(70.6%,第17位)构成中高端梯队;qwen3.5-flash(68.9%,第24位)则提供更低成本选择。
开源VS闭源对比
闭源阵营的新榜首:在闭源商用模型中,qwen3.7-max以76.9%的准确率位列第一,高于qwen3.6-max-preview(75.4%)、gpt-5.5(75.3%)、gemini-3.1-pro-preview(75.2%)、gemini-3.5-flash(73.9%)等模型。它的特点是准确率和成本结构都比较均衡,但平均耗时并不是闭源阵营最快。
开源阵营的成本效率比压力仍然存在:qwen3.5-plus(73.3%,22.9元)、kimi-k2.6(72.9%,100.4元)、deepseek-v4-pro(71.7%,54.3元)、Qwen3.5-122B-A10B(70.9%,32.3元)等开源模型已经在榜单前列形成密集分布。尤其是qwen3.5-plus,以不到qwen3.7-max四分之一的花费取得相差3.6个百分点的准确率。
3、官方评测
根据Qwen官方博客(https://qwen.ai/blog?id=qwen3.7),Qwen3.7-Max的核心定位是"Agent Frontier",即面向智能体任务的前沿模型。官方重点强调三类能力:更强的代码智能体与工具调用能力、更好的跨框架泛化能力,以及可以持续数十小时执行的长程自主任务能力。

在编程智能体方面,官方表示,Qwen3.7-Max 在 SWE-Pro、SWE-Multilingual、SciCode 和 QwenSVG 上均取得领先表现;在 Terminal Bench 2.0-Terminus 上超过 DS-V4-Pro Max;在 SWE-Verified 上与 Opus-4.6 Max 和 DS-V4-Pro Max 表现接近。
在通用智能体方面,官方称,Qwen3.7-Max 在 MCP-Mark、MCP-Atlas、Skillbench、BFCL-V4、Qwenclaw、ClawEval 等评测中表现突出,并在 Kernel Bench L3 中展现出较强的 GPU 内核优化能力。办公自动化方面,其在 SpreadSheetBench-v1 上也处于较高水平。
在推理能力方面,官方披露,Qwen3.7-Max 在 GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench 和 Apex 等高难度推理基准上取得领先成绩,显示出较强的复杂推理能力。
在通用能力与多语言方面,官方表示,Qwen3.7-Max 在 IFBench 上体现了较好的指令遵循能力,在 WMT24++ 和 MAXIFE 上表现领先,同时在 SuperGPQA 和 QwenWorldBench 上也有较好表现。
智能体框架泛化能力

官方特别强调,Qwen3.7-Max并不是只针对某一个固定框架或固定提示词环境进行优化,而是在Claude Code、OpenClaw、Qwen Code、Codex等多种Agent harness中进行了适配和验证。博客中提到,Qwen3.7-Max在OpenClaw完整集成后的SWE-Verified得分达到80.4%,同时在Claude Code环境下也具备接近头部模型的表现。
长程自主任务案例
Qwen官方展示了几个长程任务案例,用来说明Qwen3.7-Max在持续规划、工具调用和错误恢复方面的能力:
内核优化任务:模型在约35小时内完成432次kernel评测和1158次工具调用,在特定场景下将性能提升至原始PyTorch实现的10倍左右。
Reward Hacking监控任务:模型连续运行约80小时,发起超过1万次工具调用,监控约200万个训练任务,形成13条可操作规则,并筛查出1618个问题案例。
YC-Bench长程创业任务:官方称Qwen3.7-Max在该类长程经营任务中取得208万美元收入,并完成237项任务,主要体现规划、执行、迭代和资源调度能力。
这些案例更接近真实Agent系统的评测方式:模型不是回答一道题,而是在一个持续变化的环境里反复观察、执行、修正和推进任务。
非线智能官网https://nonelinear.com 已上线qwen3.7-max版,欢迎深度体验。 同时,非线智能API可连接超480+全球模型,支持一键Api聚合以及Api中转,提供稳定的企业级服务。 登录github账号,领50元体验金。接入qwen3.7-max就用非线智能API。
