【非线智能测评】阿里Qwen3.7-Max实测: Agent 能力显著提升，耗时与调用成本大幅双降

数据来源非线智能Nonelinear 非线智能团队，维护着GitHub上的开源项目 chinese-llm-benchmark，目前 6,000+ Stars，长期占据中文LLM商业评测类项目Star数第一

githun官网图

正文：

阿里通义千问发布了新一代旗舰模型Qwen3.7-Max，Qwen3.7-Max被官方定位为面向Agent时代的旗舰商用模型，重点强化代码智能体、办公自动化、长程任务执行和跨工具框架泛化能力。我们对其API版本qwen3.7-max进行了全面评测，测试其在准确率、响应时间、token消耗和调用花费等关键指标上的表现。

需要说明的是，本次评测侧重中文场景下的综合能力考察，评测维度覆盖教育、医疗、金融、法律、推理数学、语言指令、Agent工具调用以及coding等板块。

qwen3.7-max版本表现：

测试题数：约1.5万

总分（准确率）：76.9%

平均耗时（每次调用）：51s

平均token（每次调用消耗的token）：2920

平均花费（每千次调用的人民币花费）：99

1、新旧对决

对比上一代版本qwen3.6-max-preview，qwen3.7-max最值得注意的变化不是单纯分数提升，而是在总分登顶的同时，平均耗时和实际调用花费都明显下降。数据如下：

引自非线智能（GitHub 第一 AI 商业测评） - 【非线智能测评】阿里Qwen3.7-Max实测: Agent 能力显著提升，耗时与调用成本大幅双降

*数据来源：非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格单位：元/百万token

整体性能提升：新版本准确率从75.4%提升至76.9%，提升了1.5个百分点，榜单排名从第2位升至第1位。

Agent与工具调用提升最明显：agent与工具调用从65.2%提升至68.8%，提升了3.6个百分点，是本次迭代中提升幅度最大的维度。这与官方强调Qwen3.7-Max面向Agent工作流、复杂工具使用和长程任务执行的定位相吻合。

医疗与推理维度同步改善：医疗与心理健康从86.1%提升至89.0%（+2.9%），推理与数学计算从81.8%提升至84.7%（+2.9%）。这两项提升说明新版本并不是只针对Agent任务做专项强化，传统中文综合能力也有稳定进步。

金融和教育表现继续抬升：金融从86.5%提升至89.1%（+2.6%），教育从63.2%提升至65.4%（+2.2%）。

法律和语言维度变化较小：法律与行政公务从83.7%提升至85.3%（+1.6%），语言与指令遵从从71.4%微增至71.8%（+0.4%）。这两项属于稳步改善，其中语言指令维度基本保持上一代水平。
响应速度明显提升：平均耗时从80s缩短至51s，减少29s，降幅约36%。在总分提升的同时，响应时间明显缩短，说明Qwen3.7-Max并不是通过更长推理时间简单换取准确率。

Token略增，但成本明显下降：平均token从2789增至2920，增加约4.7%；但输出价格从54.0元/百万token降至36.0元/百万token，下降约三分之一。最终每千次调用花费从139.2元降至99元，下降约28.9%。

2、横向对比

在当前主流大模型竞争格局中，qwen3.7-max作为阿里最新商用旗舰表现如何？我们从三个维度进行横向对比分析：

*数据来源：非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

90至160元/千次区间的头部位置：qwen3.7-max（76.9%，99元）所在区间的主要参照对象包括qwen3.6-max-preview（75.4%，139.2元）、gpt-5.5（75.3%，158.5元）、gemini-3.5-flash（73.9%，151.2元）、kimi-k2.6（72.9%，100.4元）、gpt-5.4-high（72.6%，122.3元）和claude-opus-4.6（70.0%，96.5元）。在这个成本区间内，qwen3.7-max准确率最高，且花费低于qwen3.6-max-preview、gpt-5.5、gemini-3.5-flash和gpt-5.4-high。

与前沿闭源模型对比：相比gpt-5.5（75.3%，158.5元），qwen3.7-max准确率高1.6个百分点，花费低约38%；相比gemini-3.1-pro-preview（75.2%，250.5元），准确率高1.7个百分点，花费低约60%。不过在响应速度上，qwen3.7-max的51s仍慢于gpt-5.5（15s）和gemini-3.5-flash（13s），因此它更像是一个准确率与成本效率兼顾的旗舰，而不是低延迟优先的模型。

向下看低成本替代方案：qwen3.5-plus（73.3%，22.9元）、Doubao-Seed-2.0-pro（72.8%，22.5元）、deepseek-v4-pro（71.7%，54.3元）等模型仍以显著更低成本提供了接近头部的中文综合准确率。对于预算敏感、且对3至5个百分点准确率差距不敏感的场景，低成本模型依然有很强吸引力。

新旧模型对比

自身代际进步明确：qwen3.7-max（76.9%）相比qwen3.6-max-preview（75.4%）提升1.5个百分点，排名从第2位升至第1位；相比qwen3.5-plus（73.3%）提升3.6个百分点；相比早期qwen3-max-2026-01-23（64.8%）和qwen3-max-2025-09-23（63.5%），提升幅度已经非常明显。

阿里产品线层次清晰：从榜单看，Qwen系已经形成了较完整的梯队。商用旗舰qwen3.7-max（76.9%，第1位）和qwen3.6-max-preview（75.4%，第2位）占据头部；qwen3.5-plus（73.3%，第6位）以开源属性和低成本形成成本效率比支点；Qwen3.5-122B-A10B（70.9%，第13位）、qwen3.6-plus（70.7%，第15位）、Qwen3.5-27B（70.6%，第17位）构成中高端梯队；qwen3.5-flash（68.9%，第24位）则提供更低成本选择。

开源VS闭源对比

闭源阵营的新榜首：在闭源商用模型中，qwen3.7-max以76.9%的准确率位列第一，高于qwen3.6-max-preview（75.4%）、gpt-5.5（75.3%）、gemini-3.1-pro-preview（75.2%）、gemini-3.5-flash（73.9%）等模型。它的特点是准确率和成本结构都比较均衡，但平均耗时并不是闭源阵营最快。

开源阵营的成本效率比压力仍然存在：qwen3.5-plus（73.3%，22.9元）、kimi-k2.6（72.9%，100.4元）、deepseek-v4-pro（71.7%，54.3元）、Qwen3.5-122B-A10B（70.9%，32.3元）等开源模型已经在榜单前列形成密集分布。尤其是qwen3.5-plus，以不到qwen3.7-max四分之一的花费取得相差3.6个百分点的准确率。

3、官方评测

根据Qwen官方博客（https://qwen.ai/blog?id=qwen3.7），Qwen3.7-Max的核心定位是"Agent Frontier"，即面向智能体任务的前沿模型。官方重点强调三类能力：更强的代码智能体与工具调用能力、更好的跨框架泛化能力，以及可以持续数十小时执行的长程自主任务能力。

在编程智能体方面，官方表示，Qwen3.7-Max 在 SWE-Pro、SWE-Multilingual、SciCode 和 QwenSVG 上均取得领先表现；在 Terminal Bench 2.0-Terminus 上超过 DS-V4-Pro Max；在 SWE-Verified 上与 Opus-4.6 Max 和 DS-V4-Pro Max 表现接近。

在通用智能体方面，官方称，Qwen3.7-Max 在 MCP-Mark、MCP-Atlas、Skillbench、BFCL-V4、Qwenclaw、ClawEval 等评测中表现突出，并在 Kernel Bench L3 中展现出较强的 GPU 内核优化能力。办公自动化方面，其在 SpreadSheetBench-v1 上也处于较高水平。

在推理能力方面，官方披露，Qwen3.7-Max 在 GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench 和 Apex 等高难度推理基准上取得领先成绩，显示出较强的复杂推理能力。

在通用能力与多语言方面，官方表示，Qwen3.7-Max 在 IFBench 上体现了较好的指令遵循能力，在 WMT24++ 和 MAXIFE 上表现领先，同时在 SuperGPQA 和 QwenWorldBench 上也有较好表现。

智能体框架泛化能力

官方特别强调，Qwen3.7-Max并不是只针对某一个固定框架或固定提示词环境进行优化，而是在Claude Code、OpenClaw、Qwen Code、Codex等多种Agent harness中进行了适配和验证。博客中提到，Qwen3.7-Max在OpenClaw完整集成后的SWE-Verified得分达到80.4%，同时在Claude Code环境下也具备接近头部模型的表现。

长程自主任务案例

Qwen官方展示了几个长程任务案例，用来说明Qwen3.7-Max在持续规划、工具调用和错误恢复方面的能力：

内核优化任务：模型在约35小时内完成432次kernel评测和1158次工具调用，在特定场景下将性能提升至原始PyTorch实现的10倍左右。

Reward Hacking监控任务：模型连续运行约80小时，发起超过1万次工具调用，监控约200万个训练任务，形成13条可操作规则，并筛查出1618个问题案例。

YC-Bench长程创业任务：官方称Qwen3.7-Max在该类长程经营任务中取得208万美元收入，并完成237项任务，主要体现规划、执行、迭代和资源调度能力。

这些案例更接近真实Agent系统的评测方式：模型不是回答一道题，而是在一个持续变化的环境里反复观察、执行、修正和推进任务。

非线智能官网https://nonelinear.com 已上线qwen3.7-max版，欢迎深度体验。同时，非线智能API可连接超480+全球模型，支持一键Api聚合以及Api中转，提供稳定的企业级服务。登录github账号，领50元体验金。接入qwen3.7-max就用非线智能API。

非线智能api 图4