正文:
需要说明的是,本次评测侧重中文场景下的综合能力考察,评测维度覆盖教育、医疗、金融、法律、推理数学、语言指令、Agent工具调用以及coding八个板块。
qwen3.7-plus版本表现:
测试题数:约1.5万
总分(准确率):73.5%
平均耗时(每次调用):73s
平均token(每次调用消耗的token):4153
平均花费(每千次调用的人民币花费):31.7
1、新旧对决
对比上一代版本qwen3.6-plus,qwen3.7-plus在准确率明显提升的同时,实际调用花费反而下降,数据如下:


*数据来源:非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
*输出价格单位: 元/百万token
整体性能稳步提升:新版本准确率从70.7%提升至73.5%,提升了2.8个百分点,榜单排名从第17位上升至第6位。
推理与数学计算提升最明显:推理与数学计算从74.6%提升至84.5%(+9.9%),是本次迭代中提升幅度最大的维度。这与官方在GPQA Diamond、HMMT、IMOAnswerBench等高难推理基准上的表现方向一致。
金融维度明显提升:金融从77.1%提升至85.7%(+8.6%),提升幅度仅次于推理维度,新版本在专业知识类任务上的稳定性有明显改善。
法律与医疗同步增强:法律与行政公务从81.3%提升至87.0%(+5.7%),医疗与心理健康从83.8%提升至88.8%(+5.0%)。这两类任务对长文本理解、审慎判断和细粒度规则识别要求较高,说明qwen3.7-plus并不是只针对多模态场景做升级。
Coding和教育有所提升:coding从64.8%提升至69.2%(+4.4%),教育从60.0%提升至63.4%(+3.4%)。其中coding维度的提升,与官方强调的Visual Coding、代码智能体和多框架Agent适配方向相互呼应。
Agent与工具调用基本持平:agent与工具调用从64.7%微增至65.0%(+0.3%),变化幅度很小。
语言与指令遵从出现回调:语言与指令遵从从70.3%降至61.8%(-8.5%),是本次新旧对比中最明显的短板。考虑到其他知识、推理、金融、法律、医疗维度均提升,这更像是一次能力侧重调整后的局部回调。对于强依赖中文指令精确遵从、格式控制和表达稳定性的场景,仍需要单独验证。
响应时间小幅增加:平均耗时从68s增加至73s,增加5s,增幅约7%。在准确率提升2.8个百分点的同时,这个时延增加并不算大。
Token增加但成本下降:平均token从3676增至4153(+13.0%),输出更长;但输出价格从12.0元/百万token降至8.0元/百万token,下降约三分之一。最终每千次调用花费从41.6元降至31.7元,下降约23.8%。
2、横向对比
在当前主流大模型竞争格局中,qwen3.7-plus作为阿里最新Plus模型表现如何?我们从三个维度进行横向对比分析:

*数据来源:非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
同成本档位对比
20至40元/千次区间:qwen3.7-plus(73.5%,31.7元)所在成本档位中,主要可比模型包括qwen3.5-plus(73.3%,22.9元)、Doubao-Seed-2.0-pro(72.8%,22.5元)、Qwen3.5-122B-A10B(70.9%,32.3元)、Qwen3.5-27B(70.6%,25元)、ERNIE-5.1(68.2%,32.6元)、MiniMax-M3(67.5%,37元)等。在这个区间内,qwen3.7-plus以73.5%的准确率位列前列。
与自家qwen3.5-plus相比:qwen3.7-plus(73.5%,31.7元)相比qwen3.5-plus(73.3%,22.9元)准确率高0.2个百分点,但平均花费也更高。仅看中文综合准确率成本效率,qwen3.5-plus仍然非常有竞争力。
与低成本强模型相比:Doubao-Seed-2.0-pro(72.8%,22.5元)以更低成本提供接近的准确率,deepseek-v4-flash(68.8%,4.9元)和Doubao-Seed-2.0-lite(70.5%,5.4元)则在低成本区间保持很强成本效率比。qwen3.7-plus的优势不在最低成本,而在接近头部准确率与多模态能力的组合。
向上对比头部旗舰:qwen3.7-plus距离qwen3.7-max(76.9%,99元)差3.4个百分点,但花费约为后者三分之一;相比gpt-5.5(75.3%,158.5元)和gemini-3.1-pro-preview(75.2%,250.5元),准确率差距在2个百分点以内,调用成本则明显更低。对于预算敏感但又希望接近头部中文综合能力的场景,qwen3.7-plus提供了一个比较现实的折中点。
新旧模型对比
自身代际进步明确:qwen3.7-plus(73.5%,第6位)相比qwen3.6-plus(70.7%,第17位)提升2.8个百分点,排名上升11位。更重要的是,实际调用花费从41.6元降至31.7元。
Qwen产品线分工更清晰:从榜单看,qwen3.7-max(76.9%,第1位)承担旗舰商用模型角色,qwen3.7-plus(73.5%,第6位)在更低成本下进入前六,qwen3.5-plus(73.3%,第7位)继续提供高成本效率比开源选择;Qwen3.5-122B-A10B(70.9%,第15位)、qwen3.6-plus(70.7%,第17位)、Qwen3.5-27B(70.6%,第19位)构成中高端梯队。Qwen系已经形成从旗舰、Plus到开源模型的多层覆盖。
开源VS闭源对比
商用Plus模型中的高成本效率比选项:qwen3.7-plus为商用模型,但成本只有31.7元/千次,明显低于多数闭源头部模型。相比gpt-5.5(75.3%,158.5元)、gemini-3.1-pro-preview(75.2%,250.5元)、gemini-3.5-flash(73.9%,151.2元),qwen3.7-plus的准确率略低,但成本优势非常明显。
开源阵营:qwen3.5-plus(73.3%,22.9元)、kimi-k2.6(72.9%,100.4元)、deepseek-v4-pro(71.7%,54.3元)、Qwen3.5-122B-A10B(70.9%,32.3元)等开源模型已经在榜单前列形成密集分布。尤其是qwen3.5-plus,与qwen3.7-plus的中文综合准确率只差0.2个百分点,仍然是Qwen体系内非常强的成本效率比参照。
3、官方评测
根据Qwen官方博客(https://qwen.ai/blog?id=qwen3.7-plus),Qwen3.7-Plus的核心定位是"多模态智能体"。官方称其能够统一处理图像、视频、屏幕、网页和文本输入,并在GUI、CLI和工具环境中完成任务。博客中的官方评测主要分为两组:一组是纯文本测试,另一组是多模态测试。
纯文本测试

官方在纯文本测试集中将Qwen3.7-Plus与Opus-4.6、K2.6 Thinking、GLM-5.1 Thinking、DeepSeek-V4-Pro Max、Qwen3.6-Plus等模型进行对比。Coding Agent方向上,Qwen3.7-Plus在Terminal Bench 2.0-Terminus上取得70.3,高于Qwen3.6-Plus的61.6;SWE-Verified为77.7,略低于Qwen3.6-Plus的78.8;SWE-Pro为57.6,高于Qwen3.6-Plus的56.6;SWE-Multilingual为75.8,高于Qwen3.6-Plus的73.8;SciCode为51.3,高于Qwen3.6-Plus的41.4。
在通用Agent方向,Qwen3.7-Plus的QwenClaw为61.8,高于Qwen3.6-Plus的57.2;BFCL-V4为72.9,高于Qwen3.6-Plus的68.9;MCP-Mark为58.7,高于Qwen3.6-Plus的48.2;Deep-Planning为62.3,高于Qwen3.6-Plus的40.9;SpreadsheetBench-v1为86.3,高于Qwen3.6-Plus的80.2。官方认为这些结果说明Qwen3.7-Plus在工具使用、多步规划、表格任务和GPU kernel优化等方面有较强表现。
在推理和通用能力方面,Qwen3.7-Plus的GPQA Diamond为90.3,HLE为34.7,LiveCodeBench为89.6,HMMT 2026 Feb为92.9,IMOAnswerBench为86.0。通用能力方面,MMLU-Pro为88.5,MMLU-Redux为94.5,IFEval为94.6,IFBench为79.1,MRCR-v2 128k为91.7。多语言方面,WMT24++为84.6,MAXIFE为88.8,MMLU-ProX为85.4,PolyMATH为84.0。整体来看,官方认为Qwen3.7-Plus纯文本能力已接近Max级别模型。
多模态测试

官方多模态测试集覆盖多模态推理、视觉Agent与Coding、搜索增强视觉问答、通用视觉理解、自动驾驶和视频理解等方向。在多模态推理方面,Qwen3.7-Plus在MMMU-Pro上取得79.0,MathVision为90.3,BabyVision为70.4/64.7,CharXiv(RQ)为85.9/84.4,HiPhO为84.1,ERQA为69.8,VisFactor为42.8,MedXpertQA-MM为71.0。相比Qwen3.6-Plus,BabyVision、CharXiv、HiPhO、ERQA和VisFactor等高难视觉推理任务均有提升。
在Visual Agent与Coding方向,Qwen3.7-Plus的ScreenSpot Pro为79.0,高于Qwen3.6-Plus的68.2;OSWorld-Verified为73.3,高于Qwen3.6-Plus的62.5;AndroidWorld为81.0,高于Qwen3.6-Plus的67.2;QwenVision2Code为1772,高于Qwen3.6-Plus的1522;ClawEval-MM为55.7,高于Qwen3.6-Plus的49.1。这部分数据最能体现Qwen3.7-Plus相对上一代的多模态Agent升级:它不仅要理解图像,还要读屏、定位UI、执行操作,并把视觉参考转化为代码。
在搜索增强视觉问答和通用视觉理解方面,Qwen3.7-Plus的SimpleVQA为81.7,WorldVQA为61.1,MMSearchPlus为41.4,BC-VL为51.1,MMBC为46.3;RealWorldQA为86.9,CountQA为77.0,OmniDocBench1.5为91.4,OCR-Bench-V2英文为70.7,中文为67.1。视频理解方面,VideoMME为88.0,VideoMMMU为85.4,MLVU为87.4,TVBench为78.2,LVBench为76.2。官方将这些能力概括为从"看懂复杂视觉输入"到"基于视觉进行推理、调用工具并在代码或GUI环境中执行任务"的系统性增强。
官方还展示了多个多模态Agent案例,包括英语单词学习App的端到端开发、macOS Stocks应用复刻、视觉谜题求解、搜索增强视觉问答、图像/视频转SVG、视觉驱动网页设计和浏览器Agent操作云控制台等。这些案例不属于标准化评测表,但能补充说明Qwen3.7-Plus的产品定位:它并不是单纯的文本Plus模型,而是面向真实任务闭环执行的多模态混合智能体。
非线智能官网https://nonelinear.com 已上线Qwen3.7-Plus版,欢迎深度体验。 同时,非线智能API可连接超480+全球模型,支持一键Api聚合以及Api中转,提供稳定的企业级服务。 登录github账号,领20-50元体验金。接入Qwen3.7-Plus就用非线智能API。
