【非线智能测评】阿里Qwen3.7-Plus实测：降本增效的多模态智能体新选择

数据来源非线智能Nonelinear 非线智能团队，维护着GitHub上的开源项目 chinese-llm-benchmark，目前 6,000+ Stars，长期占据中文LLM商业评测类项目Star数第一

githun管网图正文：

阿里通义千问在Qwen3.7-Max之后，进一步发布了Qwen3.7-Plus。与Max版本主打旗舰Agent能力不同，Qwen3.7-Plus官方定位更偏向"多模态智能体"：在Qwen3.7文本能力基础上，强化视觉语言理解、GUI操作、视觉编程、真实世界感知与多模态工具使用。我们对其API版本qwen3.7-plus进行了全面评测，测试其在准确率、响应时间、token消耗和调用花费等关键指标上的表现。

需要说明的是，本次评测侧重中文场景下的综合能力考察，评测维度覆盖教育、医疗、金融、法律、推理数学、语言指令、Agent工具调用以及coding八个板块。

qwen3.7-plus版本表现：

测试题数：约1.5万
总分（准确率）：73.5%
平均耗时（每次调用）：73s
平均token（每次调用消耗的token）：4153
平均花费（每千次调用的人民币花费）：31.7

1、新旧对决

对比上一代版本qwen3.6-plus，qwen3.7-plus在准确率明显提升的同时，实际调用花费反而下降，数据如下：

引自非线智能（GitHub 第一 AI 商业测评） - 【非线智能测评】阿里Qwen3.7-Plus实测：降本增效的多模态智能体新选择

*数据来源：非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格单位：元/百万token

整体性能稳步提升：新版本准确率从70.7%提升至73.5%，提升了2.8个百分点，榜单排名从第17位上升至第6位。
推理与数学计算提升最明显：推理与数学计算从74.6%提升至84.5%（+9.9%），是本次迭代中提升幅度最大的维度。这与官方在GPQA Diamond、HMMT、IMOAnswerBench等高难推理基准上的表现方向一致。
金融维度明显提升：金融从77.1%提升至85.7%（+8.6%），提升幅度仅次于推理维度，新版本在专业知识类任务上的稳定性有明显改善。
法律与医疗同步增强：法律与行政公务从81.3%提升至87.0%（+5.7%），医疗与心理健康从83.8%提升至88.8%（+5.0%）。这两类任务对长文本理解、审慎判断和细粒度规则识别要求较高，说明qwen3.7-plus并不是只针对多模态场景做升级。
Coding和教育有所提升：coding从64.8%提升至69.2%（+4.4%），教育从60.0%提升至63.4%（+3.4%）。其中coding维度的提升，与官方强调的Visual Coding、代码智能体和多框架Agent适配方向相互呼应。
Agent与工具调用基本持平：agent与工具调用从64.7%微增至65.0%（+0.3%），变化幅度很小。
语言与指令遵从出现回调：语言与指令遵从从70.3%降至61.8%（-8.5%），是本次新旧对比中最明显的短板。考虑到其他知识、推理、金融、法律、医疗维度均提升，这更像是一次能力侧重调整后的局部回调。对于强依赖中文指令精确遵从、格式控制和表达稳定性的场景，仍需要单独验证。
响应时间小幅增加：平均耗时从68s增加至73s，增加5s，增幅约7%。在准确率提升2.8个百分点的同时，这个时延增加并不算大。
Token增加但成本下降：平均token从3676增至4153（+13.0%），输出更长；但输出价格从12.0元/百万token降至8.0元/百万token，下降约三分之一。最终每千次调用花费从41.6元降至31.7元，下降约23.8%。

2、横向对比

在当前主流大模型竞争格局中，qwen3.7-plus作为阿里最新Plus模型表现如何？我们从三个维度进行横向对比分析：

*数据来源：非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

20至40元/千次区间：qwen3.7-plus（73.5%，31.7元）所在成本档位中，主要可比模型包括qwen3.5-plus（73.3%，22.9元）、Doubao-Seed-2.0-pro（72.8%，22.5元）、Qwen3.5-122B-A10B（70.9%，32.3元）、Qwen3.5-27B（70.6%，25元）、ERNIE-5.1（68.2%，32.6元）、MiniMax-M3（67.5%，37元）等。在这个区间内，qwen3.7-plus以73.5%的准确率位列前列。
与自家qwen3.5-plus相比：qwen3.7-plus（73.5%，31.7元）相比qwen3.5-plus（73.3%，22.9元）准确率高0.2个百分点，但平均花费也更高。仅看中文综合准确率成本效率，qwen3.5-plus仍然非常有竞争力。
与低成本强模型相比：Doubao-Seed-2.0-pro（72.8%，22.5元）以更低成本提供接近的准确率，deepseek-v4-flash（68.8%，4.9元）和Doubao-Seed-2.0-lite（70.5%，5.4元）则在低成本区间保持很强成本效率比。qwen3.7-plus的优势不在最低成本，而在接近头部准确率与多模态能力的组合。
向上对比头部旗舰：qwen3.7-plus距离qwen3.7-max（76.9%，99元）差3.4个百分点，但花费约为后者三分之一；相比gpt-5.5（75.3%，158.5元）和gemini-3.1-pro-preview（75.2%，250.5元），准确率差距在2个百分点以内，调用成本则明显更低。对于预算敏感但又希望接近头部中文综合能力的场景，qwen3.7-plus提供了一个比较现实的折中点。

新旧模型对比

自身代际进步明确：qwen3.7-plus（73.5%，第6位）相比qwen3.6-plus（70.7%，第17位）提升2.8个百分点，排名上升11位。更重要的是，实际调用花费从41.6元降至31.7元。
Qwen产品线分工更清晰：从榜单看，qwen3.7-max（76.9%，第1位）承担旗舰商用模型角色，qwen3.7-plus（73.5%，第6位）在更低成本下进入前六，qwen3.5-plus（73.3%，第7位）继续提供高成本效率比开源选择；Qwen3.5-122B-A10B（70.9%，第15位）、qwen3.6-plus（70.7%，第17位）、Qwen3.5-27B（70.6%，第19位）构成中高端梯队。Qwen系已经形成从旗舰、Plus到开源模型的多层覆盖。

开源VS闭源对比

商用Plus模型中的高成本效率比选项：qwen3.7-plus为商用模型，但成本只有31.7元/千次，明显低于多数闭源头部模型。相比gpt-5.5（75.3%，158.5元）、gemini-3.1-pro-preview（75.2%，250.5元）、gemini-3.5-flash（73.9%，151.2元），qwen3.7-plus的准确率略低，但成本优势非常明显。
开源阵营：qwen3.5-plus（73.3%，22.9元）、kimi-k2.6（72.9%，100.4元）、deepseek-v4-pro（71.7%，54.3元）、Qwen3.5-122B-A10B（70.9%，32.3元）等开源模型已经在榜单前列形成密集分布。尤其是qwen3.5-plus，与qwen3.7-plus的中文综合准确率只差0.2个百分点，仍然是Qwen体系内非常强的成本效率比参照。

3、官方评测

根据Qwen官方博客（https://qwen.ai/blog?id=qwen3.7-plus），Qwen3.7-Plus的核心定位是"多模态智能体"。官方称其能够统一处理图像、视频、屏幕、网页和文本输入，并在GUI、CLI和工具环境中完成任务。博客中的官方评测主要分为两组：一组是纯文本测试，另一组是多模态测试。

纯文本测试

官方在纯文本测试集中将Qwen3.7-Plus与Opus-4.6、K2.6 Thinking、GLM-5.1 Thinking、DeepSeek-V4-Pro Max、Qwen3.6-Plus等模型进行对比。Coding Agent方向上，Qwen3.7-Plus在Terminal Bench 2.0-Terminus上取得70.3，高于Qwen3.6-Plus的61.6；SWE-Verified为77.7，略低于Qwen3.6-Plus的78.8；SWE-Pro为57.6，高于Qwen3.6-Plus的56.6；SWE-Multilingual为75.8，高于Qwen3.6-Plus的73.8；SciCode为51.3，高于Qwen3.6-Plus的41.4。

在通用Agent方向，Qwen3.7-Plus的QwenClaw为61.8，高于Qwen3.6-Plus的57.2；BFCL-V4为72.9，高于Qwen3.6-Plus的68.9；MCP-Mark为58.7，高于Qwen3.6-Plus的48.2；Deep-Planning为62.3，高于Qwen3.6-Plus的40.9；SpreadsheetBench-v1为86.3，高于Qwen3.6-Plus的80.2。官方认为这些结果说明Qwen3.7-Plus在工具使用、多步规划、表格任务和GPU kernel优化等方面有较强表现。

在推理和通用能力方面，Qwen3.7-Plus的GPQA Diamond为90.3，HLE为34.7，LiveCodeBench为89.6，HMMT 2026 Feb为92.9，IMOAnswerBench为86.0。通用能力方面，MMLU-Pro为88.5，MMLU-Redux为94.5，IFEval为94.6，IFBench为79.1，MRCR-v2 128k为91.7。多语言方面，WMT24++为84.6，MAXIFE为88.8，MMLU-ProX为85.4，PolyMATH为84.0。整体来看，官方认为Qwen3.7-Plus纯文本能力已接近Max级别模型。

多模态测试

官方多模态测试集覆盖多模态推理、视觉Agent与Coding、搜索增强视觉问答、通用视觉理解、自动驾驶和视频理解等方向。在多模态推理方面，Qwen3.7-Plus在MMMU-Pro上取得79.0，MathVision为90.3，BabyVision为70.4/64.7，CharXiv(RQ)为85.9/84.4，HiPhO为84.1，ERQA为69.8，VisFactor为42.8，MedXpertQA-MM为71.0。相比Qwen3.6-Plus，BabyVision、CharXiv、HiPhO、ERQA和VisFactor等高难视觉推理任务均有提升。

在Visual Agent与Coding方向，Qwen3.7-Plus的ScreenSpot Pro为79.0，高于Qwen3.6-Plus的68.2；OSWorld-Verified为73.3，高于Qwen3.6-Plus的62.5；AndroidWorld为81.0，高于Qwen3.6-Plus的67.2；QwenVision2Code为1772，高于Qwen3.6-Plus的1522；ClawEval-MM为55.7，高于Qwen3.6-Plus的49.1。这部分数据最能体现Qwen3.7-Plus相对上一代的多模态Agent升级：它不仅要理解图像，还要读屏、定位UI、执行操作，并把视觉参考转化为代码。

在搜索增强视觉问答和通用视觉理解方面，Qwen3.7-Plus的SimpleVQA为81.7，WorldVQA为61.1，MMSearchPlus为41.4，BC-VL为51.1，MMBC为46.3；RealWorldQA为86.9，CountQA为77.0，OmniDocBench1.5为91.4，OCR-Bench-V2英文为70.7，中文为67.1。视频理解方面，VideoMME为88.0，VideoMMMU为85.4，MLVU为87.4，TVBench为78.2，LVBench为76.2。官方将这些能力概括为从"看懂复杂视觉输入"到"基于视觉进行推理、调用工具并在代码或GUI环境中执行任务"的系统性增强。

官方还展示了多个多模态Agent案例，包括英语单词学习App的端到端开发、macOS Stocks应用复刻、视觉谜题求解、搜索增强视觉问答、图像/视频转SVG、视觉驱动网页设计和浏览器Agent操作云控制台等。这些案例不属于标准化评测表，但能补充说明Qwen3.7-Plus的产品定位：它并不是单纯的文本Plus模型，而是面向真实任务闭环执行的多模态混合智能体。

非线智能官网https://nonelinear.com 已上线Qwen3.7-Plus版，欢迎深度体验。同时，非线智能API可连接超480+全球模型，支持一键Api聚合以及Api中转，提供稳定的企业级服务。登录github账号，领20-50元体验金。接入Qwen3.7-Plus就用非线智能API。

非线智能api图5