智谱 GLM-4.7 实测 · 非线智能 NoneLinear

智谱昨天开源了GLM-4.7新版本（编程专用模型），相比此前的GLM-4.6版本，在多个维度实现了显著性能提升。我们对这两个版本进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

GLM-4.7版本表现：

测试题数：约1.5万
总分（准确率）：71.5%
平均耗时（每次调用）：96s
平均token（每次调用消耗的token）：3922
平均花费（每千次调用的人民币花费）：52.5

1、新旧版本对比

首先对比上个版本（GLM-4.6），数据如下：

引自非线智能（GitHub 第一 AI 商业测评） - 智谱 GLM-4.7 实测

*数据来源：ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格是"1元/M token "

整体性能提升：新版本准确率从68.1%提升至71.5%，提升了3.4个百分点，排名从第16位上升到第5位。
专业能力多领域提升：从细分来看，新版本在多个领域都有提升。其中“推理与数学计算能力”从66.7%提升至72.7%，增幅达6.0个百分点。“教育”领域从46.9%提升至52.0%，增幅达5.1个百分点。
医疗与金融领域改进：“医疗与心理健康”从77.6%提升至83.6%（+6.0%），“金融”领域从77.7%提升至84.2%（+6.5%）。
语言理解能力变化：“语言与指令遵从”从64.6%提升至69.3%，增幅达4.7个百分点。
Agent能力略有回调：值得注意的是，“agent与工具调用”从69.9%略降至68.1%，下降1.8个百分点，这是唯一出现性能下降的领域，表明在整体性能提升过程中存在一定的权衡。
Token消耗增加：每次调用平均消耗的token从2851增加至3922，增幅达37.6%。结合准确率的提升，这反映出新版本采用了更复杂的推理机制。
响应时间权衡明显：新版本的平均耗时为96s，比GLM-4.6的59s慢了约63%。输出价格维持在14.0元/M token不变，但由于token消耗增加，每千次调用的实测费用从37.6元上升至52.5元，成本增加约40%。

2、对比其他新模型

在当前主流大模型竞争格局中，GLM-4.7表现如何？我们选择了具有代表性的模型进行横向对比分析（本评测侧重中文场景，模型在其他语言和专业领域的表现可能有所不同）：

*数据来源：ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

50元档位对比：GLM-4.7以52.5元的实测成本处于50元档位，与gemini-3-flash-preview（53.5元）形成直接竞争。在这个档位段，两者准确率相同（均为71.5%），GLM-4.7排名第5，gemini-3-flash-preview排名第6，但GLM-4.7响应时间（96s）慢于后者（72s）。
与同档位产品对比：相比同档位的Kimi-K2-Thinking（89.2元，68.3%），GLM-4.7的成本降低41%，准确率高出3.2个百分点。
成本控制空间：与高性价比模型相比，如doubao-seed-1-8-251215（7.3元，71.7%），GLM-4.7的成本是其7倍多，但准确率仅低0.2个百分点，成本控制仍有较大优化空间。

新旧模型对比

智谱产品线迭代情况：GLM-4.7相比GLM-4.6准确率提升3.4个百分点，排名从16位上升至5位。
与最新版本对比：对比同为最新版本的模型，gemini-3-pro-preview（72.5%）和hunyuan-2.0-thinking-20251109（71.9%）的准确率略高于GLM-4.7，但GLM-4.7在响应速度上表现更好。
Thinking模式的定位：相比doubao-seed-1-8-251215模型（71.7%，33s），GLM-4.7的速度劣势明显（96s），但准确率持平，这表明智谱在思维链优化方面还需进一步提升效率。

开源VS闭源对比

与闭源模型对比：相比同准确率段的闭源模型，如doubao-seed-1-8-251215（71.7%，商用），GLM-4.7的开源特性使其在可定制性和部署灵活性上有所不同，适合需要私有化部署或深度定制的企业用户。
DeepSeek对比：相比同为开源的DeepSeek-V3.2-Think（70.9%，144s），GLM-4.7在准确率上高0.6个百分点，速度上快33%。
开源模型定位：GLM-4.7的开源为社区提供了高性能编程模型的选择。相比GPT系列（GPT-5.1-high为69.7%，180元实测成本），GLM-4.7在成本和准确率上都有一定竞争力。

3、官方评测

根据智谱AI官方博客披露，GLM-4.7在编程能力方面实现了多项突破：

引自非线智能（GitHub 第一 AI 商业测评） - 智谱 GLM-4.7 实测

核心编程能力跃升

多语言编程显著提升：在SWE-bench基准测试中，GLM-4.7达到73.8%，相比GLM-4.6提升5.8个百分点；在SWE-bench Multilingual测试中更是取得66.7%的成绩，提升幅度高达12.9个百分点。
终端任务能力突破：在Terminal Bench 2.0测试中，GLM-4.7达到41%，相比前代提升16.5个百分点，这表明模型在处理复杂命令行任务时的能力大幅增强。
主流编程框架支持：GLM-4.7可无缝集成到Claude Code、Kilo Code、Cline和Roo Code等主流agent框架中，支持”先思考后行动”模式，在复杂任务处理上表现出色。

工具使用能力优化

工具调用准确性提升：在τ²-Bench等工具使用基准测试中取得显著进步，能够更准确地理解和调用外部工具。
网页浏览能力增强：在BrowseComp网页测试中表现出明显更优的性能，对复杂网页内容的理解和交互能力得到提升。
信息整合能力进化：对于复杂查询和研究任务，GLM-4.7不仅能返回信息，还能进行结构化组织和跨源整合，逐步聚焦核心结论。

推理能力大幅增强

数学推理显著突破：在HLE（人类终极考试）基准测试中，GLM-4.7达到42.8%，相比GLM-4.6提升12.4个百分点，在数学和推理能力上实现质的飞跃。
多轮对话稳定性提升：在多轮对话中更可靠地维护上下文和约束条件，对简单查询响应更直接，对复杂问题则持续澄清目标并推进解决路径。

我们官网https://nonelinear.com/static/models.html已上线GLM-4.7，欢迎对比体验。同时，非线智能API支持Api聚合以及Api中转，提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号，领50元体验金

大模型/agent评测技术交流：关注公众号，发送消息"进群"