智谱昨天开源了GLM-4.7新版本(编程专用模型),相比此前的GLM-4.6版本,在多个维度实现了显著性能提升。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

GLM-4.7版本表现:

  • 测试题数:约1.5万

  • 总分(准确率):71.5%

  • 平均耗时(每次调用):96s

  • 平均token(每次调用消耗的token):3922

  • 平均花费(每千次调用的人民币花费):52.5

1、新旧版本对比

首先对比上个版本(GLM-4.6),数据如下:

引自非线智能(GitHub 第一 AI 商业测评) - 智谱 GLM-4.7 实测引自非线智能(GitHub 第一 AI 商业测评) - 智谱 GLM-4.7 实测

*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格是"1元/M token "


  • 整体性能提升:新版本准确率从68.1%提升至71.5%,提升了3.4个百分点,排名从第16位上升到第5位。

  • 专业能力多领域提升:从细分来看,新版本在多个领域都有提升。其中“推理与数学计算能力”从66.7%提升至72.7%,增幅达6.0个百分点。“教育”领域从46.9%提升至52.0%,增幅达5.1个百分点。

  • 医疗与金融领域改进:“医疗与心理健康”从77.6%提升至83.6%(+6.0%),“金融”领域从77.7%提升至84.2%(+6.5%)。

  • 语言理解能力变化:“语言与指令遵从”从64.6%提升至69.3%,增幅达4.7个百分点。

  • Agent能力略有回调:值得注意的是,“agent与工具调用”从69.9%略降至68.1%,下降1.8个百分点,这是唯一出现性能下降的领域,表明在整体性能提升过程中存在一定的权衡。

  • Token消耗增加:每次调用平均消耗的token从2851增加至3922,增幅达37.6%。结合准确率的提升,这反映出新版本采用了更复杂的推理机制。

  • 响应时间权衡明显:新版本的平均耗时为96s,比GLM-4.6的59s慢了约63%。输出价格维持在14.0元/M token不变,但由于token消耗增加,每千次调用的实测费用从37.6元上升至52.5元,成本增加约40%。

2、对比其他新模型

在当前主流大模型竞争格局中,GLM-4.7表现如何?我们选择了具有代表性的模型进行横向对比分析(本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同):

引自非线智能(GitHub 第一 AI 商业测评) - 智谱 GLM-4.7 实测*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

  • 50元档位对比:GLM-4.7以52.5元的实测成本处于50元档位,与gemini-3-flash-preview(53.5元)形成直接竞争。在这个档位段,两者准确率相同(均为71.5%),GLM-4.7排名第5,gemini-3-flash-preview排名第6,但GLM-4.7响应时间(96s)慢于后者(72s)。

  • 与同档位产品对比:相比同档位的Kimi-K2-Thinking(89.2元,68.3%),GLM-4.7的成本降低41%,准确率高出3.2个百分点。

  • 成本控制空间:与高性价比模型相比,如doubao-seed-1-8-251215(7.3元,71.7%),GLM-4.7的成本是其7倍多,但准确率仅低0.2个百分点,成本控制仍有较大优化空间。

新旧模型对比

  • 智谱产品线迭代情况:GLM-4.7相比GLM-4.6准确率提升3.4个百分点,排名从16位上升至5位。

  • 与最新版本对比:对比同为最新版本的模型,gemini-3-pro-preview(72.5%)和hunyuan-2.0-thinking-20251109(71.9%)的准确率略高于GLM-4.7,但GLM-4.7在响应速度上表现更好。

  • Thinking模式的定位:相比doubao-seed-1-8-251215模型(71.7%,33s),GLM-4.7的速度劣势明显(96s),但准确率持平,这表明智谱在思维链优化方面还需进一步提升效率。

开源VS闭源对比

  • 与闭源模型对比:相比同准确率段的闭源模型,如doubao-seed-1-8-251215(71.7%,商用),GLM-4.7的开源特性使其在可定制性和部署灵活性上有所不同,适合需要私有化部署或深度定制的企业用户。

  • DeepSeek对比:相比同为开源的DeepSeek-V3.2-Think(70.9%,144s),GLM-4.7在准确率上高0.6个百分点,速度上快33%。

  • 开源模型定位:GLM-4.7的开源为社区提供了高性能编程模型的选择。相比GPT系列(GPT-5.1-high为69.7%,180元实测成本),GLM-4.7在成本和准确率上都有一定竞争力。


3、官方评测

根据智谱AI官方博客披露,GLM-4.7在编程能力方面实现了多项突破:

引自非线智能(GitHub 第一 AI 商业测评) - 智谱 GLM-4.7 实测

引自非线智能(GitHub 第一 AI 商业测评) - 智谱 GLM-4.7 实测引自非线智能(GitHub 第一 AI 商业测评) - 智谱 GLM-4.7 实测

核心编程能力跃升

  • 多语言编程显著提升:在SWE-bench基准测试中,GLM-4.7达到73.8%,相比GLM-4.6提升5.8个百分点;在SWE-bench Multilingual测试中更是取得66.7%的成绩,提升幅度高达12.9个百分点。

  • 终端任务能力突破:在Terminal Bench 2.0测试中,GLM-4.7达到41%,相比前代提升16.5个百分点,这表明模型在处理复杂命令行任务时的能力大幅增强。

  • 主流编程框架支持:GLM-4.7可无缝集成到Claude Code、Kilo Code、Cline和Roo Code等主流agent框架中,支持”先思考后行动”模式,在复杂任务处理上表现出色。

工具使用能力优化

  • 工具调用准确性提升:在τ²-Bench等工具使用基准测试中取得显著进步,能够更准确地理解和调用外部工具。

  • 网页浏览能力增强:在BrowseComp网页测试中表现出明显更优的性能,对复杂网页内容的理解和交互能力得到提升。

  • 信息整合能力进化:对于复杂查询和研究任务,GLM-4.7不仅能返回信息,还能进行结构化组织和跨源整合,逐步聚焦核心结论。

推理能力大幅增强

  • 数学推理显著突破:在HLE(人类终极考试)基准测试中,GLM-4.7达到42.8%,相比GLM-4.6提升12.4个百分点,在数学和推理能力上实现质的飞跃。

  • 多轮对话稳定性提升:在多轮对话中更可靠地维护上下文和约束条件,对简单查询响应更直接,对复杂问题则持续澄清目标并推进解决路径。

我们官网https://nonelinear.com/static/models.html已上线GLM-4.7,欢迎对比体验。同时,非线智能API支持Api聚合以及Api中转,提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号,领50元体验金

大模型/agent评测技术交流:关注公众号,发送消息"进群"