智谱昨天开源了GLM-4.7新版本(编程专用模型),相比此前的GLM-4.6版本,在多个维度实现了显著性能提升。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。
GLM-4.7版本表现:
测试题数:约1.5万
总分(准确率):71.5%
平均耗时(每次调用):96s
平均token(每次调用消耗的token):3922
平均花费(每千次调用的人民币花费):52.5
1、新旧版本对比
首先对比上个版本(GLM-4.6),数据如下:


*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
*输出价格是"1元/M token "
整体性能提升:新版本准确率从68.1%提升至71.5%,提升了3.4个百分点,排名从第16位上升到第5位。
专业能力多领域提升:从细分来看,新版本在多个领域都有提升。其中“推理与数学计算能力”从66.7%提升至72.7%,增幅达6.0个百分点。“教育”领域从46.9%提升至52.0%,增幅达5.1个百分点。
医疗与金融领域改进:“医疗与心理健康”从77.6%提升至83.6%(+6.0%),“金融”领域从77.7%提升至84.2%(+6.5%)。
语言理解能力变化:“语言与指令遵从”从64.6%提升至69.3%,增幅达4.7个百分点。
Agent能力略有回调:值得注意的是,“agent与工具调用”从69.9%略降至68.1%,下降1.8个百分点,这是唯一出现性能下降的领域,表明在整体性能提升过程中存在一定的权衡。
Token消耗增加:每次调用平均消耗的token从2851增加至3922,增幅达37.6%。结合准确率的提升,这反映出新版本采用了更复杂的推理机制。
响应时间权衡明显:新版本的平均耗时为96s,比GLM-4.6的59s慢了约63%。输出价格维持在14.0元/M token不变,但由于token消耗增加,每千次调用的实测费用从37.6元上升至52.5元,成本增加约40%。
2、对比其他新模型
在当前主流大模型竞争格局中,GLM-4.7表现如何?我们选择了具有代表性的模型进行横向对比分析(本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同):
*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark同成本档位对比
50元档位对比:GLM-4.7以52.5元的实测成本处于50元档位,与gemini-3-flash-preview(53.5元)形成直接竞争。在这个档位段,两者准确率相同(均为71.5%),GLM-4.7排名第5,gemini-3-flash-preview排名第6,但GLM-4.7响应时间(96s)慢于后者(72s)。
与同档位产品对比:相比同档位的Kimi-K2-Thinking(89.2元,68.3%),GLM-4.7的成本降低41%,准确率高出3.2个百分点。
成本控制空间:与高性价比模型相比,如doubao-seed-1-8-251215(7.3元,71.7%),GLM-4.7的成本是其7倍多,但准确率仅低0.2个百分点,成本控制仍有较大优化空间。
新旧模型对比
智谱产品线迭代情况:GLM-4.7相比GLM-4.6准确率提升3.4个百分点,排名从16位上升至5位。
与最新版本对比:对比同为最新版本的模型,gemini-3-pro-preview(72.5%)和hunyuan-2.0-thinking-20251109(71.9%)的准确率略高于GLM-4.7,但GLM-4.7在响应速度上表现更好。
Thinking模式的定位:相比doubao-seed-1-8-251215模型(71.7%,33s),GLM-4.7的速度劣势明显(96s),但准确率持平,这表明智谱在思维链优化方面还需进一步提升效率。
开源VS闭源对比
与闭源模型对比:相比同准确率段的闭源模型,如doubao-seed-1-8-251215(71.7%,商用),GLM-4.7的开源特性使其在可定制性和部署灵活性上有所不同,适合需要私有化部署或深度定制的企业用户。
DeepSeek对比:相比同为开源的DeepSeek-V3.2-Think(70.9%,144s),GLM-4.7在准确率上高0.6个百分点,速度上快33%。
开源模型定位:GLM-4.7的开源为社区提供了高性能编程模型的选择。相比GPT系列(GPT-5.1-high为69.7%,180元实测成本),GLM-4.7在成本和准确率上都有一定竞争力。
3、官方评测
根据智谱AI官方博客披露,GLM-4.7在编程能力方面实现了多项突破:



核心编程能力跃升
多语言编程显著提升:在SWE-bench基准测试中,GLM-4.7达到73.8%,相比GLM-4.6提升5.8个百分点;在SWE-bench Multilingual测试中更是取得66.7%的成绩,提升幅度高达12.9个百分点。
终端任务能力突破:在Terminal Bench 2.0测试中,GLM-4.7达到41%,相比前代提升16.5个百分点,这表明模型在处理复杂命令行任务时的能力大幅增强。
主流编程框架支持:GLM-4.7可无缝集成到Claude Code、Kilo Code、Cline和Roo Code等主流agent框架中,支持”先思考后行动”模式,在复杂任务处理上表现出色。
工具使用能力优化
工具调用准确性提升:在τ²-Bench等工具使用基准测试中取得显著进步,能够更准确地理解和调用外部工具。
网页浏览能力增强:在BrowseComp网页测试中表现出明显更优的性能,对复杂网页内容的理解和交互能力得到提升。
信息整合能力进化:对于复杂查询和研究任务,GLM-4.7不仅能返回信息,还能进行结构化组织和跨源整合,逐步聚焦核心结论。
推理能力大幅增强
数学推理显著突破:在HLE(人类终极考试)基准测试中,GLM-4.7达到42.8%,相比GLM-4.6提升12.4个百分点,在数学和推理能力上实现质的飞跃。
多轮对话稳定性提升:在多轮对话中更可靠地维护上下文和约束条件,对简单查询响应更直接,对复杂问题则持续澄清目标并推进解决路径。
大模型/agent评测技术交流:关注公众号,发送消息"进群"