智谱GLM-4.7-Flash实测：新版本性能大幅下滑

智谱AI近期开源了GLM-4.7-Flash新版本，官方定位为"Small but Powerful"，宣称在编程能力和中文写作等场景表现出色。然而，我们的实测数据显示，相比GLM-4.5-Flash版本，GLM-4.7-Flash在多个关键指标上出现显著退步。我们对这两个版本进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

GLM-4.7-Flash版本表现：

测试题数：约1.5万
总分（准确率）：55.5%
平均耗时（每次调用）：1238s
平均token（每次调用消耗的token）：6690
平均花费（每千次调用的人民币花费）：0

1、两版本对比

首先对比上个版本（GLM-4.5-Flash），数据如下：

引自非线智能（GitHub 第一 AI 商业测评） - 智谱GLM-4.7-Flash实测：新版本性能大幅下滑

*数据来源：ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格是"1元/M token "

整体性能显著下滑：新版本准确率从63.0%大幅下降至55.5%，下降了7.5个百分点，排名从第55位跌落至第84位，出现了较大幅度的性能退步。
专业能力全面倒退：从细分领域来看，新版本在所有测试维度均出现明显下滑。其中"教育"领域从29.6%升至37.1%是唯一亮点，但"医疗与心理健康"从73.3%降至62.4%（-10.9%），"金融"从70.3%降至63.0%（-7.3%），"法律与行政公务"从72.7%降至58.7%（-14.0%），退步幅度均较为明显。
推理能力有所下滑："推理与数学计算能力"从61.5%降至55.3%（-6.2%），在这一核心能力上的退步值得关注。
语言理解能力大幅下降："语言与指令遵从"从65.5%降至48.9%（-16.6%），下降幅度最大，表明新版本在基础语言理解和指令遵循方面存在较大问题。
Agent能力小幅退步："agent与工具调用"从64.1%降至62.7%（-1.4%），相对降幅较小，但仍低于前代版本。
Token消耗和响应时间异常：每次调用平均消耗的token从3171增加至6690，增幅达111%。更值得注意的是，平均响应时间从63s大幅增加到1238s（约20分钟），增幅近19倍，用户体验严重下降。
成本结构变化：虽然新版本输出价格设为0元/M token（开源免费调用），相比GLM-4.5-Flash实现了成本降低，但考虑到性能的全面下滑，这一"免费"优势的实际价值大打折扣。

2、对比其他新模型

在当前主流大模型竞争格局中，GLM-4.7-Flash表现如何？我们从同成本档位、新旧模型对比、开源VS闭源三个维度进行分析：

*数据来源：ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

免费模型中垫底：GLM-4.7-Flash作为免费开源模型，与同样免费的MiMo-V2-Flash-think（62.0%）相比，准确率处于相近或更低水平。但在响应时间上，GLM-4.7-Flash的1238s远逊于MiMo-V2-Flash-think的81s。
性价比优势不明显：虽然免费，但考虑到超长的响应时间和较低的准确率，在实际应用中可能反而增加开发调试成本。

新旧模型对比

智谱AI产品线表现分化：同厂商的GLM-4.7以71.5%准确率排名第5，展现了较强的竞争力。但GLM-4.7-Flash作为轻量版本，与主力模型的差距达到16个百分点，产品定位存在较大落差。
新模型整体水平提升：当前榜单前列的新模型如gemini-3-pro-preview（72.5%）、hunyuan-2.0-thinking-20251109（71.9%）、doubao-seed-1-8-251215（71.7%）均展现了较高水准，GLM-4.7-Flash的55.5%与这些新模型存在明显差距。

开源VS闭源对比

开源模型中表现靠后：与同为开源的GLM-4.7(new)（71.5%）、DeepSeek-V3.2-Think（70.9%）、DeepSeek-V3.2-Exp-Think（70.1%）相比，GLM-4.7-Flash的55.5%处于明显劣势。
轻量模型竞争激烈：在追求"small but powerful"的定位上，GLM-4.7-Flash需要面对MiMo-V2-Flash-think（62.0%）、qwen-flash-think-2025-07-28（64.0%）等同类产品的竞争，目前未能展现出明显优势。
闭源模型普遍领先：排名前列的闭源模型如gemini-3-pro-preview（72.5%，商用）、hunyuan-2.0-thinking-20251109（71.9%，商用）等，在准确率上普遍高于GLM-4.7-Flash 15个百分点以上。

注意，智谱官方指出，GLM-4.7-Flash（300亿参数，30亿激活）与GLM-4.5-Flash（1060亿参数，120亿激活）并非同一产品线的迭代版本，两者参数规模相差约3.5倍。本文对比仅供参考，需注意两者定位差异。另外，我们非线智能官网https://nonelinear.com/static/models.html已上线GLM-4.7-Flash，欢迎对比体验。同时，非线智能API支持Api聚合以及Api中转，提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号，领50元体验金

大模型/agent评测技术交流：关注公众号，发送消息"进群"