【非线智能测评】智谱 GLM-5.2 实测：长程编码表现亮眼，中文综合能力稳步进阶

数据来源非线智能Nonelinear 非线智能团队，维护着GitHub上的开源项目 chinese-llm-benchmark，目前 6,000+ Stars，长期占据中文LLM商业评测类项目Star数第一

githun管网图

正文：

智谱AI发布了GLM-5.2，并将其定位为面向长程任务的新一代旗舰模型。官方强调，GLM-5.2首次把长程任务能力建立在稳定的1M token上下文之上，同时强化了编码、Agent工作流、灵活思考强度和开放生态。本次我们对其API版本glm-5.2进行了全面评测，测试其在准确率、响应时间、token消耗和调用花费等关键指标上的表现。

需要说明的是，本次评测侧重中文场景下的综合能力考察，覆盖教育、医疗、金融、法律、推理数学、语言指令、Agent工具调用以及coding八个板块。

glm-5.2版本表现：

测试题数：约1.5万
总分（准确率）：73.0%
平均耗时（每次调用）：93s
平均token（每次调用消耗的token）：4109
平均花费（每千次调用的人民币花费）：110.5

1、新旧对决

对比上一代版本GLM-5.1，glm-5.2的变化非常集中：总分和排名都有提升，coding维度进步最明显，法律与语言指令也有所改善；但金融、推理数学、医疗等中文任务出现回调，同时token消耗和调用成本上升。数据如下：

引自非线智能（GitHub 第一 AI 商业测评） - 【非线智能测评】智谱 GLM-5.2 实测：长程编码表现亮眼，中文综合能力稳步进阶

*数据来源：非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格单位：元/百万token

整体性能稳步提升：glm-5.2总分为73.0%，相比GLM-5.1的70.7%提升2.3个百分点，榜单排名从第21位升至第9位。
Coding是最核心变化：coding从52.1%提升至68.7%，提升16.6个百分点，是本次迭代中最突出的细分项。这与官方将glm-5.2定位为长程编码和代码Agent模型的方向高度一致。
法律与语言指令同步改善：法律与行政公务从81.7%提升至86.7%（+5.0%），语言与指令遵从从62.2%提升至64.8%（+2.6%），教育从61.1%提升至63.3%（+2.2%）。这些维度说明glm-5.2并非只强化代码题，在部分中文规则类和指令类任务中也有改善。
Agent工具调用基本持平：agent与工具调用从71.7%微调至71.6%（-0.1%），变化可以视为基本持平。
部分中文强项出现回调：金融从85.2%降至79.0%（-6.2%），推理与数学计算从82.8%降至78.0%（-4.8%），医疗与心理健康从86.6%降至83.7%（-2.9%）。这说明glm-5.2的能力调整并不是所有中文任务同步上行，而是更偏向代码和长程工程任务。
响应速度明显改善：平均耗时从183s缩短至93s，减少90s，耗时下降约49%。对于长程任务模型来说，仍然不是低延迟选手，但相比GLM-5.1已经明显更可用。
Token和成本同步增加：平均token从3241增至4109，增加约26.8%；输出价格从24.0元/百万token上调至28.0元/百万token。最终每千次调用花费从73.8元升至110.5元，上升约49.7%。

2、横向对比

在当前主流大模型竞争格局中，glm-5.2作为智谱AI面向长程任务与代码Agent的新一代开源旗舰表现如何？我们从三个维度进行横向对比分析：

*数据来源：非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

百元档看站位：glm-5.2（73.0%，110.5元）处在90至130元/千次调用区间，主要参照对象包括qwen3.7-max（76.9%，99元）、kimi-k2.6（72.9%，100.4元）、gpt-5.4-high（72.6%，122.3元）、claude-opus-4.8（71.5%，99.4元）和gpt-5.2-high（67.3%，94.1元）。在这个区间里，glm-5.2总分高于kimi-k2.6、gpt-5.4-high和claude-opus-4.8，但低于qwen3.7-max。
速度不是主要优势：glm-5.2平均耗时93s，快于kimi-k2.6（175s），但慢于qwen3.7-max（51s）、gpt-5.4-high（24s）和claude-opus-4.8（9s）。
往低价位看：qwen3.7-plus（73.5%，31.7元）、qwen3.5-plus（73.3%，22.9元）和Doubao-Seed-2.0-pro（72.8%，22.5元）都以更低成本取得接近或更高总分。仅从中文综合准确率和调用成本看，glm-5.2的成本效率比并不突出，它的价值更多需要在长程代码、1M上下文和开源可部署能力中体现。
往高端模型看：相比gpt-5.5（75.3%，158.5元）和gemini-3.5-flash（73.9%，151.2元），glm-5.2总分分别低2.3和0.9个百分点，但花费更低；相比gemini-3.1-pro-preview（75.2%，250.5元）和claude-opus-4.8-thinking（74.7%，238.2元），glm-5.2总分仍有差距，但成本不到这些高端闭源模型的一半。

新旧模型对比

智谱产品线明显上移：glm-5.2（73.0%，第9位）相比GLM-5.1（70.7%，第21位）提升2.3个百分点，排名提升12位；相比GLM-5（69.0%，第28位）提升4.0个百分点；相比GLM-4.7（67.3%，第36位）提升5.7个百分点。
产品线分层更清晰：当前榜单中，智谱AI模型从高到低依次是glm-5.2（73.0%，第9位）、GLM-5.1（70.7%，第21位）、GLM-5-Turbo（69.3%，第26位）、GLM-5（69.0%，第28位）、GLM-4.7（67.3%，第36位）。glm-5.2承担的是开源旗舰和长程任务模型角色，Turbo与旧版模型则更偏成本和通用补位。
放到近期新模型里看：glm-5.2（73.0%）低于qwen3.7-max（76.9%）、gpt-5.5（75.3%）、gemini-3.5-flash（73.9%）、qwen3.7-plus（73.5%）和qwen3.5-plus（73.3%），但高于kimi-k2.6（72.9%）、Doubao-Seed-2.0-pro（72.8%）、kimi-k2.7-code（72.6%）、deepseek-v4-pro（71.7%）和claude-opus-4.8（71.5%）。

开源VS闭源对比

开源阵营中的高分高成本模型：按榜单类别，glm-5.2属于开源模型。在开源模型中，它低于qwen3.5-plus（73.3%，22.9元），但高于kimi-k2.6（72.9%，100.4元）、kimi-k2.7-code（72.6%，49.7元）、deepseek-v4-pro（71.7%，54.3元）、Qwen3.5-122B-A10B（70.9%，32.3元）和Kimi-K2.5-Thinking（70.8%，77.1元）。
闭源头部仍有总分优势：qwen3.7-max（76.9%）、qwen3.6-max-preview（75.4%）、gpt-5.5（75.3%）、gemini-3.1-pro-preview（75.2%）、claude-opus-4.8-thinking（74.7%）排在glm-5.2之前。glm-5.2与这些模型的差距主要在1.7至3.9个百分点之间，并不算不可接近，但响应速度和成本结构各有取舍。
选型逻辑：看是否需要开放与长上下文。如果只看中文文本准确率，qwen3.5-plus、qwen3.7-plus等模型更便宜；如果需要开源权重、1M上下文、长程代码任务和本地/私有化部署，glm-5.2的定位就更清楚。它不是低成本模型，而是智谱AI在开源旗舰、代码Agent和长上下文方向上的一次上探。

3、官方评测

根据智谱AI官方博客（https://z.ai/blog/glm-5.2），GLM-5.2被定义为面向长程任务的最新旗舰模型。官方强调了稳定的1M token上下文、更强的长程编码能力等核心点。

长程编码任务

官方将GLM-5.2的第一重点放在long-horizon coding。博客提到，在FrontierSWE、PostTrainBench和SWE-Marathon三类长程编码基准上，GLM-5.2是排名最高的开源模型。其中，FrontierSWE衡量模型能否完成数小时到数十小时规模的开放技术项目；PostTrainBench关注模型在H100 GPU环境下改进小模型的能力；SWE-Marathon覆盖编译器构建、kernel优化、生产级服务开发等超长程软件工程任务。

具体数据上，官方披露GLM-5.2在FrontierSWE上的Dominance为74.4，接近Claude Opus 4.8的75.1，高于GPT-5.5的72.6和Claude Opus 4.7；PostTrainBench上GLM-5.2为34.3，低于Claude Opus 4.8的37.2，但高于GPT-5.5的28.4和Gemini 3.1 Pro的21.6；SWE-Marathon上GLM-5.2为13，低于Claude Opus 4.8的26，但高于GPT-5.5的12和Gemini 3.1 Pro的4。官方也坦诚，GLM-5.2在SWE-Marathon上相较Opus 4.8仍有提升空间。

标准Coding基准

在标准coding基准上，官方称GLM-5.2是最强开源模型，并相较GLM-5.1有明显改善。Terminal-Bench 2.1上，GLM-5.2取得81.0，GLM-5.1为63.5；SWE-bench Pro上，GLM-5.2为62.1，GLM-5.1为58.4。官方还给出了Claude Code环境下的Terminal-Bench 2.1最佳报告结果：GLM-5.2达到82.7，GLM-5.1为69.0，Claude Opus 4.8为78.9，GPT-5.5在Codex环境下为83.4。

Effort控制与Agentic能力

GLM-5.2引入了effort level control，允许用户在能力、执行速度和计算成本之间做显式取舍。官方称，在相近token预算下，GLM-5.2的Agentic Coding表现明显强于GLM-5.1，能力位置大致介于Claude Opus 4.7和Claude Opus 4.8之间；Max effort则可以在更难任务中投入更多计算，进一步提升代码能力。

官方完整表格中，MCP-Atlas Public Set上GLM-5.2为76.8，高于GLM-5.1的71.8，也接近Claude Opus 4.8的77.8；Tool-Decathlon上GLM-5.2为48.2，高于GLM-5.1的40.7，但低于Claude Opus 4.8的59.9和GPT-5.5的55.6。

非线智能官网https://nonelinear.com 已上线glm-5.2版，欢迎深度体验。同时，非线智能API可连接超480+全球模型，支持一键Api聚合以及Api中转，提供稳定的企业级服务。登录github账号，领20-50元体验金。接入glm-5.2就用非线智能API。

非线智能api 图 8