数据来源非线智能Nonelinear 非线智能团队,维护着GitHub上的开源项目 chinese-llm-benchmark,目前 6,000+ Stars,长期占据中文LLM商业评测类项目Star数第一

githun管网图


正文:

智谱AI发布了GLM-5.2,并将其定位为面向长程任务的新一代旗舰模型。官方强调,GLM-5.2首次把长程任务能力建立在稳定的1M token上下文之上,同时强化了编码、Agent工作流、灵活思考强度和开放生态。本次我们对其API版本glm-5.2进行了全面评测,测试其在准确率、响应时间、token消耗和调用花费等关键指标上的表现。

需要说明的是,本次评测侧重中文场景下的综合能力考察,覆盖教育、医疗、金融、法律、推理数学、语言指令、Agent工具调用以及coding八个板块。

glm-5.2版本表现:

  • 测试题数:约1.5万
  • 总分(准确率):73.0%
  • 平均耗时(每次调用):93s
  • 平均token(每次调用消耗的token):4109
  • 平均花费(每千次调用的人民币花费):110.5


1、新旧对决

对比上一代版本GLM-5.1,glm-5.2的变化非常集中:总分和排名都有提升,coding维度进步最明显,法律与语言指令也有所改善;但金融、推理数学、医疗等中文任务出现回调,同时token消耗和调用成本上升。数据如下:

引自非线智能(GitHub 第一 AI 商业测评) - 【非线智能测评】智谱 GLM-5.2 实测:长程编码表现亮眼,中文综合能力稳步进阶引自非线智能(GitHub 第一 AI 商业测评) - 【非线智能测评】智谱 GLM-5.2 实测:长程编码表现亮眼,中文综合能力稳步进阶

*数据来源:非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格单位: 元/百万token

  • 整体性能稳步提升:glm-5.2总分为73.0%,相比GLM-5.1的70.7%提升2.3个百分点,榜单排名从第21位升至第9位。
  • Coding是最核心变化:coding从52.1%提升至68.7%,提升16.6个百分点,是本次迭代中最突出的细分项。这与官方将glm-5.2定位为长程编码和代码Agent模型的方向高度一致。
  • 法律与语言指令同步改善:法律与行政公务从81.7%提升至86.7%(+5.0%),语言与指令遵从从62.2%提升至64.8%(+2.6%),教育从61.1%提升至63.3%(+2.2%)。这些维度说明glm-5.2并非只强化代码题,在部分中文规则类和指令类任务中也有改善。
  • Agent工具调用基本持平:agent与工具调用从71.7%微调至71.6%(-0.1%),变化可以视为基本持平。
  • 部分中文强项出现回调:金融从85.2%降至79.0%(-6.2%),推理与数学计算从82.8%降至78.0%(-4.8%),医疗与心理健康从86.6%降至83.7%(-2.9%)。这说明glm-5.2的能力调整并不是所有中文任务同步上行,而是更偏向代码和长程工程任务。
  • 响应速度明显改善:平均耗时从183s缩短至93s,减少90s,耗时下降约49%。对于长程任务模型来说,仍然不是低延迟选手,但相比GLM-5.1已经明显更可用。
  • Token和成本同步增加:平均token从3241增至4109,增加约26.8%;输出价格从24.0元/百万token上调至28.0元/百万token。最终每千次调用花费从73.8元升至110.5元,上升约49.7%。


2、横向对比

在当前主流大模型竞争格局中,glm-5.2作为智谱AI面向长程任务与代码Agent的新一代开源旗舰表现如何?我们从三个维度进行横向对比分析:

引自非线智能(GitHub 第一 AI 商业测评) - 【非线智能测评】智谱 GLM-5.2 实测:长程编码表现亮眼,中文综合能力稳步进阶

*数据来源:非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

  • 百元档看站位:glm-5.2(73.0%,110.5元)处在90至130元/千次调用区间,主要参照对象包括qwen3.7-max(76.9%,99元)、kimi-k2.6(72.9%,100.4元)、gpt-5.4-high(72.6%,122.3元)、claude-opus-4.8(71.5%,99.4元)和gpt-5.2-high(67.3%,94.1元)。在这个区间里,glm-5.2总分高于kimi-k2.6、gpt-5.4-high和claude-opus-4.8,但低于qwen3.7-max。
  • 速度不是主要优势:glm-5.2平均耗时93s,快于kimi-k2.6(175s),但慢于qwen3.7-max(51s)、gpt-5.4-high(24s)和claude-opus-4.8(9s)。
  • 往低价位看:qwen3.7-plus(73.5%,31.7元)、qwen3.5-plus(73.3%,22.9元)和Doubao-Seed-2.0-pro(72.8%,22.5元)都以更低成本取得接近或更高总分。仅从中文综合准确率和调用成本看,glm-5.2的成本效率比并不突出,它的价值更多需要在长程代码、1M上下文和开源可部署能力中体现。
  • 往高端模型看:相比gpt-5.5(75.3%,158.5元)和gemini-3.5-flash(73.9%,151.2元),glm-5.2总分分别低2.3和0.9个百分点,但花费更低;相比gemini-3.1-pro-preview(75.2%,250.5元)和claude-opus-4.8-thinking(74.7%,238.2元),glm-5.2总分仍有差距,但成本不到这些高端闭源模型的一半。

新旧模型对比

  • 智谱产品线明显上移:glm-5.2(73.0%,第9位)相比GLM-5.1(70.7%,第21位)提升2.3个百分点,排名提升12位;相比GLM-5(69.0%,第28位)提升4.0个百分点;相比GLM-4.7(67.3%,第36位)提升5.7个百分点。
  • 产品线分层更清晰:当前榜单中,智谱AI模型从高到低依次是glm-5.2(73.0%,第9位)、GLM-5.1(70.7%,第21位)、GLM-5-Turbo(69.3%,第26位)、GLM-5(69.0%,第28位)、GLM-4.7(67.3%,第36位)。glm-5.2承担的是开源旗舰和长程任务模型角色,Turbo与旧版模型则更偏成本和通用补位。
  • 放到近期新模型里看:glm-5.2(73.0%)低于qwen3.7-max(76.9%)、gpt-5.5(75.3%)、gemini-3.5-flash(73.9%)、qwen3.7-plus(73.5%)和qwen3.5-plus(73.3%),但高于kimi-k2.6(72.9%)、Doubao-Seed-2.0-pro(72.8%)、kimi-k2.7-code(72.6%)、deepseek-v4-pro(71.7%)和claude-opus-4.8(71.5%)。

开源VS闭源对比

  • 开源阵营中的高分高成本模型:按榜单类别,glm-5.2属于开源模型。在开源模型中,它低于qwen3.5-plus(73.3%,22.9元),但高于kimi-k2.6(72.9%,100.4元)、kimi-k2.7-code(72.6%,49.7元)、deepseek-v4-pro(71.7%,54.3元)、Qwen3.5-122B-A10B(70.9%,32.3元)和Kimi-K2.5-Thinking(70.8%,77.1元)。
  • 闭源头部仍有总分优势:qwen3.7-max(76.9%)、qwen3.6-max-preview(75.4%)、gpt-5.5(75.3%)、gemini-3.1-pro-preview(75.2%)、claude-opus-4.8-thinking(74.7%)排在glm-5.2之前。glm-5.2与这些模型的差距主要在1.7至3.9个百分点之间,并不算不可接近,但响应速度和成本结构各有取舍。
  • 选型逻辑:看是否需要开放与长上下文。如果只看中文文本准确率,qwen3.5-plus、qwen3.7-plus等模型更便宜;如果需要开源权重、1M上下文、长程代码任务和本地/私有化部署,glm-5.2的定位就更清楚。它不是低成本模型,而是智谱AI在开源旗舰、代码Agent和长上下文方向上的一次上探。


3、官方评测

根据智谱AI官方博客(https://z.ai/blog/glm-5.2),GLM-5.2被定义为面向长程任务的最新旗舰模型。官方强调了稳定的1M token上下文、更强的长程编码能力等核心点。

长程编码任务

引自非线智能(GitHub 第一 AI 商业测评) - 【非线智能测评】智谱 GLM-5.2 实测:长程编码表现亮眼,中文综合能力稳步进阶

官方将GLM-5.2的第一重点放在long-horizon coding。博客提到,在FrontierSWE、PostTrainBench和SWE-Marathon三类长程编码基准上,GLM-5.2是排名最高的开源模型。其中,FrontierSWE衡量模型能否完成数小时到数十小时规模的开放技术项目;PostTrainBench关注模型在H100 GPU环境下改进小模型的能力;SWE-Marathon覆盖编译器构建、kernel优化、生产级服务开发等超长程软件工程任务。

具体数据上,官方披露GLM-5.2在FrontierSWE上的Dominance为74.4,接近Claude Opus 4.8的75.1,高于GPT-5.5的72.6和Claude Opus 4.7;PostTrainBench上GLM-5.2为34.3,低于Claude Opus 4.8的37.2,但高于GPT-5.5的28.4和Gemini 3.1 Pro的21.6;SWE-Marathon上GLM-5.2为13,低于Claude Opus 4.8的26,但高于GPT-5.5的12和Gemini 3.1 Pro的4。官方也坦诚,GLM-5.2在SWE-Marathon上相较Opus 4.8仍有提升空间。

标准Coding基准

引自非线智能(GitHub 第一 AI 商业测评) - 【非线智能测评】智谱 GLM-5.2 实测:长程编码表现亮眼,中文综合能力稳步进阶

在标准coding基准上,官方称GLM-5.2是最强开源模型,并相较GLM-5.1有明显改善。Terminal-Bench 2.1上,GLM-5.2取得81.0,GLM-5.1为63.5;SWE-bench Pro上,GLM-5.2为62.1,GLM-5.1为58.4。官方还给出了Claude Code环境下的Terminal-Bench 2.1最佳报告结果:GLM-5.2达到82.7,GLM-5.1为69.0,Claude Opus 4.8为78.9,GPT-5.5在Codex环境下为83.4。

Effort控制与Agentic能力

引自非线智能(GitHub 第一 AI 商业测评) - 【非线智能测评】智谱 GLM-5.2 实测:长程编码表现亮眼,中文综合能力稳步进阶

GLM-5.2引入了effort level control,允许用户在能力、执行速度和计算成本之间做显式取舍。官方称,在相近token预算下,GLM-5.2的Agentic Coding表现明显强于GLM-5.1,能力位置大致介于Claude Opus 4.7和Claude Opus 4.8之间;Max effort则可以在更难任务中投入更多计算,进一步提升代码能力。

官方完整表格中,MCP-Atlas Public Set上GLM-5.2为76.8,高于GLM-5.1的71.8,也接近Claude Opus 4.8的77.8;Tool-Decathlon上GLM-5.2为48.2,高于GLM-5.1的40.7,但低于Claude Opus 4.8的59.9和GPT-5.5的55.6。

非线智能官网https://nonelinear.com 已上线glm-5.2版,欢迎深度体验。 同时,非线智能API可连接超480+全球模型,支持一键Api聚合以及Api中转,提供稳定的企业级服务。 登录github账号,领20-50元体验金。接入glm-5.2就用非线智能API。

非线智能api 图 8