OpenAI gpt-5.2-medium实测 · 非线智能 NoneLinear

OpenAI近期发布了gpt-5.2版本，作为gpt-5系列的最新迭代。我们对gpt-5.2-medium（思考模式）与上一版本gpt-5.1-medium进行了全面对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

gpt-5.2-medium版本表现：

测试题数：约1.5万
总分（准确率）：64.3%
平均耗时（每次调用）：29s
平均token（每次调用消耗的token）：922
平均花费（每千次调用的人民币花费）：70.8

1、新旧版本对比

首先对比上个版本（gpt-5.1-medium），数据如下：

引自非线智能（GitHub 第一 AI 商业测评） - OpenAI gpt-5.2-medium实测

*数据来源：ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格是"1元/M token "

整体性能明显下滑：新版本总分准确率从69.3%下降至64.3%，下滑了5.0个百分点，排名从第7位大幅降至第38位，下降了31个位次。
多数专业领域出现回落：推理与数学计算能力下降显著，从84.7%降至78.0%（-6.7%）；语言与指令遵从从67.0%降至60.2%（-6.8%）；Agent与工具调用从59.2%降至50.9%（-8.3%）；法律与行政公务从75.0%降至71.0%（-4.0%）。
响应速度大幅提升：平均耗时从160s大幅缩短至29s，提升了约82%，速度提升接近五倍，用户体验显著改善。
Token效率显著优化：每次调用的平均token消耗从1448降至922，减少了约36%，推理过程更加精简。
成本有所下降：虽然输出价格从71.0元/M token上调至99.4元/M token，但由于token消耗减少，每千次调用的费用从87.9元降至70.8元，成本下降约19%。

2、对比其他新模型

在当前主流大模型竞争格局中，gpt-5.2-medium表现如何？我们选择了具有代表性的模型进行横向对比分析：

*数据来源：ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比：

中高成本区间竞争力不足：gpt-5.2-medium每千次调用成本70.8元，处于中高成本区间，但从总分来看，64.3%的准确率在该成本段明显缺乏竞争力。
相近成本下表现落后：从总分情况来看，ERNIE-5.0-Thinking-Preview（72.5元，67.5%）、qwen3-235b-a22b-thinking-2507（61.2元，65.5%）均以相近成本实现更高的总分准确率。
低成本模型表现突出：qwen3-max-2025-09-23（23.4元，66.8%）以三分之一的成本实现更高准确率；DeepSeek-V3.2-Think（7.5元，70.9%）以不到十分之一的成本实现显著更高的准确率，成本效率比差距悬殊。

新旧模型对比：

OpenAI产品线内部倒退：gpt-5.2-medium（64.3%）不仅低于gpt-5.1-medium（69.3%），也低于更早的o4-mini（69.0%）和gpt-5-2025-08-07（68.9%），在OpenAI自家产品线中处于较低位置。
落后于主流厂商新品：gpt-5.2-medium（64.3%）在各厂商近期发布的新模型中处于中下游位置，低于Google的gemini-3-pro-preview（72.5%）、腾讯的hunyuan-2.0-thinking-20251109（71.9%）、深度求索的DeepSeek-V3.2-Think（70.9%）等主流新品。
速度优势突出：29s的响应时间在所有对比模型中表现优异，仅次于hunyuan-2.0-thinking-20251109（28s），比自家gpt-5.1-medium（160s）快了五倍以上。

开源VS闭源对比：

开源模型在本次评测中表现突出：DeepSeek-V3.2-Think（7.5元，70.9%）、DeepSeek-V3.2-Exp-Think（6.1元，70.1%）、GLM-4.6（37.6元，68.1%）等开源模型在总分准确率和成本两个维度均优于gpt-5.2-medium。
准确率差距值得关注：在本次中文综合能力评测中，头部开源模型与gpt-5.2-medium的准确率差距达到4-6个百分点，但需注意本评测侧重中文场景，模型在其他语言和专业领域的表现可能有所不同。
速度优势明显：gpt-5.2-medium的29s响应时间是其核心竞争力之一，明显快于DeepSeek-V3.2-Think（144s）、qwen3-235b-a22b-thinking-2507（143s）等开源思考模型，在对延迟敏感的应用场景中仍具实用价值。

我们官网https://nonelinear.com/static/models.html已上线gpt-5.2-medium，欢迎对比体验。同时，非线智能API支持Api聚合以及Api中转，提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号，领50元体验金

大模型/agent评测技术交流：关注公众号，发送消息"进群"