OpenAI近期发布了gpt-5.2版本,作为gpt-5系列的最新迭代。我们对gpt-5.2-medium(思考模式)与上一版本gpt-5.1-medium进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

gpt-5.2-medium版本表现:

  • 测试题数:约1.5万

  • 总分(准确率):64.3%

  • 平均耗时(每次调用):29s

  • 平均token(每次调用消耗的token):922

  • 平均花费(每千次调用的人民币花费):70.8

1、新旧版本对比

首先对比上个版本(gpt-5.1-medium),数据如下:

引自非线智能(GitHub 第一 AI 商业测评) - OpenAI gpt-5.2-medium实测引自非线智能(GitHub 第一 AI 商业测评) - OpenAI gpt-5.2-medium实测

*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格是"1元/M token "

  • 整体性能明显下滑:新版本总分准确率从69.3%下降至64.3%,下滑了5.0个百分点,排名从第7位大幅降至第38位,下降了31个位次。

  • 多数专业领域出现回落:推理与数学计算能力下降显著,从84.7%降至78.0%(-6.7%);语言与指令遵从从67.0%降至60.2%(-6.8%);Agent与工具调用从59.2%降至50.9%(-8.3%);法律与行政公务从75.0%降至71.0%(-4.0%)。

  • 响应速度大幅提升:平均耗时从160s大幅缩短至29s,提升了约82%,速度提升接近五倍,用户体验显著改善。

  • Token效率显著优化:每次调用的平均token消耗从1448降至922,减少了约36%,推理过程更加精简。

  • 成本有所下降:虽然输出价格从71.0元/M token上调至99.4元/M token,但由于token消耗减少,每千次调用的费用从87.9元降至70.8元,成本下降约19%。

2、对比其他新模型

在当前主流大模型竞争格局中,gpt-5.2-medium表现如何?我们选择了具有代表性的模型进行横向对比分析:

引自非线智能(GitHub 第一 AI 商业测评) - OpenAI gpt-5.2-medium实测

*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

  • 中高成本区间竞争力不足:gpt-5.2-medium每千次调用成本70.8元,处于中高成本区间,但从总分来看,64.3%的准确率在该成本段明显缺乏竞争力。

  • 相近成本下表现落后:从总分情况来看,ERNIE-5.0-Thinking-Preview(72.5元,67.5%)、qwen3-235b-a22b-thinking-2507(61.2元,65.5%)均以相近成本实现更高的总分准确率。

  • 低成本模型表现突出:qwen3-max-2025-09-23(23.4元,66.8%)以三分之一的成本实现更高准确率;DeepSeek-V3.2-Think(7.5元,70.9%)以不到十分之一的成本实现显著更高的准确率,成本效率比差距悬殊。

新旧模型对比

  • OpenAI产品线内部倒退:gpt-5.2-medium(64.3%)不仅低于gpt-5.1-medium(69.3%),也低于更早的o4-mini(69.0%)和gpt-5-2025-08-07(68.9%),在OpenAI自家产品线中处于较低位置。

  • 落后于主流厂商新品:gpt-5.2-medium(64.3%)在各厂商近期发布的新模型中处于中下游位置,低于Google的gemini-3-pro-preview(72.5%)、腾讯的hunyuan-2.0-thinking-20251109(71.9%)、深度求索的DeepSeek-V3.2-Think(70.9%)等主流新品。

  • 速度优势突出:29s的响应时间在所有对比模型中表现优异,仅次于hunyuan-2.0-thinking-20251109(28s),比自家gpt-5.1-medium(160s)快了五倍以上。

开源VS闭源对比:

  • 开源模型在本次评测中表现突出:DeepSeek-V3.2-Think(7.5元,70.9%)、DeepSeek-V3.2-Exp-Think(6.1元,70.1%)、GLM-4.6(37.6元,68.1%)等开源模型在总分准确率和成本两个维度均优于gpt-5.2-medium。

  • 准确率差距值得关注:在本次中文综合能力评测中,头部开源模型与gpt-5.2-medium的准确率差距达到4-6个百分点,但需注意本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同。

  • 速度优势明显:gpt-5.2-medium的29s响应时间是其核心竞争力之一,明显快于DeepSeek-V3.2-Think(144s)、qwen3-235b-a22b-thinking-2507(143s)等开源思考模型,在对延迟敏感的应用场景中仍具实用价值。




我们官网https://nonelinear.com/static/models.html已上线gpt-5.2-medium,欢迎对比体验。同时,非线智能API支持Api聚合以及Api中转,提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号,领50元体验金

大模型/agent评测技术交流:关注公众号,发送消息"进群"