深度求索近期发布了DeepSeek-V3.2版本,除了备受关注的思考模式外,其非思考模式(下面的DeepSeek-V3.2均为非思考模式下的)同样值得关注。我们对新旧两个版本(DeepSeek-V3.2、DeepSeek-V3.2-Exp)进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。
DeepSeek-V3.2版本表现:
测试题数:约1.5万
总分(准确率):64.4%
平均耗时(每次调用):75s
平均token(每次调用消耗的token):853
平均花费(每千次调用所花费的人民币):2.4
1、新旧版本对比
首先对比上个版本(DeepSeek-V3.2-Exp的非思考模式),数据如下:


*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
*输出价格是"1元/M token "
整体性能出现回落:新版本准确率从66.3%下降至64.4%,下滑了1.9个百分点,排名从第23位跌至第34位,下降了11个名次。这一表现与思考模式的提升形成鲜明对比。
部分专业能力有所增强:从细分领域来看,新版本在"金融"领域从79.0%提升至81.8%(+2.8%),"法律与行政公务"从80.0%提升至82.7%(+2.7%),"推理与数学计算"从60.3%提升至62.1%(+1.8%),显示出在专业推理任务上的优化。
语言能力显著下降:最值得关注的是,"语言与指令遵从"能力从75.1%大幅下降至66.8%,降幅高达8.3个百分点,成为本次版本更新中最明显的短板。
工具调用能力减弱:"agent与工具调用"从53.9%下降至50.6%(-3.3%),在智能体应用场景中的表现有所退步。
响应速度大幅提升:每次调用的平均耗时从201s大幅缩短至75s,提升了约63%,这是本次更新最显著的改进点。
Token消耗增加但成本可控:每次调用平均消耗的token从692增加至853,增幅约23%。每千次调用的费用从1.9元小幅增加至2.4元,成本上升约26%,但绝对值仍处于较低水平。
2、对比其他模型
在当前主流大模型竞争格局中,DeepSeek-V3.2非思考模式表现如何?我们选择了具有代表性的模型进行横向对比分析:

*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
同成本档位对比:
低成本区间竞争激烈:在2-3元/千次的成本区间内,DeepSeek-V3.2(64.4%)面临较大压力。doubao-seed-1-6-lite-251015(3元,66.1%)高出1.7个百分点,hunyuan-turbos-20250926(2元,65.9%)高出1.5个百分点且成本更低。
与同门产品对比:DeepSeek-V3.1(6.5元,64.2%)准确率相近但成本更高,新版本在成本控制上仍有优势;但与DeepSeek-V3.1-Think(24.8元,67.7%)相比,思考模式的性能优势更加明显。
开源VS闭源对比:
开源阵营排名靠后:在开源模型中,DeepSeek-V3.2以64.4%的准确率排名相对靠后。Kimi-K2-Thinking(68.3%)领先3.9个百分点,GLM-4.6(68.1%)领先3.7个百分点。
与闭源模型差距明显:相比qwen3-max-preview(66.5%),落后2.1个百分点;相比doubao-seed-1-6-lite-251015(66.1%),落后1.7个百分点。在非思考模式下,从总分来看,开源与闭源的差距较为显著。
成本优势依然存在:2.4元/千次的成本在所有模型中处于较低水平,相比动辄几十上百元的闭源模型,仍具备一定的成本吸引力。
新模型竞争格局:
速度优势明显:75s的响应时间在非思考模型中表现优异,比hunyuan-turbos-20250926(23s)慢,比doubao-seed-1-6-lite-251015(79s)快一些,用户体验较好。
建议搭配思考模式使用:考虑到DeepSeek-V3.2-Think(70.9%,排名第3)的优异表现,对于需要高准确率的场景,建议优先选择思考模式;非思考模式更适合对速度敏感、准确率要求相对宽松的应用场景。
大模型/agent评测技术交流:关注公众号,发送消息"进群"