DeepSeek-V3.2非思考模式实测 · 非线智能 NoneLinear

深度求索近期发布了DeepSeek-V3.2版本，除了备受关注的思考模式外，其非思考模式（下面的DeepSeek-V3.2均为非思考模式下的）同样值得关注。我们对新旧两个版本（DeepSeek-V3.2、DeepSeek-V3.2-Exp）进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

DeepSeek-V3.2版本表现：

测试题数：约1.5万
总分（准确率）：64.4%
平均耗时（每次调用）：75s
平均token（每次调用消耗的token）：853
平均花费（每千次调用所花费的人民币）：2.4

1、新旧版本对比

首先对比上个版本（DeepSeek-V3.2-Exp的非思考模式），数据如下：

引自非线智能（GitHub 第一 AI 商业测评） - DeepSeek-V3.2非思考模式实测

*数据来源：ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格是"1元/M token "

整体性能出现回落：新版本准确率从66.3%下降至64.4%，下滑了1.9个百分点，排名从第23位跌至第34位，下降了11个名次。这一表现与思考模式的提升形成鲜明对比。
部分专业能力有所增强：从细分领域来看，新版本在"金融"领域从79.0%提升至81.8%（+2.8%），"法律与行政公务"从80.0%提升至82.7%（+2.7%），"推理与数学计算"从60.3%提升至62.1%（+1.8%），显示出在专业推理任务上的优化。
语言能力显著下降：最值得关注的是，"语言与指令遵从"能力从75.1%大幅下降至66.8%，降幅高达8.3个百分点，成为本次版本更新中最明显的短板。
工具调用能力减弱："agent与工具调用"从53.9%下降至50.6%（-3.3%），在智能体应用场景中的表现有所退步。
响应速度大幅提升：每次调用的平均耗时从201s大幅缩短至75s，提升了约63%，这是本次更新最显著的改进点。
Token消耗增加但成本可控：每次调用平均消耗的token从692增加至853，增幅约23%。每千次调用的费用从1.9元小幅增加至2.4元，成本上升约26%，但绝对值仍处于较低水平。

2、对比其他模型

在当前主流大模型竞争格局中，DeepSeek-V3.2非思考模式表现如何？我们选择了具有代表性的模型进行横向对比分析：

*数据来源：ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比：

低成本区间竞争激烈：在2-3元/千次的成本区间内，DeepSeek-V3.2（64.4%）面临较大压力。doubao-seed-1-6-lite-251015（3元，66.1%）高出1.7个百分点，hunyuan-turbos-20250926（2元，65.9%）高出1.5个百分点且成本更低。
与同门产品对比：DeepSeek-V3.1（6.5元，64.2%）准确率相近但成本更高，新版本在成本控制上仍有优势；但与DeepSeek-V3.1-Think（24.8元，67.7%）相比，思考模式的性能优势更加明显。

开源VS闭源对比：

开源阵营排名靠后：在开源模型中，DeepSeek-V3.2以64.4%的准确率排名相对靠后。Kimi-K2-Thinking（68.3%）领先3.9个百分点，GLM-4.6（68.1%）领先3.7个百分点。
与闭源模型差距明显：相比qwen3-max-preview（66.5%），落后2.1个百分点；相比doubao-seed-1-6-lite-251015（66.1%），落后1.7个百分点。在非思考模式下，从总分来看，开源与闭源的差距较为显著。
成本优势依然存在：2.4元/千次的成本在所有模型中处于较低水平，相比动辄几十上百元的闭源模型，仍具备一定的成本吸引力。

新模型竞争格局：

速度优势明显：75s的响应时间在非思考模型中表现优异，比hunyuan-turbos-20250926（23s）慢，比doubao-seed-1-6-lite-251015（79s）快一些，用户体验较好。
建议搭配思考模式使用：考虑到DeepSeek-V3.2-Think（70.9%，排名第3）的优异表现，对于需要高准确率的场景，建议优先选择思考模式；非思考模式更适合对速度敏感、准确率要求相对宽松的应用场景。

我们官网https://nonelinear.com/static/models.html已上线DeepSeek-V3.2，欢迎对比体验。同时，非线智能API支持Api聚合以及Api中转，提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号，领50元体验金

大模型/agent评测技术交流：关注公众号，发送消息"进群"