正文:
需要说明的是,本次评测侧重中文场景下的综合能力考察,评测维度覆盖教育、医疗、金融、法律、推理数学、语言指令、Agent工具调用以及coding八个板块。
claude-opus-4.8-thinking版本表现:
测试题数:约1.5万
总分(准确率):74.7%
平均耗时(每次调用):19s
平均token(每次调用消耗的token):1612
平均花费(每千次调用的人民币花费):238.2
1、模式对比
对比非思考模式claude-opus-4.8,claude-opus-4.8-thinking的变化非常鲜明:总分进入榜单前五,推理数学成为最大增量,但agent与工具调用出现明显回调,成本也同步上升。数据如下:


*数据来源:非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
*输出价格单位: 元/百万token
整体性能提升明确:thinking版本准确率从71.5%提升至74.7%,提升了3.2个百分点,排名从第13位升至第5位。
推理数学是最大增量:推理与数学计算从76.6%提升至89.9%,提升了13.3个百分点,是所有细分维度中变化最大的一项。这说明thinking模式直接的收益集中在需要多步推演、计算和复杂问题拆解的任务上。
教育和语言方面同步改善:教育从56.4%提升至62.7%(+6.3%),语言与指令遵从从64.0%提升至67.9%(+3.9%)。教育维度的改善幅度较明显,说明更长推理过程对知识理解和题目分解有帮助。
金融、医疗、法律稳步提升:金融从74.5%提升至78.2%(+3.7%),医疗与心理健康从82.1%提升至85.3%(+3.2%),法律与行政公务从79.0%提升至81.3%(+2.3%)。这些规则密集或专业知识密集型任务均有改善,但提升幅度低于推理数学。
Coding小幅上行:coding从69.5%提升至72.0%(+2.5%)。这说明thinking模式对代码相关任务有帮助。
Agent与工具调用出现回调:agent与工具调用从73.1%降至65.4%(-7.7%)。这一点值得单独看待:thinking模式增强了内部推理链路,但并不必然提升工具调用类任务。对Agent系统而言,更长的思考过程有时可能带来更复杂的中间决策,也可能影响工具选择、调用时机和指令执行的稳定性。
速度与成本代价明显:平均耗时从9s增至19s,增加10s;平均token从819增至1612,接近翻倍;每千次调用花费从99.4元增至238.2元,增加约140%。
2、横向对比
在当前主流大模型竞争格局中,claude-opus-4.8-thinking作为Claude Opus 4.8的思考模式表现如何?我们从三个维度进行横向对比分析:

*数据来源:非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
同成本档位对比
高成本档位的前列位置:claude-opus-4.8-thinking(74.7%,238.2元)处在当前榜单的高成本区间。同一区间直接的参照是gemini-3.1-pro-preview(75.2%,250.5元)和更高价位的claude-sonnet-4.5-thinking(66.2%,305.1元)。相比Gemini 3.1 Pro Preview,claude-opus-4.8-thinking总分低0.5个百分点,但平均耗时为19s,明显短于对方的53s;相比Claude Sonnet 4.5 Thinking,则在准确率和速度上都更占优。
与更低成本头部模型相比:qwen3.7-max(76.9%,99元)、qwen3.6-max-preview(75.4%,139.2元)和gpt-5.5(75.3%,158.5元)都以更低花费取得了更高总分。尤其是qwen3.7-max,花费不到claude-opus-4.8-thinking的一半,总分高2.2个百分点。因此,仅从中文综合准确率和调用成本看,claude-opus-4.8-thinking并不是当前头部模型中最经济的选择。
速度仍有竞争力:在总榜前五中,claude-opus-4.8-thinking的19s平均耗时低于qwen3.7-max(51s)、qwen3.6-max-preview(80s)和gemini-3.1-pro-preview(53s),但慢于gpt-5.5(15s)。这让它形成了一个比较特殊的位置:成本偏高,但在高能力模型中响应速度相对靠前。
低成本替代压力明显:qwen3.7-plus(73.5%,31.7元)、qwen3.5-plus(73.3%,22.9元)、Doubao-Seed-2.0-pro(72.8%,22.5元)等模型以远低于claude-opus-4.8-thinking的成本取得了接近的中文综合准确率。如果应用主要是中文文本任务,thinking模式的成本压力会比较直接;如果任务高度依赖复杂推理和稳定代码协作,才更适合考虑其额外开销。
模式与产品线对比
Thinking带来排名跃迁:claude-opus-4.8-thinking(74.7%)相比非思考模式claude-opus-4.8(71.5%)提升3.2个百分点,排名从第13位升至第5位。这说明同一模型打开思考模式后,中文综合评测中的位置明显上移。
代价同样清楚:非思考模式的优势是9s平均耗时和99.4元千次调用花费;thinking模式则变为19s和238.2元。两者不是简单的升级替代关系,而是两个不同使用档位:非思考模式适合高频、低延迟、多轮交互;thinking模式更适合难题、推理、专业问答和对准确率更敏感的场景。
Anthropic产品线位置上移:在当前榜单中,claude-opus-4.8-thinking(74.7%,第5位)明显高于claude-opus-4.8(71.5%,第13位)、claude-opus-4.6(70.0%,第22位)、claude-sonnet-4.5-thinking(66.2%,第43位)和claude-opus-4.5(64.2%,第56位)。
与近期头部模型对位:claude-opus-4.8-thinking低于qwen3.7-max(76.9%)、qwen3.6-max-preview(75.4%)、gpt-5.5(75.3%)和gemini-3.1-pro-preview(75.2%),但高于gemini-3.5-flash(73.9%)、qwen3.7-plus(73.5%)、qwen3.5-plus(73.3%)和kimi-k2.6(72.9%)。在中文综合评测中,它已经进入第一梯队。
开源VS闭源对比
闭源阵营第一梯队。claude-opus-4.8-thinking(74.7%)在闭源模型中位列前排,高于gemini-3.5-flash(73.9%)、Doubao-Seed-2.0-pro(72.8%)、gpt-5.4-high(72.6%)和claude-opus-4.8(71.5%)。但它仍低于qwen3.7-max、qwen3.6-max-preview、gpt-5.5和gemini-3.1-pro-preview。
开源阵营成本效率比仍强。qwen3.5-plus(73.3%,22.9元)、kimi-k2.6(72.9%,100.4元)、deepseek-v4-pro(71.7%,54.3元)、Qwen3.5-122B-A10B(70.9%,32.3元)等开源模型在成本上仍有明显优势。尤其是qwen3.5-plus,以不到十分之一的花费取得接近claude-opus-4.8-thinking的总分,说明开源阵营在中文综合任务上的成本效率仍然很强。
难题优先时更合理。claude-opus-4.8-thinking最突出的增益来自推理与数学计算,从76.6%提升至89.9%。因此,它更适合被放在难题处理、复杂推理、专业问答、代码分析等场景中,而不是作为所有请求默认调用的通用模型。对于常规中文问答或高频Agent工具调用,非思考模式或低成本模型可能更合适;对于真正需要推理深度的任务,thinking模式的额外成本才更容易被消化。
非线智能官网https://nonelinear.com 已上线claude-opus-4.8-thinking版,欢迎深度体验。 同时,非线智能API可连接超480+全球模型,支持一键Api聚合以及Api中转,提供稳定的企业级服务。 登录github账号,领20-50元体验金。接入claude-opus-4.8-thinking就用非线智能API。
