数据来源非线智能Nonelinear 非线智能团队,维护着GitHub上的开源项目 chinese-llm-benchmark,目前 6,000+ Stars,长期占据中文LLM商业评测类项目Star数第一

githun管网图正文:

在Claude Opus 4.8非思考模式评测之后,我们补充测试了其思考模式版本claude-opus-4.8-thinking。与非思考模式相比,thinking版本的核心变化并不只是"更慢一点、更准一点",而是把能力重心明显推向推理、知识密集任务和代码相关能力,同时付出更高的token消耗与调用花费。

需要说明的是,本次评测侧重中文场景下的综合能力考察,评测维度覆盖教育、医疗、金融、法律、推理数学、语言指令、Agent工具调用以及coding八个板块。

claude-opus-4.8-thinking版本表现:

  • 测试题数:约1.5万

  • 总分(准确率):74.7%

  • 平均耗时(每次调用):19s

  • 平均token(每次调用消耗的token):1612

  • 平均花费(每千次调用的人民币花费):238.2

1、模式对比

对比非思考模式claude-opus-4.8,claude-opus-4.8-thinking的变化非常鲜明:总分进入榜单前五,推理数学成为最大增量,但agent与工具调用出现明显回调,成本也同步上升。数据如下:

引自非线智能(GitHub 第一 AI 商业测评) - 【非线智能测评】Anthropic Claude Opus 4.8 思考模式实测:高额成本与Agent回调的权衡引自非线智能(GitHub 第一 AI 商业测评) - 【非线智能测评】Anthropic Claude Opus 4.8 思考模式实测:高额成本与Agent回调的权衡

*数据来源:非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格单位: 元/百万token

  • 整体性能提升明确:thinking版本准确率从71.5%提升至74.7%,提升了3.2个百分点,排名从第13位升至第5位。

  • 推理数学是最大增量:推理与数学计算从76.6%提升至89.9%,提升了13.3个百分点,是所有细分维度中变化最大的一项。这说明thinking模式直接的收益集中在需要多步推演、计算和复杂问题拆解的任务上。

  • 教育和语言方面同步改善:教育从56.4%提升至62.7%(+6.3%),语言与指令遵从从64.0%提升至67.9%(+3.9%)。教育维度的改善幅度较明显,说明更长推理过程对知识理解和题目分解有帮助。

  • 金融、医疗、法律稳步提升:金融从74.5%提升至78.2%(+3.7%),医疗与心理健康从82.1%提升至85.3%(+3.2%),法律与行政公务从79.0%提升至81.3%(+2.3%)。这些规则密集或专业知识密集型任务均有改善,但提升幅度低于推理数学。

  • Coding小幅上行:coding从69.5%提升至72.0%(+2.5%)。这说明thinking模式对代码相关任务有帮助。

  • Agent与工具调用出现回调:agent与工具调用从73.1%降至65.4%(-7.7%)。这一点值得单独看待:thinking模式增强了内部推理链路,但并不必然提升工具调用类任务。对Agent系统而言,更长的思考过程有时可能带来更复杂的中间决策,也可能影响工具选择、调用时机和指令执行的稳定性。

  • 速度与成本代价明显:平均耗时从9s增至19s,增加10s;平均token从819增至1612,接近翻倍;每千次调用花费从99.4元增至238.2元,增加约140%。

2、横向对比

在当前主流大模型竞争格局中,claude-opus-4.8-thinking作为Claude Opus 4.8的思考模式表现如何?我们从三个维度进行横向对比分析:

引自非线智能(GitHub 第一 AI 商业测评) - 【非线智能测评】Anthropic Claude Opus 4.8 思考模式实测:高额成本与Agent回调的权衡

*数据来源:非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

  • 高成本档位的前列位置:claude-opus-4.8-thinking(74.7%,238.2元)处在当前榜单的高成本区间。同一区间直接的参照是gemini-3.1-pro-preview(75.2%,250.5元)和更高价位的claude-sonnet-4.5-thinking(66.2%,305.1元)。相比Gemini 3.1 Pro Preview,claude-opus-4.8-thinking总分低0.5个百分点,但平均耗时为19s,明显短于对方的53s;相比Claude Sonnet 4.5 Thinking,则在准确率和速度上都更占优。

  • 与更低成本头部模型相比:qwen3.7-max(76.9%,99元)、qwen3.6-max-preview(75.4%,139.2元)和gpt-5.5(75.3%,158.5元)都以更低花费取得了更高总分。尤其是qwen3.7-max,花费不到claude-opus-4.8-thinking的一半,总分高2.2个百分点。因此,仅从中文综合准确率和调用成本看,claude-opus-4.8-thinking并不是当前头部模型中最经济的选择。

  • 速度仍有竞争力:在总榜前五中,claude-opus-4.8-thinking的19s平均耗时低于qwen3.7-max(51s)、qwen3.6-max-preview(80s)和gemini-3.1-pro-preview(53s),但慢于gpt-5.5(15s)。这让它形成了一个比较特殊的位置:成本偏高,但在高能力模型中响应速度相对靠前。

  • 低成本替代压力明显:qwen3.7-plus(73.5%,31.7元)、qwen3.5-plus(73.3%,22.9元)、Doubao-Seed-2.0-pro(72.8%,22.5元)等模型以远低于claude-opus-4.8-thinking的成本取得了接近的中文综合准确率。如果应用主要是中文文本任务,thinking模式的成本压力会比较直接;如果任务高度依赖复杂推理和稳定代码协作,才更适合考虑其额外开销。

模式与产品线对比

  • Thinking带来排名跃迁:claude-opus-4.8-thinking(74.7%)相比非思考模式claude-opus-4.8(71.5%)提升3.2个百分点,排名从第13位升至第5位。这说明同一模型打开思考模式后,中文综合评测中的位置明显上移。

  • 代价同样清楚:非思考模式的优势是9s平均耗时和99.4元千次调用花费;thinking模式则变为19s和238.2元。两者不是简单的升级替代关系,而是两个不同使用档位:非思考模式适合高频、低延迟、多轮交互;thinking模式更适合难题、推理、专业问答和对准确率更敏感的场景。

  • Anthropic产品线位置上移:在当前榜单中,claude-opus-4.8-thinking(74.7%,第5位)明显高于claude-opus-4.8(71.5%,第13位)、claude-opus-4.6(70.0%,第22位)、claude-sonnet-4.5-thinking(66.2%,第43位)和claude-opus-4.5(64.2%,第56位)。

  • 与近期头部模型对位:claude-opus-4.8-thinking低于qwen3.7-max(76.9%)、qwen3.6-max-preview(75.4%)、gpt-5.5(75.3%)和gemini-3.1-pro-preview(75.2%),但高于gemini-3.5-flash(73.9%)、qwen3.7-plus(73.5%)、qwen3.5-plus(73.3%)和kimi-k2.6(72.9%)。在中文综合评测中,它已经进入第一梯队。

开源VS闭源对比

  • 闭源阵营第一梯队。claude-opus-4.8-thinking(74.7%)在闭源模型中位列前排,高于gemini-3.5-flash(73.9%)、Doubao-Seed-2.0-pro(72.8%)、gpt-5.4-high(72.6%)和claude-opus-4.8(71.5%)。但它仍低于qwen3.7-max、qwen3.6-max-preview、gpt-5.5和gemini-3.1-pro-preview。

  • 开源阵营成本效率比仍强。qwen3.5-plus(73.3%,22.9元)、kimi-k2.6(72.9%,100.4元)、deepseek-v4-pro(71.7%,54.3元)、Qwen3.5-122B-A10B(70.9%,32.3元)等开源模型在成本上仍有明显优势。尤其是qwen3.5-plus,以不到十分之一的花费取得接近claude-opus-4.8-thinking的总分,说明开源阵营在中文综合任务上的成本效率仍然很强。

  • 难题优先时更合理。claude-opus-4.8-thinking最突出的增益来自推理与数学计算,从76.6%提升至89.9%。因此,它更适合被放在难题处理、复杂推理、专业问答、代码分析等场景中,而不是作为所有请求默认调用的通用模型。对于常规中文问答或高频Agent工具调用,非思考模式或低成本模型可能更合适;对于真正需要推理深度的任务,thinking模式的额外成本才更容易被消化。


非线智能官网https://nonelinear.com 已上线claude-opus-4.8-thinking版,欢迎深度体验。 同时,非线智能API可连接超480+全球模型,支持一键Api聚合以及Api中转,提供稳定的企业级服务。 登录github账号,领20-50元体验金。接入claude-opus-4.8-thinking就用非线智能API。

非线智能贴图5