月之暗面新发布了Kimi-K2.5-Thinking新版本,官方宣称这是"Kimi迄今最智能的模型",在Agent、代码、图像、视频及一系列通用智能任务上取得开源state-of-the-art表现。我们对新旧两个版本(Kimi-K2.5-Thinking、Kimi-K2-Thinking)进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

Kimi-K2.5-Thinking版本表现:

  • 测试题数:约1.5万

  • 总分(准确率):71.3%

  • 平均耗时(每次调用):338s

  • 平均token(每次调用消耗的token):3842

  • 平均花费(每千次调用的人民币花费):77.1

1、新旧版本对比

首先对比上个版本(Kimi-K2-Thinking),数据如下:

引自非线智能(GitHub 第一 AI 商业测评) - 月之暗面Kimi K2.5实测引自非线智能(GitHub 第一 AI 商业测评) - 月之暗面Kimi K2.5实测

*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格是"1元/M token "

  • 整体性能稳步提升:新版本准确率从68.3%提升至71.3%,增长了3.0个百分点,排名从第18位升至第8位。

  • 深度推理能力增强:K2-Thinking已经在复杂推理能力上取得了长足进展,而K2.5则更进一步,"推理与数学计算能力"从75.3%提升至78.0%(+2.7%),且多次测试结果更加稳定一致。K2.5在更多问题上展现出较强的泛化能力,原先K2-Thinking靠暴力搜索、消耗大量Token才勉强解决的问题,K2.5消耗都大幅降低。

  • 指令遵循能力完善:K2-Thinking的指令遵循有Kimi自己的想法,当时的表现不算好。K2.5则完善了这方面能力,"语言与指令遵从"从63.4%提升至72.1%(+8.7%),直接指令能够稳定执行,需要轻度推理的指令也没有问题。

  • 专业领域全面提升:从细分领域来看,新版本在大多数领域都实现了显著提升。"教育"领域从45.6%大幅提升至58.3%(+12.7%),"医疗与心理健康"从77.7%提升至87.7%(+10.0%),"金融"从71.9%提升至87.6%(+15.7%),"法律与行政公务"从72.3%提升至80.3%(+8.0%)。

  • Agent能力大幅滑坡:令人意外的是,官方主打的Agent能力在我们的测试中却出现了明显下降。"Agent与工具调用"从68.0%下滑至54.6%,降幅达13.4个百分点,与官方宣传形成鲜明对比。这一结果值得关注,可能与测试场景差异或模型调优方向有关。

  • Token消耗下降:每次调用平均消耗的token从5732降至3842,降幅约33%,体现了推理效率的提升。每千次调用的测试成本从89.2元降至77.1元,下降约13.6%。

  • 响应时间基本持平:新版本的平均耗时为338s,比旧版本的333s略有增加,整体差异不大。

2、对比其他新模型

在当前主流大模型竞争格局中,Kimi-K2.5-Thinking表现如何?我们选择了具有代表性的模型进行横向对比分析(本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同):

引自非线智能(GitHub 第一 AI 商业测评) - 月之暗面Kimi K2.5实测

*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

  • 同档位表现中等:77.1元/千次的成本在thinking模型中处于中等水平。对比成本相近的ERNIE-5.0(89.2元,70.9%),Kimi-K2.5-Thinking准确率略高0.4个百分点;与gpt-5.1-medium(87.9元,69.3%)相比,准确率优势更为明显(+2.0%)。

  • 与低成本高性能模型差距明显:hunyuan-2.0-thinking-20251109以9.5元的测试成本达到71.9%的准确率,比Kimi-K2.5-Thinking准确率还高0.6个百分点,测试成本却只有其1/8,效率差距显著。

新旧模型对比

  • 开源thinking模型中位居前列:从总分情况看,在开源thinking模型阵营中,Kimi-K2.5-Thinking排名第8位,超越了DeepSeek-V3.2-Think(70.9%,第10位)、qwen3-235b-a22b-thinking-2507(65.5%,第39位)等同类产品。

  • 与榜首模型仍有差距:对比排名第1的qwen3-max-think-2026-01-23(72.8%),差距1.5个百分点;与doubao-seed-1-8-251215(71.7%)相比也有0.4个百分点的差距。

开源VS闭源对比

  • 开源阵营表现优异:作为开源模型,Kimi-K2.5-Thinking的71.3%准确率在开源阵营中位居前列,与GLM-4.7(71.5%,智谱AI开源)基本持平,超越了DeepSeek-V3.2-Think(70.9%)等主要竞品。

  • 与闭源旗舰差距缩小:与闭源模型gemini-3-pro-preview(72.5%)、qwen3-max-think-2026-01-23(72.8%)相比,仍有1-1.5个百分点的差距,但开源与闭源的差距正在缩小。

  • 响应速度偏慢:338s的响应时间在thinking模型中偏长,明显慢于DeepSeek-V3.2-Think(144s)、hunyuan-2.0-thinking-20251109(28s)等竞品,用户体验有待优化。

3、官方评测

根据官方博客(https://www.kimi.com/blog/kimi-k2-5.html)披露的信息:

编程能力评测

引自非线智能(GitHub 第一 AI 商业测评) - 月之暗面Kimi K2.5实测

官方宣称K2.5的前端代码能力得到跨越式提升,可以从简单的自然语言对话生成完整的前端界面,支持交互式布局和滚动触发等动态效果。在内部Kimi Code Bench测试中,覆盖从构建到调试、重构、测试、脚本编写等端到端任务,跨多种编程语言,K2.5在各类任务上相比K2都有持续且显著的提升。

K2.5还支持视觉编程(coding with vision),通过对图像和视频进行推理,改进了图像/视频到代码的生成和视觉调试能力。

Agent Swarm评测

引自非线智能(GitHub 第一 AI 商业测评) - 月之暗面Kimi K2.5实测引自非线智能(GitHub 第一 AI 商业测评) - 月之暗面Kimi K2.5实测

这是K2.5的重磅功能。采用并行Agent强化学习(PARL)训练,模型可以自主调度最多100个子Agent,执行最多1500次工具调用的并行工作流,无需预定义子Agent或手工设计工作流。

引自非线智能(GitHub 第一 AI 商业测评) - 月之暗面Kimi K2.5实测

官方评测显示,相比单Agent设置,Agent Swarm可减少最多80%的端到端运行时间,在宽搜索场景下达到目标性能所需的最小关键步骤减少3×-4.5×,通过并行化实现最多4.5×的实际时间缩减。

办公生产力评测

引自非线智能(GitHub 第一 AI 商业测评) - 月之暗面Kimi K2.5实测

官方设计了两个内部专家生产力基准:AI Office Benchmark评估端到端Office输出质量,General Agent Benchmark衡量多步骤生产级工作流与人类专家表现的对比。

评测结果显示,K2.5相比K2 Thinking在AI Office基准上提升了59.3%,在通用Agent基准上提升了24.3%。支持Word批注、Excel数据透视表、PDF中的LaTeX公式等高级功能,可扩展到万字论文或百页文档的长篇输出。

主要基准测试成绩

引自非线智能(GitHub 第一 AI 商业测评) - 月之暗面Kimi K2.5实测

官方公布的数据显示,Kimi K2.5在多个基准测试中表现亮眼,在Agent、图像、视频三大维度均展现出较强的竞争力。




我们非线智能官网https://nonelinear.com/static/models.html已上线Kimi-K2.5-Thinking,欢迎对比体验。同时,非线智能API支持Api聚合以及Api中转,提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号,领50元体验金

大模型/agent评测技术交流:关注公众号,发送消息"进群"