月之暗面Kimi K2.5实测 · 非线智能 NoneLinear

月之暗面新发布了Kimi-K2.5-Thinking新版本，官方宣称这是"Kimi迄今最智能的模型"，在Agent、代码、图像、视频及一系列通用智能任务上取得开源state-of-the-art表现。我们对新旧两个版本（Kimi-K2.5-Thinking、Kimi-K2-Thinking）进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

Kimi-K2.5-Thinking版本表现：

测试题数：约1.5万
总分（准确率）：71.3%
平均耗时（每次调用）：338s
平均token（每次调用消耗的token）：3842
平均花费（每千次调用的人民币花费）：77.1

1、新旧版本对比

首先对比上个版本（Kimi-K2-Thinking），数据如下：

引自非线智能（GitHub 第一 AI 商业测评） - 月之暗面Kimi K2.5实测

*数据来源：ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格是"1元/M token "

整体性能稳步提升：新版本准确率从68.3%提升至71.3%，增长了3.0个百分点，排名从第18位升至第8位。
深度推理能力增强：K2-Thinking已经在复杂推理能力上取得了长足进展，而K2.5则更进一步，"推理与数学计算能力"从75.3%提升至78.0%（+2.7%），且多次测试结果更加稳定一致。K2.5在更多问题上展现出较强的泛化能力，原先K2-Thinking靠暴力搜索、消耗大量Token才勉强解决的问题，K2.5消耗都大幅降低。
指令遵循能力完善：K2-Thinking的指令遵循有Kimi自己的想法，当时的表现不算好。K2.5则完善了这方面能力，"语言与指令遵从"从63.4%提升至72.1%（+8.7%），直接指令能够稳定执行，需要轻度推理的指令也没有问题。
专业领域全面提升：从细分领域来看，新版本在大多数领域都实现了显著提升。"教育"领域从45.6%大幅提升至58.3%（+12.7%），"医疗与心理健康"从77.7%提升至87.7%（+10.0%），"金融"从71.9%提升至87.6%（+15.7%），"法律与行政公务"从72.3%提升至80.3%（+8.0%）。
Agent能力大幅滑坡：令人意外的是，官方主打的Agent能力在我们的测试中却出现了明显下降。"Agent与工具调用"从68.0%下滑至54.6%，降幅达13.4个百分点，与官方宣传形成鲜明对比。这一结果值得关注，可能与测试场景差异或模型调优方向有关。
Token消耗下降：每次调用平均消耗的token从5732降至3842，降幅约33%，体现了推理效率的提升。每千次调用的测试成本从89.2元降至77.1元，下降约13.6%。
响应时间基本持平：新版本的平均耗时为338s，比旧版本的333s略有增加，整体差异不大。

2、对比其他新模型

在当前主流大模型竞争格局中，Kimi-K2.5-Thinking表现如何？我们选择了具有代表性的模型进行横向对比分析（本评测侧重中文场景，模型在其他语言和专业领域的表现可能有所不同）：

*数据来源：ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

同档位表现中等：77.1元/千次的成本在thinking模型中处于中等水平。对比成本相近的ERNIE-5.0（89.2元，70.9%），Kimi-K2.5-Thinking准确率略高0.4个百分点；与gpt-5.1-medium（87.9元，69.3%）相比，准确率优势更为明显（+2.0%）。
与低成本高性能模型差距明显：hunyuan-2.0-thinking-20251109以9.5元的测试成本达到71.9%的准确率，比Kimi-K2.5-Thinking准确率还高0.6个百分点，测试成本却只有其1/8，效率差距显著。

新旧模型对比

开源thinking模型中位居前列：从总分情况看，在开源thinking模型阵营中，Kimi-K2.5-Thinking排名第8位，超越了DeepSeek-V3.2-Think（70.9%，第10位）、qwen3-235b-a22b-thinking-2507（65.5%，第39位）等同类产品。
与榜首模型仍有差距：对比排名第1的qwen3-max-think-2026-01-23（72.8%），差距1.5个百分点；与doubao-seed-1-8-251215（71.7%）相比也有0.4个百分点的差距。

开源VS闭源对比

开源阵营表现优异：作为开源模型，Kimi-K2.5-Thinking的71.3%准确率在开源阵营中位居前列，与GLM-4.7（71.5%，智谱AI开源）基本持平，超越了DeepSeek-V3.2-Think（70.9%）等主要竞品。
与闭源旗舰差距缩小：与闭源模型gemini-3-pro-preview（72.5%）、qwen3-max-think-2026-01-23（72.8%）相比，仍有1-1.5个百分点的差距，但开源与闭源的差距正在缩小。
响应速度偏慢：338s的响应时间在thinking模型中偏长，明显慢于DeepSeek-V3.2-Think（144s）、hunyuan-2.0-thinking-20251109（28s）等竞品，用户体验有待优化。

3、官方评测

根据官方博客（https://www.kimi.com/blog/kimi-k2-5.html）披露的信息：

编程能力评测

官方宣称K2.5的前端代码能力得到跨越式提升，可以从简单的自然语言对话生成完整的前端界面，支持交互式布局和滚动触发等动态效果。在内部Kimi Code Bench测试中，覆盖从构建到调试、重构、测试、脚本编写等端到端任务，跨多种编程语言，K2.5在各类任务上相比K2都有持续且显著的提升。

K2.5还支持视觉编程（coding with vision），通过对图像和视频进行推理，改进了图像/视频到代码的生成和视觉调试能力。

Agent Swarm评测

这是K2.5的重磅功能。采用并行Agent强化学习（PARL）训练，模型可以自主调度最多100个子Agent，执行最多1500次工具调用的并行工作流，无需预定义子Agent或手工设计工作流。

官方评测显示，相比单Agent设置，Agent Swarm可减少最多80%的端到端运行时间，在宽搜索场景下达到目标性能所需的最小关键步骤减少3×-4.5×，通过并行化实现最多4.5×的实际时间缩减。

办公生产力评测

官方设计了两个内部专家生产力基准：AI Office Benchmark评估端到端Office输出质量，General Agent Benchmark衡量多步骤生产级工作流与人类专家表现的对比。

评测结果显示，K2.5相比K2 Thinking在AI Office基准上提升了59.3%，在通用Agent基准上提升了24.3%。支持Word批注、Excel数据透视表、PDF中的LaTeX公式等高级功能，可扩展到万字论文或百页文档的长篇输出。

主要基准测试成绩

官方公布的数据显示，Kimi K2.5在多个基准测试中表现亮眼，在Agent、图像、视频三大维度均展现出较强的竞争力。

我们非线智能官网https://nonelinear.com/static/models.html已上线Kimi-K2.5-Thinking，欢迎对比体验。同时，非线智能API支持Api聚合以及Api中转，提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号，领50元体验金

大模型/agent评测技术交流：关注公众号，发送消息"进群"