美团LongCat-Flash-Thinking-2601实测 · 非线智能 NoneLinear

美团近期发布了LongCat-Flash-Thinking-2601模型，作为一款基于MoE架构的5600亿参数大型推理模型，官方宣称其在智能体任务上有显著提升。我们对该模型进行了全面评测，测试其在准确率、响应时间、token消耗等关键指标上的实际表现。

LongCat-Flash-Thinking-2601版本表现：

测试题数：约1.5万
总分（准确率）：66.8%
平均耗时（每次调用）：376s
平均token（每次调用消耗的token）：4484
平均花费（每千次调用的人民币花费）：0（免费）

1、对比同类免费思考模型

由于LongCat-Flash-Thinking-2601是美团首个上榜模型，没有历史版本可供对比。我们选择同样免费的思考模型智谱GLM-4.5-Flash作为参照，数据如下：

引自非线智能（GitHub 第一 AI 商业测评） - 美团LongCat-Flash-Thinking-2601实测

*数据来源：ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格是"1元/M token "

准确率优势明显：LongCat-Flash-Thinking-2601以66.8%的准确率超越GLM-4.5-Flash的63.0%，领先3.8个百分点。
教育领域差距大：在细分能力上，最显著的差异出现在"教育"领域，LongCat-Flash-Thinking-2601以47.3%大幅领先GLM-4.5-Flash的29.6%，差距达17.7个百分点，表明其在知识问答类任务上有更强的理解能力。
医疗与金融能力突出：LongCat-Flash-Thinking-2601在"医疗与心理健康"（78.5% vs 73.3%）和"金融"（79.8% vs 70.3%）两个领域分别领先5.2和9.5个百分点，专业领域的表现更好。
推理能力差距显著：在"推理与数学计算"方面，LongCat-Flash-Thinking-2601以72.8%超越GLM-4.5-Flash的61.5%，领先11.3个百分点，体现了思维链训练带来的推理增强效果。
语言理解能力略逊：值得注意的是，在"语言与指令遵从"维度上，LongCat-Flash-Thinking-2601以56.5%落后于GLM-4.5-Flash的65.5%，差距达9.0个百分点，这表明在精确指令执行方面仍有优化空间。
响应速度显著偏慢：LongCat-Flash-Thinking-2601平均耗时376s，是GLM-4.5-Flash（63s）的约6倍。这一响应时间在实际应用中可能影响用户体验，尤其是对于需要快速交互的场景。
Token消耗更高：LongCat-Flash-Thinking-2601每次调用平均消耗4484个token，比GLM-4.5-Flash的3171高出约41%，反映出其更深度的思维链推理过程。

2、对比其他新模型

在当前主流大模型竞争格局中，LongCat-Flash-Thinking-2601表现如何？我们选择了具有代表性的模型进行横向对比分析：

*数据来源：ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

免费模型中的竞争者：作为免费模型，LongCat-Flash-Thinking-2601在成本上具有天然优势。但在免费或低成本区间，豆包doubao-seed-1-8-251215以71.7%的准确率和7.3元/千次的成本表现更为均衡。
时间效率待提升：虽然完全免费，但376s的响应时间大幅拉长了单次任务的等待成本。相比之下，grok-4-1-fast-reasoning在64.3%准确率档位，却仅需62s响应时间和8.1元/千次成本，时间效率更高。

新旧模型对比

与顶尖模型差距明显：当前榜首gemini-3-pro-preview以72.5%准确率领先LongCat-Flash-Thinking-2601约5.7个百分点，且响应时间仅64s，综合体验更优。
思考模型赛道竞争激烈：在思考类模型中，腾讯hunyuan-2.0-thinking-20251109以71.9%准确率、28s响应时间和9.5元/千次成本，在各维度都优于LongCat-Flash-Thinking-2601。豆包doubao-seed-1-6-thinking-250715更是以71.7%准确率和37s响应时间成为该赛道的标杆。
智谱产品线对比：相比智谱的GLM-4.7（68.1%，59s，37.6元）和GLM-4.6（68.1%，59s，37.6元），LongCat-Flash-Thinking-2601在准确率上略有差距，但免费策略形成差异化竞争。

开源VS闭源对比

开源阵营中等水平：作为开源模型，LongCat-Flash-Thinking-2601的66.8%准确率在开源模型中处于中等偏上位置，超越了DeepSeek-R1-0528（65.9%）和qwen3-235b-a22b-thinking-2507（65.5%）。
与闭源头部差距存在：对比商用闭源模型如o4-mini（69.0%，35s）和gpt-5-2025-08-07（68.9%，72s），LongCat-Flash-Thinking-2601在准确率和响应速度上仍存在差距，但免费使用策略为开发者提供了低门槛的尝试机会。
DeepSeek系列表现更优：同为开源的DeepSeek-V3.2-Think（70.9%，144s）和DeepSeek-V3.2-Exp-Think（70.1%，248s）在准确率上明显领先，尽管响应时间也较长。

3、官方评测

根据官方页面披露的信息，LongCat-Flash-Thinking-2601在官方评测中展现了以下特点：

架构与训练特色

大规模MoE架构：模型总参数5600亿，激活参数270亿，采用混合专家架构实现高效推理。
多环境强化学习：官方强调通过环境扩展和多环境强化学习增强智能体思考能力，每个训练环境包含60+工具形成的依赖图谱。
噪声鲁棒训练：针对真实世界任务中的不确定性，采用课程学习策略逐步增加环境噪声类型和强度，提升模型在非理想条件下的稳定性。

官方基准表现

代码能力：LCB评测82.8%，OIBench EN评测47.7%，与GLM-4.7-Thinking（84.8%、30.8%）和DeepSeek-V3.2-Thinking（82.4%、43.3%）处于同一水平。
数学推理：AIME-25评测中标准模式99.6%、重思维模式达到100%满分，IMO-AnswerBench标准模式78.6%、重思维模式86.8%，数学能力是该模型的强项。
智能体工具调用：τ²-Bench平均88.2%，VitaBench达29.3%，在工具调用任务上表现较好。
智能体搜索：BrowseComp评测56.6%（含上下文管理技术后达73.1%），RW Search评测79.5%，搜索能力在对比模型中处于前列。

我们非线智能官网https://nonelinear.com/static/models.html已上线LongCat-Flash-Thinking-2601，欢迎对比体验。同时，非线智能API支持Api聚合以及Api中转，提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号，领50元体验金

大模型/agent评测技术交流：关注公众号，发送消息"进群"