Grok-4-1-fast-reasoning实测 · 非线智能 NoneLinear

XAI近期发布了Grok-4-1-fast模型，官方定义为"针对高性能智能体工具调用进行优化的前沿多模态模型"。该模型支持思考模式（reasoning）和非思考模式（non-reasoning）两种版本。本次评测聚焦于思考模式版本grok-4-1-fast-reasoning，相比此前的grok-4-0709版本，新版本在响应速度上实现了显著优化，但在准确率方面出现了下降。我们对这两个版本进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

grok-4-1-fast-reasoning版本表现：

测试题数：约1.5万
【总分】准确率：64.3%
平均耗时（每次调用）：62s
平均消耗token（每次调用）：2492
花费/千次调用（元）：8.1

1、新旧版本对比

首先对比上个版本（grok-4-0709），数据如下：

引自非线智能（GitHub 第一 AI 商业测评） - Grok-4-1-fast-reasoning实测

*数据来源：ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

整体性能表现分化：新版本准确率从61.2%提升至64.3%，提升了3.1个百分点，排名从第44位上升到第29位，64.3%的准确率在当前竞争格局中处于中等偏上游水平。
推理能力大幅跃升，但其他领域普遍下滑：最显著的提升来自"推理与数学计算能力"，从63.7%跃升至78.1%，增幅达14.4个百分点，这与官方强调的"高性能"定位相符。然而，其他领域几乎全面下滑——"医疗与心理健康"下降4.7个百分点（75.0%→70.3%），"金融"下降4.5个百分点（75.1%→70.6%），"法律与行政公务"下降8.7个百分点（74.0%→65.3%），"语言与指令遵从"更是大幅下降11.8个百分点（64.6%→52.8%），表明新版本在优化推理能力的同时牺牲了其他专业领域的表现。
Agent能力显著增强：作为官方重点优化的方向，"agent与工具调用"能力从48.4%提升至65.4%，增幅达17.0个百分点，是除推理能力外提升最明显的领域，验证了"optimized for agentic tool calling"的产品定位。
速度大幅提升：每次调用的平均耗时从293s大幅缩短至62s，提速约78.8%，这是新版本最显著的优势之一，极大改善了用户体验。
成本控制成效显著：输出价格从108.75元/M token大幅下调至3.55元/M token，降幅达96.7%。尽管token消耗略有增加（2379→2492，+4.8%），但每千次调用的费用仍从241.5元暴降至8.1元，成本下降96.6%，实现了成本的革命性优化。

2、对比其他新模型

在当前主流大模型竞争格局中，grok-4-1-fast-reasoning表现如何？我们选择了具有代表性的21个模型进行横向对比分析：

*数据来源：ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比分析

8元成本档表现中等：在相近成本区间（5-10元/千次），grok-4-1-fast-reasoning（8.1元）的64.3%准确率低于DeepSeek-V3.2-Exp-Think（6.1元，70.1%）和hunyuan-t1-20250711（9.9元，67.3%），在这个成本带中缺乏竞争力。
性价比劣势明显：相比超高性价比模型hunyuan-turbos-20250926（2元，65.9%），grok新版本在成本高出3倍的情况下，准确率反而低1.6个百分点，从总分情况来看，性价比差距悬殊。

新旧模型对比

新模型整体领先：从榜单看，新发布的模型如gemini-3-pro-preview（72.5%）、DeepSeek-V3.2-Exp-Think（70.1%）、gpt-5.1-medium（69.3%）等均位居前列，而grok-4-1-fast-reasoning（64.3%）在新模型中排名靠后。
新版本定位差异化：不同于追求极致准确率的新模型，grok-4-1-fast-reasoning选择了"速度+成本"的优化路线，牺牲部分准确率换取79%的速度提升和96%的成本下降，体现了差异化的产品策略。

开源VS闭源对比

grok在闭源阵营中定位尴尬：作为闭源商用模型，grok-4-1-fast-reasoning的64.3%准确率不仅低于主流闭源模型（gemini、doubao、openAI系列均在68%以上），甚至不敌部分开源模型（DeepSeek-V3.2、GLM-4.6、Kimi-K2均在67%以上），在闭源阵营中处于相对弱势地位。
速度与准确率的权衡：开源thinking模型普遍耗时较长（DeepSeek-V3.2-Exp-Think 248s、Kimi-K2-Thinking 333s、qwen3-235b-a22b-thinking-2507 143s），而grok以62s的中等耗时在速度和准确率之间找到了相对平衡的位置，但这一平衡点并未带来竞争优势——既不如速度型模型快（hunyuan-turbos-20250926 23s、o4-mini 35s），也不如准确率型模型准（前述模型均在65.5%以上）。

我们官网https://nonelinear.com/static/models.html已上线grok-4-1-fast-reasoning，欢迎对比体验。同时，非线智能API支持Api聚合以及Api中转，提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号，领50元体验金

大模型/agent评测技术交流：关注公众号，发送消息"进群"