XAI近期发布的Grok-4-1-fast模型支持思考模式(reasoning)和非思考模式(non-reasoning)两种版本。本次评测聚焦于非思考模式版本grok-4-1-fast-non-reasoning,相比此前的grok-3-mini版本,新版本在成本控制上实现了突破性优化,但在准确率方面却出现了大幅下滑。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

grok-4-1-fast-non-reasoning版本表现:

  • 测试题数:约1.5万

  • 【总分】准确率:47.6%

  • 平均耗时(每次调用):60s

  • 平均消耗token(每次调用):685

  • 花费/千次调用(元):1.6

1、新旧版本对比

首先对比上个版本(grok-3-mini),数据如下:

引自非线智能(GitHub 第一 AI 商业测评) - Grok-4-1-fast-non-reasoning实测引自非线智能(GitHub 第一 AI 商业测评) - Grok-4-1-fast-non-reasoning实测

*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

  • 整体性能大幅倒退:新版本准确率从61.7%骤降至47.6%,下降了14.1个百分点,这是一次令人意外的性能倒退。

  • 所有领域全面下滑:从细分领域看,新版本在所有维度都出现了显著下降。下降最严重的是"语言与指令遵从",从68.3%暴跌至44.0%,降幅达24.3个百分点;"推理与数学计算"从62.9%降至45.1%,下降17.8个百分点;"医疗与心理健康"从65.8%降至51.4%,下降14.4个百分点;"金融"从62.4%降至51.5%,下降10.9个百分点;"法律与行政公务"从64.0%降至50.7%,下降13.3个百分点;"教育"从36.7%降至25.9%,下降10.8个百分点。

  • Agent能力微弱优势:唯一的亮点是"agent与工具调用"能力略有下降但相对稳定,从59.7%降至57.0%,仅下降2.7个百分点,这与官方强调的"针对智能体工具调用优化"定位基本吻合,但整体表现依然不佳。

  • 速度显著提升:每次调用的平均耗时从182s大幅缩短至60s,提速约67%,这是新版本为数不多的优势之一。

  • 成本控制突破性进展:输出价格从3.625元/M token略降至3.55元/M token。得益于token消耗的大幅减少,每千次调用的费用从5.2元暴降至1.6元,成本下降约69%。

2、对比其他新模型

在当前主流大模型竞争格局中,grok-4-1-fast-non-reasoning表现如何?我们选择了具有代表性的模型进行横向对比分析:

引自非线智能(GitHub 第一 AI 商业测评) - Grok-4-1-fast-non-reasoning实测

*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比分析

  • 超低价档垫底表现:在1-3元/千次的超低成本区间,grok-4-1-fast-non-reasoning(1.6元)的47.6%准确率远低于同档位的hunyuan-turbos-20250926(2元,65.9%),准确率差距高达18.3个百分点,即使在超低价市场也毫无竞争力。

  • 性价比严重失衡:相比成本略高的grok-3-mini(5.2元,61.7%),新版本虽然成本降低69%,但准确率下降14.1个百分点,这种以性能换成本的策略走向了极端,导致产品实用价值大幅缩水。

新旧模型对比

  • 新模型质量分化严重:从榜单看,标注(new)的最新模型表现两极分化——顶部的gemini-3-pro-preview(72.5%)、DeepSeek-V3.2-Exp-Think(70.1%)、gpt-5.1-medium(69.3%)等代表了技术前沿,而grok-4-1-fast-non-reasoning(47.6%)则垫底于新模型阵营,显示出产品策略的巨大差异。

  • 极端成本优化策略:新版本选择了极端的"成本优先"路线,以牺牲准确率换取成本优势,但47.6%的准确率已接近"不可用"门槛,这种策略的市场前景值得怀疑。

开源VS闭源对比

  • 闭源模型中的异类:作为闭源商用模型,grok-4-1-fast-non-reasoning的47.6%准确率不仅远低于主流闭源模型(gemini、doubao、openAI系列均在63%以上),甚至大幅落后于几乎所有开源模型,在闭源阵营中处于极度弱势地位。

  • 开源模型碾压性优势:即使是非thinking模式的开源模型,如DeepSeek-V3.1(64.2%,6.5元),其准确率也比grok-4-1-fast-non-reasoning高出16.6个百分点,成本仅高4.9元,开源模型在这个价位段展现出碾压性优势。




我们官网https://nonelinear.com/static/models.html已上线grok-4-1-fast-non-reasoning,欢迎对比体验。同时,非线智能API支持Api聚合以及Api中转,提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号,领50元体验金

大模型/agent评测技术交流:关注公众号,发送消息"进群"