阶跃星辰Step 3.5 Flash实测 · 非线智能 NoneLinear

阶跃星辰新发布了Step 3.5 Flash开源模型，官方称其为"为Agent而生"的高效推理模型。该模型采用稀疏MoE架构（总参数1960亿，每token仅激活约110亿参数），支持256K上下文，推理速度最高可达350 TPS。我们对step-3.5-flash与step-3进行了全面对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

step-3.5-flash版本表现：

测试题数：约1.5万
总分（准确率）：64.2%
平均耗时（每次调用）：36s
平均token（每次调用消耗的token）：4816
平均花费（每千次调用的人民币花费）：9.8

1、新旧版本对比

首先对比上个版本（step-3），数据如下：

引自非线智能（GitHub 第一 AI 商业测评） - 阶跃星辰Step 3.5 Flash实测

*数据来源：ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格单位：元/百万token

整体性能小幅提升：新版本准确率从62.4%提升至64.2%，提升了1.8个百分点，排名从第62位上升至第50位。
教育领域提升显著：从细分来看，新版本在"教育"领域表现最为突出，从34.7%大幅提升至49.4%，增幅达14.7个百分点，是所有领域中改进最明显的。
法律与行政公务能力提升："法律与行政公务"从73.0%提升至78.3%（+5.3%），模型在政务相关场景的理解能力有所增强。
推理能力明显改进："推理与数学计算"从68.5%提升至75.2%（+6.7%），与官方宣称的推理能力优化方向一致。
部分领域出现回退：值得注意的是，"金融"领域从73.5%下降至71.3%（-2.2%），"语言与指令遵从"从65.6%下降至53.6%（-12.0%），后者下降幅度较大，可能影响实际使用体验。此外，"Agent与工具调用"从50.6%提升至57.1%（+6.5%），与官方宣称的方向一致。
响应速度大幅提升：每次调用的平均耗时从184s大幅缩短至36s，提升了约80%，这与官方强调的高效推理能力相符。
Token消耗增加：每次调用平均消耗的token从3332增加至4816，增幅约45%。结合模型采用的MTP-3（一次预测4个token）技术，较高的token消耗可能与模型的思维链推理深度有关。
成本有所下降：输出价格从4.0元/M token降至2.1元/M token，尽管token消耗增加，但每千次调用的费用仍从12.8元降至9.8元，整体成本下降约23%。

2、对比其他模型

在当前主流大模型竞争格局中，step-3.5-flash表现如何？我们从同成本档位、新旧模型对比、开源VS闭源三个维度进行分析（本评测侧重中文场景，模型在其他语言和专业领域的表现可能有所不同）：

*数据来源：ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

成本效率中等：step-3.5-flash以9.8元/千次的成本和64.2%的准确率，在同成本区间表现中规中矩。与成本相近的qwen3-max-2026-01-23（9.7元，67.6%）相比，准确率低3.4个百分点。
成本优势不明显：从总分情况来看，在10元左右的成本档位中，hunyuan-t1-20250711（9.9元，67.3%）和doubao-seed-1-8-251215（7.3元，71.7%）均展现出更优的成本效率比。

新旧模型对比

版本迭代效果有限：从总分情况看，相比step-3的62.4%，step-3.5-flash仅提升1.8个百分点。对比同期发布的其他新模型，如doubao-seed-1-8-251215从71.7%的高基准出发，ERNIE-5.0达到70.9%，step-3.5-flash的提升幅度略显保守。
速度优化是主要亮点：36s的响应时间在同档位模型中表现优异，比DeepSeek-V3.2-Think（144s）快3倍，比qwen3-max-preview-think（182s）快4倍，这与官方强调的"Flash"定位相符。

开源VS闭源对比

开源阵营中游位置：作为开源模型，从总分情况来看，step-3.5-flash（64.2%）排名第50位。对比同为开源的DeepSeek-V3.2（64.4%）基本持平，但明显落后于GLM-4.7（71.5%，开源）。
与闭源头部差距明显：对比闭源模型，如qwen3-max-think-2026-01-23（72.8%）、gemini-3-pro-preview（72.5%），差距达8个百分点以上。在Agent能力上，虽然官方强调"为Agent而生"，但57.1%的Agent与工具调用得分在榜单中仍处于中等水平。
阶跃星辰产品线定位：相比同厂商尚未更新的其他产品线，step-3.5-flash在速度上具有明显优势，但在准确率上的提升空间仍然较大。

3、技术要点

稀疏MoE架构：总参数196B，每token仅激活11B参数，实现"智能密度"优化。
混合注意力布局：以3:1比例交错滑动窗口注意力（SWA）与全注意力，兼顾长上下文处理效率与推测性解码的架构灵活性。
增强的查询头：SWA层的查询头数从64增加到96，在不扩大KV缓存占用的情况下增强表征能力。
MIS-PO训练框架：提出Metropolis独立采样过滤策略优化，用严格的样本过滤取代脆弱的重要性加权，实现稳定的长程优化。

官方承认的局限

官方在技术报告中坦诚指出了模型的已知问题：

Token效率：Step 3.5 Flash实现了前沿的智能体智能，但目前依靠比Gemini 3.0 Pro更长的生成轨迹来达到相当的质量。
操作范围限制：模型专为编码和工作场景定制，在高度专业化的领域或长程多轮对话中，可能出现重复推理、混合语言输出或时间与身份感知不一致等问题。
分布偏移稳定性：在分布偏移期间可能经历稳定性降低。

4、官方评测

根据阶跃星辰官方发布的技术博客（https://static.stepfun.com/blog/step-3.5-flash/），Step 3.5 Flash定位为"思考够快，行动够稳"的开源基础模型。以下是官方披露的信息：

模型定位与核心卖点

官方将Step 3.5 Flash定义为"目前最强大的开源基础模型"，强调四大核心特性：

极速深度推理：由三路多Token预测（MTP-3）驱动，在典型使用中实现100-300 tok/s的生成吞吐量，单流代码任务峰值可达350 tok/s。
代码与智能体的稳健引擎：集成可扩展的强化学习（RL）框架，在SWE-bench Verified上达到74.4%，在Terminal-Bench 2.0上达到51.0%。
高效长上下文：采用3:1的滑动窗口注意力（SWA）比例，支持经济高效的256K上下文窗口。
便捷的本地部署：可在Mac Studio M4 Max、NVIDIA DGX Spark等高端消费级硬件上安全运行。

官方基准测试表现

官方在推理、编码、智能体三个维度公布了基准测试数据：

推理能力（Reasoning）：

AIME 2025：97.3分（配合PaCoRe技术可达99.9分）
IMOAnswerBench：85.4分（配合PaCoRe可达88.8分）
HMMT 2025：96.2分（2月和11月平均）

编码能力（Coding）：

SWE-bench Verified：74.4%
Terminal-Bench 2.0：51.0%
LiveCodeBench-V6：86.4%（配合PaCoRe可达88.9%）

智能体能力（Agent）：

τ²-Bench：88.2%
BrowseComp（带上下文管理器）：69.0%
xbench-DeepSearch（2025.10）：54.0%

实战能力展示

官方着重展示了Step 3.5 Flash在实际应用场景中的能力：

工具增强推理：通过在思维链推理中集成Python代码执行，在AIME 2025上从97.3提升至99.8，在HMMT 2025 Nov.上从94.0提升至98.0。

专业数据分析：在Claude Code环境中的50个端到端数据分析任务基准测试中，Step 3.5 Flash得分39.58%，超过GPT-5.2（39.3%）、Gemini 3.0 Pro（33.6%）、DeepSeek V3.2（27.9%），仅次于Claude Opus 4.5（45.0%）。

深度研究：在Scale AI Research Rubrics基准上得分65.27%，超过Gemini DeepResearch（63.7%）、OpenAI DeepResearch（60.7%）和Qwen DeepSearch（49.2%）。

端云协同：官方展示了Step 3.5 Flash与边缘部署的Step-GUI协同工作的能力。在AndroidDaily Hard基准上，纯端侧Step-GUI得分40%，而端云协同方案得分提升至57%。

我们非线智能官网https://nonelinear.com/static/models.html已上线step-3.5-flash，欢迎对比体验。同时，非线智能API支持Api聚合以及Api中转，提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号，领50元体验金

大模型/agent评测技术交流：关注公众号，发送消息"进群"