阶跃星辰新发布了Step 3.5 Flash开源模型,官方称其为"为Agent而生"的高效推理模型。该模型采用稀疏MoE架构(总参数1960亿,每token仅激活约110亿参数),支持256K上下文,推理速度最高可达350 TPS。我们对step-3.5-flash与step-3进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。
step-3.5-flash版本表现:
测试题数:约1.5万
总分(准确率):64.2%
平均耗时(每次调用):36s
平均token(每次调用消耗的token):4816
平均花费(每千次调用的人民币花费):9.8
1、新旧版本对比
首先对比上个版本(step-3),数据如下:


*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
*输出价格单位: 元/百万token
整体性能小幅提升:新版本准确率从62.4%提升至64.2%,提升了1.8个百分点,排名从第62位上升至第50位。
教育领域提升显著:从细分来看,新版本在"教育"领域表现最为突出,从34.7%大幅提升至49.4%,增幅达14.7个百分点,是所有领域中改进最明显的。
法律与行政公务能力提升:"法律与行政公务"从73.0%提升至78.3%(+5.3%),模型在政务相关场景的理解能力有所增强。
推理能力明显改进:"推理与数学计算"从68.5%提升至75.2%(+6.7%),与官方宣称的推理能力优化方向一致。
部分领域出现回退:值得注意的是,"金融"领域从73.5%下降至71.3%(-2.2%),"语言与指令遵从"从65.6%下降至53.6%(-12.0%),后者下降幅度较大,可能影响实际使用体验。此外,"Agent与工具调用"从50.6%提升至57.1%(+6.5%),与官方宣称的方向一致。
响应速度大幅提升:每次调用的平均耗时从184s大幅缩短至36s,提升了约80%,这与官方强调的高效推理能力相符。
Token消耗增加:每次调用平均消耗的token从3332增加至4816,增幅约45%。结合模型采用的MTP-3(一次预测4个token)技术,较高的token消耗可能与模型的思维链推理深度有关。
成本有所下降:输出价格从4.0元/M token降至2.1元/M token,尽管token消耗增加,但每千次调用的费用仍从12.8元降至9.8元,整体成本下降约23%。
2、对比其他模型
在当前主流大模型竞争格局中,step-3.5-flash表现如何?我们从同成本档位、新旧模型对比、开源VS闭源三个维度进行分析(本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同):

*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
同成本档位对比
成本效率中等:step-3.5-flash以9.8元/千次的成本和64.2%的准确率,在同成本区间表现中规中矩。与成本相近的qwen3-max-2026-01-23(9.7元,67.6%)相比,准确率低3.4个百分点。
成本优势不明显:从总分情况来看,在10元左右的成本档位中,hunyuan-t1-20250711(9.9元,67.3%)和doubao-seed-1-8-251215(7.3元,71.7%)均展现出更优的成本效率比。
新旧模型对比
版本迭代效果有限:从总分情况看,相比step-3的62.4%,step-3.5-flash仅提升1.8个百分点。对比同期发布的其他新模型,如doubao-seed-1-8-251215从71.7%的高基准出发,ERNIE-5.0达到70.9%,step-3.5-flash的提升幅度略显保守。
速度优化是主要亮点:36s的响应时间在同档位模型中表现优异,比DeepSeek-V3.2-Think(144s)快3倍,比qwen3-max-preview-think(182s)快4倍,这与官方强调的"Flash"定位相符。
开源VS闭源对比
开源阵营中游位置:作为开源模型,从总分情况来看,step-3.5-flash(64.2%)排名第50位。对比同为开源的DeepSeek-V3.2(64.4%)基本持平,但明显落后于GLM-4.7(71.5%,开源)。
与闭源头部差距明显:对比闭源模型,如qwen3-max-think-2026-01-23(72.8%)、gemini-3-pro-preview(72.5%),差距达8个百分点以上。在Agent能力上,虽然官方强调"为Agent而生",但57.1%的Agent与工具调用得分在榜单中仍处于中等水平。
阶跃星辰产品线定位:相比同厂商尚未更新的其他产品线,step-3.5-flash在速度上具有明显优势,但在准确率上的提升空间仍然较大。
3、技术要点

稀疏MoE架构:总参数196B,每token仅激活11B参数,实现"智能密度"优化。
混合注意力布局:以3:1比例交错滑动窗口注意力(SWA)与全注意力,兼顾长上下文处理效率与推测性解码的架构灵活性。
增强的查询头:SWA层的查询头数从64增加到96,在不扩大KV缓存占用的情况下增强表征能力。
MIS-PO训练框架:提出Metropolis独立采样过滤策略优化,用严格的样本过滤取代脆弱的重要性加权,实现稳定的长程优化。
官方承认的局限
官方在技术报告中坦诚指出了模型的已知问题:
Token效率:Step 3.5 Flash实现了前沿的智能体智能,但目前依靠比Gemini 3.0 Pro更长的生成轨迹来达到相当的质量。
操作范围限制:模型专为编码和工作场景定制,在高度专业化的领域或长程多轮对话中,可能出现重复推理、混合语言输出或时间与身份感知不一致等问题。
分布偏移稳定性:在分布偏移期间可能经历稳定性降低。
4、官方评测
根据阶跃星辰官方发布的技术博客(https://static.stepfun.com/blog/step-3.5-flash/),Step 3.5 Flash定位为"思考够快,行动够稳"的开源基础模型。以下是官方披露的信息:
模型定位与核心卖点

官方将Step 3.5 Flash定义为"目前最强大的开源基础模型",强调四大核心特性:
极速深度推理:由三路多Token预测(MTP-3)驱动,在典型使用中实现100-300 tok/s的生成吞吐量,单流代码任务峰值可达350 tok/s。
代码与智能体的稳健引擎:集成可扩展的强化学习(RL)框架,在SWE-bench Verified上达到74.4%,在Terminal-Bench 2.0上达到51.0%。
高效长上下文:采用3:1的滑动窗口注意力(SWA)比例,支持经济高效的256K上下文窗口。
便捷的本地部署:可在Mac Studio M4 Max、NVIDIA DGX Spark等高端消费级硬件上安全运行。
官方基准测试表现
官方在推理、编码、智能体三个维度公布了基准测试数据:


推理能力(Reasoning):
AIME 2025:97.3分(配合PaCoRe技术可达99.9分)
IMOAnswerBench:85.4分(配合PaCoRe可达88.8分)
HMMT 2025:96.2分(2月和11月平均)
编码能力(Coding):
SWE-bench Verified:74.4%
Terminal-Bench 2.0:51.0%
LiveCodeBench-V6:86.4%(配合PaCoRe可达88.9%)
智能体能力(Agent):
τ²-Bench:88.2%
BrowseComp(带上下文管理器):69.0%
xbench-DeepSearch(2025.10):54.0%
实战能力展示
官方着重展示了Step 3.5 Flash在实际应用场景中的能力:

工具增强推理:通过在思维链推理中集成Python代码执行,在AIME 2025上从97.3提升至99.8,在HMMT 2025 Nov.上从94.0提升至98.0。

专业数据分析:在Claude Code环境中的50个端到端数据分析任务基准测试中,Step 3.5 Flash得分39.58%,超过GPT-5.2(39.3%)、Gemini 3.0 Pro(33.6%)、DeepSeek V3.2(27.9%),仅次于Claude Opus 4.5(45.0%)。

深度研究:在Scale AI Research Rubrics基准上得分65.27%,超过Gemini DeepResearch(63.7%)、OpenAI DeepResearch(60.7%)和Qwen DeepSearch(49.2%)。

端云协同:官方展示了Step 3.5 Flash与边缘部署的Step-GUI协同工作的能力。在AndroidDaily Hard基准上,纯端侧Step-GUI得分40%,而端云协同方案得分提升至57%。
我们非线智能官网https://nonelinear.com/static/models.html已上线step-3.5-flash,欢迎对比体验。同时,非线智能API支持Api聚合以及Api中转,提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号,领50元体验金
大模型/agent评测技术交流:关注公众号,发送消息"进群"