数据来源非线智能Nonelinear 非线智能团队,维护着GitHub上的开源项目 chinese-llm-benchmark,目前 6,000+ Stars,长期占据中文LLM商业评测类项目Star数第一

image

正文:

Google在I/O 2026期间发布了Gemini 3.5系列,并率先推出Gemini 3.5 Flash。与很多人对"Flash"系列的低成本、快响应印象不同,Google这次对Gemini 3.5 Flash的定位更偏向前沿Agent与Coding能力:在保持Flash系列速度优势的同时,面向长程智能体任务、复杂代码工作流和多模态理解提供更强的能力底座。我们对其API版本gemini-3.5-flash进行了全面评测,测试其在准确率、响应时间、token消耗和调用花费等关键指标上的表现。

需要说明的是,本次评测侧重中文场景下的综合能力考察,评测维度覆盖教育、医疗、金融、法律、推理数学、语言指令、Agent工具调用以及coding等板块。Gemini 3.5 Flash官方主推的长程Agent、多智能体协作、多模态图表理解等能力,并不能完全被中文文本准确率指标覆盖。对于这部分能力,读者可结合文末的官方评测数据形成更完整的判断。

gemini-3.5-flash版本表现:

  • 测试题数:约1.5万

  • 总分(准确率):73.9%

  • 平均耗时(每次调用):13s

  • 平均token(每次调用消耗的token):2617

  • 平均花费(每千次调用的人民币花费):151.2

1、新旧对决

对比上一代版本gemini-3-flash-preview,gemini-3.5-flash的变化并不是简单的"更便宜、更快",而是在速度大幅提升的同时,将能力重心明显推向coding和Agent工具调用。数据如下:

引自非线智能(GitHub 第一 AI 商业测评) - 【非线智能测评】谷歌Gemini 3.5 Flash实测:Agent、代码、多模态能力解析引自非线智能(GitHub 第一 AI 商业测评) - 【非线智能测评】谷歌Gemini 3.5 Flash实测:Agent、代码、多模态能力解析

*数据来源:非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格单位: 元/百万token

  • 整体性能稳步提升:新版本准确率从71.2%提升至73.9%,提升了2.7个百分点,榜单排名从第11位上升至第4位,进入当前主流模型头部梯队。

  • Agent与工具调用提升最明显:agent与工具调用从48.6%提升至57.5%,提升了8.9个百分点,是本次迭代中提升幅度最大的维度。这与Google官方强调的"面向复杂Agent工作流"定位基本一致。

  • Coding能力明显增强:coding从66.0%提升至74.2%,提升了8.2个百分点。结合官方在Terminal-Bench 2.1、MCP Atlas等编程与Agent基准上的成绩来看,gemini-3.5-flash并不是传统意义上的轻量聊天模型,而是将代码与工具执行作为核心升级方向。

  • 推理和教育维度小幅提升:推理与数学计算从83.4%提升至84.5%(+1.1%),教育从63.5%提升至64.9%(+1.4%),医疗与心理健康从87.2%微增至87.5%(+0.3%)。这些变化幅度不算大,但整体保持了上一代的基础能力。

  • 部分维度出现回调:金融从84.0%降至80.9%(-3.1%),法律与行政公务从83.3%降至81.3%(-2.0%),语言与指令遵从从72.2%降至71.1%(-1.1%)。这说明新版本在能力调优中并非所有中文垂直任务都同步受益,尤其是金融、法律等密集型任务仍存在一定波动。

  • 响应速度大幅提升:平均耗时从72s缩短至13s,降幅约82%。在总分提升的同时,响应速度接近提升到上一代的5.5倍,也是gemini-3.5-flash最突出的工程表现。

  • Token消耗略有下降,但成本明显上升:平均token从2731降至2617,下降约4.2%;但输出价格从21.3元/百万token上调至63.0元/百万token,约为上一代的3倍。最终每千次调用花费从53.5元升至151.2元,增加约97.7元。也就是说,新版本的核心交换并不是"更省钱",而是用接近3倍的调用成本,换取更强的Agent/Coding能力和显著更低的响应延迟。

2、横向对比

在当前主流大模型竞争格局中,gemini-3.5-flash作为Google面向Agent与Coding场景的新一代Flash模型表现如何?我们从三个维度进行横向对比分析:

引自非线智能(GitHub 第一 AI 商业测评) - 【非线智能测评】谷歌Gemini 3.5 Flash实测:Agent、代码、多模态能力解析

*数据来源:非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

  • 140至160元/千次区间的头部竞争:gemini-3.5-flash(73.9%,151.2元)所在区间的主要参照对象包括qwen3.6-max-preview(75.4%,139.2元)、gpt-5.5(75.3%,158.5元)和claude-opus-4.5(64.2%,146.1元)等。在这个成本区间内,gemini-3.5-flash总分低于qwen3.6-max-preview和gpt-5.5约1.4至1.5个百分点,但明显高于claude-opus-4.5。

  • 速度是最突出的差异化变量:gemini-3.5-flash平均耗时为13s,是总榜前十中最快的模型。相比qwen3.6-max-preview(80s)、gemini-3.1-pro-preview(53s)、kimi-k2.6(175s)、Doubao-Seed-2.0-pro(309s)等模型,gemini-3.5-flash在延迟上具备明显优势。即便与gpt-5.5(15s)相比,也略快一些。

  • 向上对比Google自家Pro线:gemini-3.1-pro-preview(75.2%,250.5元)准确率高出1.3个百分点,但平均耗时为53s,平均花费也高出约66%。gemini-3.5-flash以更低成本和更快响应提供了接近Pro级别的中文综合准确率。

  • 向下看低成本替代方案:qwen3.5-plus(73.3%,22.9元)、Doubao-Seed-2.0-pro(72.8%,22.5元)、deepseek-v4-pro(71.7%,54.3元)等模型以显著更低的成本提供了接近的中文综合准确率。仅从中文文本评测的成本效率比看,gemini-3.5-flash并不占优,其价值更多体现在低延迟、Google生态、多模态和Agent工具链上。

新旧模型对比

  • 自身代际变化清晰:gemini-3.5-flash(73.9%)相比gemini-3-flash-preview(71.2%)提升2.7个百分点,排名从第11位升至第4位。更重要的是,平均耗时从72s缩短至13s,说明这次迭代同时解决了上一代Flash Preview在速度和头部能力上的部分短板。

  • Google产品线定位更分明:从榜单看,gemini-3.1-pro-preview(75.2%,第3位)仍是Google在中文综合评测中的Pro级代表;gemini-3.5-flash(73.9%,第4位)紧随其后,以更低延迟和更低花费承接大规模Agent与开发者场景;gemini-3-flash-preview(71.2%,第11位)和gemini-2.5-pro(66.6%,第36位)则形成上一代参照。Google的产品线正在从"Pro负责能力、Flash负责速度"转向"Flash也承担前沿Agent能力"。

开源VS闭源对比

  • 闭源阵营中的高速头部模型:在闭源模型中,gemini-3.5-flash的准确率高于Doubao-Seed-2.0-pro(72.8%)、gpt-5.4-high(72.6%)、gemini-3-flash-preview(71.2%)、claude-opus-4.6(70.0%)等模型,同时保持13s的平均耗时。与同样低延迟的gpt-5.5(75.3%,15s)相比,gemini-3.5-flash准确率低1.4个百分点,但速度略快,成本也略低。

  • 开源阵营的成本效率比压力仍然明显:qwen3.5-plus(73.3%,22.9元)、kimi-k2.6(72.9%,100.4元)、deepseek-v4-pro(71.7%,54.3元)、Qwen3.5-122B-A10B(70.9%,32.3元)等开源模型已经在总榜前列形成密集分布。对于纯中文文本任务和成本敏感场景,开源阵营依然有很强吸引力。

3、官方评测

根据Google官方博客(https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/),Gemini 3.5系列的核心定位是"frontier intelligence with action",即将前沿智能与可执行能力结合起来。Google率先发布的是Gemini 3.5 Flash,并明确表示Gemini 3.5 Pro已经在内部使用,预计下个月推出。

Agent与Coding能力

引自非线智能(GitHub 第一 AI 商业测评) - 【非线智能测评】谷歌Gemini 3.5 Flash实测:Agent、代码、多模态能力解析

Google称Gemini 3.5 Flash是其目前最强的Agent与Coding模型,在多个编程和智能体基准上超过Gemini 3.1 Pro。官方披露的关键数据包括:

  • Terminal-Bench 2.1:76.2%,用于衡量复杂命令行与多步骤工程任务能力。

  • GDPval-AA:1656 Elo,用于评测知识工作和企业任务表现。

  • MCP Atlas:83.6%,用于评测模型在MCP工具生态中的执行能力。

  • CharXiv Reasoning:84.2%,用于衡量多模态图表与视觉推理能力。

官方还强调,在输出token速度上,Gemini 3.5 Flash比其他前沿模型快4倍。

速度与智能的平衡

引自非线智能(GitHub 第一 AI 商业测评) - 【非线智能测评】谷歌Gemini 3.5 Flash实测:Agent、代码、多模态能力解析

Google在博客中引用Artificial Analysis指数,将Gemini 3.5 Flash放在"高智能、高输出速度"的象限中,强调它不再要求用户在质量和延迟之间做强取舍。

长程Agent任务与多智能体协作

官方展示了多类由Gemini 3.5 Flash驱动的Agent任务案例,包括在Google Antigravity中自动重命名和分类非结构化资产、使用两个智能体综合AlphaZero论文并在6小时内编码完成可玩的游戏、将混乱的遗留代码库迁移到Next.js、并行生成城市景观,以及通过builder和player两个智能体循环改进游戏。

多模态与交互式生成

Google还强调,Gemini 3.5 Flash继承Gemini 3系列的多模态基础,能够生成更丰富的交互式Web UI和图形。官方案例包括根据论文生成交互式动画、将文本描述转化为交互式硬件示意、并行生成完整品牌概念,以及在60秒内生成不同的结账流程UX方案。

非线智能官网https://nonelinear.com 已上线Gemini 3.5 Flash版,欢迎深度体验。 同时,非线智能API可连接超480个全球模型,支持一键Api聚合以及Api中转,提供稳定的企业级服务。 登录github账号,领50元体验金。接入Deepseek就用非线智能API。

image