Gemini-3-pro 实测：登顶榜首但成本激增，打破豆包250天霸榜神话

谷歌近期发布了Gemini-3-pro-preview新版本，官方称其在推理能力和多模态能力上达到最先进水平，在所有主要AI基准评测中显著超越Gemini -2.5 -pro。我们对这两个版本进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

Gemini-3-pro-preview版本表现：

测试题数：约1.5万
【总分】准确率：72.5%
平均耗时（每次调用）：64s
平均消耗token（每次调用）：3119
花费/千次调用（元）：247.3

1、新旧版本对比

首先对比上个版本（gemini-2.5-pro），数据如下：

引自非线智能（GitHub 第一 AI 商业测评） - Gemini-3-pro 实测：登顶榜首但成本激增，打破豆包250天霸榜神话

历史性突破，终结豆包霸榜时代：新版本准确率从68.9%跃升至72.5%，提升了3.6个百分点，排名从第7位一举跃升至第1位，成为新的王者。
专业能力大幅跃升：从细分领域来看，新版本在几乎所有维度都实现了显著提升。最突出的是"教育"领域，从49.1%大幅提升至64.8%，增幅高达15.7个百分点；"医疗与心理健康"从77.8%提升至89.5%（+11.7%）；"推理与数学计算能力"从72.2%提升至81.8%（+9.6%），印证了官方关于"PhD级别推理能力"的说法。
部分领域出现回退：值得注意的是，新版本在"语言与指令遵从"领域从70.6%下降至67.5%（-3.1%），"agent与工具调用"也从61.0%下降至58.6%（-2.4%），表明在多模态推理能力大幅提升的同时，基础语言理解能力有所权衡。
成本激增31%：每千次调用的费用从189元大幅增加至247.3元，增幅达30.9%。虽然token消耗仅增加11%（从2810到3119），但输出价格从72.5元/M token上调至85.2元/M token，涨幅达17.5%，成为目前评测中成本最高的商用模型。
响应速度略有优化：新版本的平均耗时从67s缩短至64s，提升约4.5%，在保证准确率大幅提升的同时实现了速度的小幅优化，体现了工程化能力的进步。

2、对比其他新模型

在当前主流大模型竞争格局中，Gemini-3-pro-preview作为新晋榜首表现如何？我们从同成本档位、新旧模型更替、开源VS闭源三个维度进行横向对比分析：

维度一：同成本档位对比

最昂贵的榜首模型：Gemini-3-pro-preview以247.3元/千次的成本成为当前评测中最贵的模型，是第二名豆包（15.6元）的近16倍，比同为商用闭源的GPT-5.1-medium（87.9元）贵2.8倍，甚至比旧版本gemini-2.5-pro（189元）还要贵31%。
成本效能比分析：虽然准确率领先豆包0.8个百分点，但成本高出15.9倍；领先DeepSeek-V3.2-Exp-Think 2.4个百分点，成本却高出40倍。每提升1个百分点准确率，Gemini-3-pro-preview需要额外付出约310元成本，而豆包仅需约22元，成本效能比相差14倍。
商用场景挑战：在追求极致准确率的科研场景中，247.3元的成本或许可以接受，但对于日常商用场景，这一成本水平将严重限制其大规模应用的可能性。

维度二：新旧模型更替

终结霸榜传奇：自7月豆包doubao-seed系列登顶以来，该系列期间经历多次迭代升级始终稳居第一。Gemini-3-pro-preview的出现，终于打破了这一纪录。
响应速度对比：豆包的37s响应时间比Gemini-3-pro-preview的64s快73%，在实际用户体验上具有明显优势。这意味着在某些对实时性要求较高的场景，豆包可能依然是更优选择。
各有千秋的技术路线：Gemini-3-pro-preview凭借谷歌的技术积累在多模态推理上实现突破，而豆包则在thinking模式下保持了成本与性能的最佳平衡，两者代表了当前大模型发展的不同技术路径。

维度三：开源VS闭源

闭源模型仍占据性能制高点：前4名中有3个为闭源商用模型，最强开源模型DeepSeek-V3.2-Exp-Think以70.1%位列第3，与榜首差距2.4个百分点。这表明在绝对性能上，闭源模型依然保持领先。
开源模型的成本优势：DeepSeek-V3.2-Exp-Think仅需6.1元/千次，是Gemini-3-pro-preview（247.3元）的2.5%，是豆包（15.6元）的39%。在预算受限的场景下，开源模型展现出巨大的成本优势。
响应时间的巨大差异：DeepSeek-V3.2-Exp-Think的248s响应时间是Gemini-3-pro-preview（64s）的3.9倍，是豆包（37s）的6.7倍。开源模型在推理速度上的短板依然明显，这可能源于资源限制。
不同场景的最优选择：追求极致准确率且不计成本的场景选Gemini-3-pro-preview，追求性能与成本平衡的商用场景选豆包，预算极度有限或需要本地部署的场景选DeepSeek等开源方案，市场呈现出明显的分层格局。

我们官网https://nonelinear.com/static/models.html已上线Gemini-3-pro-preview，欢迎对比体验。同时，非线智能API支持Api聚合以及Api中转，提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号，领50元体验金

大模型/agent评测技术交流：关注公众号，发送消息"进群"