谷歌近期发布了Gemini-3-pro-preview新版本,官方称其在推理能力和多模态能力上达到最先进水平,在所有主要AI基准评测中显著超越Gemini -2.5 -pro。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

Gemini-3-pro-preview版本表现:

  • 测试题数:约1.5万

  • 【总分】准确率:72.5%

  • 平均耗时(每次调用):64s

  • 平均消耗token(每次调用):3119

  • 花费/千次调用(元):247.3

1、新旧版本对比

首先对比上个版本(gemini-2.5-pro),数据如下:

引自非线智能(GitHub 第一 AI 商业测评) - Gemini-3-pro 实测:登顶榜首但成本激增,打破豆包250天霸榜神话引自非线智能(GitHub 第一 AI 商业测评) - Gemini-3-pro 实测:登顶榜首但成本激增,打破豆包250天霸榜神话
  • 历史性突破,终结豆包霸榜时代:新版本准确率从68.9%跃升至72.5%,提升了3.6个百分点,排名从第7位一举跃升至第1位,成为新的王者。

  • 专业能力大幅跃升:从细分领域来看,新版本在几乎所有维度都实现了显著提升。最突出的是"教育"领域,从49.1%大幅提升至64.8%,增幅高达15.7个百分点;"医疗与心理健康"从77.8%提升至89.5%(+11.7%);"推理与数学计算能力"从72.2%提升至81.8%(+9.6%),印证了官方关于"PhD级别推理能力"的说法。

  • 部分领域出现回退:值得注意的是,新版本在"语言与指令遵从"领域从70.6%下降至67.5%(-3.1%),"agent与工具调用"也从61.0%下降至58.6%(-2.4%),表明在多模态推理能力大幅提升的同时,基础语言理解能力有所权衡。

  • 成本激增31%:每千次调用的费用从189元大幅增加至247.3元,增幅达30.9%。虽然token消耗仅增加11%(从2810到3119),但输出价格从72.5元/M token上调至85.2元/M token,涨幅达17.5%,成为目前评测中成本最高的商用模型。

  • 响应速度略有优化:新版本的平均耗时从67s缩短至64s,提升约4.5%,在保证准确率大幅提升的同时实现了速度的小幅优化,体现了工程化能力的进步。

2、对比其他新模型

在当前主流大模型竞争格局中,Gemini-3-pro-preview作为新晋榜首表现如何?我们从同成本档位、新旧模型更替、开源VS闭源三个维度进行横向对比分析:

引自非线智能(GitHub 第一 AI 商业测评) - Gemini-3-pro 实测:登顶榜首但成本激增,打破豆包250天霸榜神话

维度一:同成本档位对比

  • 最昂贵的榜首模型:Gemini-3-pro-preview以247.3元/千次的成本成为当前评测中最贵的模型,是第二名豆包(15.6元)的近16倍,比同为商用闭源的GPT-5.1-medium(87.9元)贵2.8倍,甚至比旧版本gemini-2.5-pro(189元)还要贵31%。

  • 成本效能比分析:虽然准确率领先豆包0.8个百分点,但成本高出15.9倍;领先DeepSeek-V3.2-Exp-Think 2.4个百分点,成本却高出40倍。每提升1个百分点准确率,Gemini-3-pro-preview需要额外付出约310元成本,而豆包仅需约22元,成本效能比相差14倍。

  • 商用场景挑战:在追求极致准确率的科研场景中,247.3元的成本或许可以接受,但对于日常商用场景,这一成本水平将严重限制其大规模应用的可能性。

维度二:新旧模型更替

  • 终结霸榜传奇:自7月豆包doubao-seed系列登顶以来,该系列期间经历多次迭代升级始终稳居第一。Gemini-3-pro-preview的出现,终于打破了这一纪录。

  • 响应速度对比:豆包的37s响应时间比Gemini-3-pro-preview的64s快73%,在实际用户体验上具有明显优势。这意味着在某些对实时性要求较高的场景,豆包可能依然是更优选择。

  • 各有千秋的技术路线:Gemini-3-pro-preview凭借谷歌的技术积累在多模态推理上实现突破,而豆包则在thinking模式下保持了成本与性能的最佳平衡,两者代表了当前大模型发展的不同技术路径。

维度三:开源VS闭源

  • 闭源模型仍占据性能制高点:前4名中有3个为闭源商用模型,最强开源模型DeepSeek-V3.2-Exp-Think以70.1%位列第3,与榜首差距2.4个百分点。这表明在绝对性能上,闭源模型依然保持领先。

  • 开源模型的成本优势:DeepSeek-V3.2-Exp-Think仅需6.1元/千次,是Gemini-3-pro-preview(247.3元)的2.5%,是豆包(15.6元)的39%。在预算受限的场景下,开源模型展现出巨大的成本优势。

  • 响应时间的巨大差异:DeepSeek-V3.2-Exp-Think的248s响应时间是Gemini-3-pro-preview(64s)的3.9倍,是豆包(37s)的6.7倍。开源模型在推理速度上的短板依然明显,这可能源于资源限制。

  • 不同场景的最优选择:追求极致准确率且不计成本的场景选Gemini-3-pro-preview,追求性能与成本平衡的商用场景选豆包,预算极度有限或需要本地部署的场景选DeepSeek等开源方案,市场呈现出明显的分层格局。



我们官网https://nonelinear.com/static/models.html已上线Gemini-3-pro-preview,欢迎对比体验。同时,非线智能API支持Api聚合以及Api中转,提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号,领50元体验金

大模型/agent评测技术交流:关注公众号,发送消息"进群"