百度近期正式发布了原生全模态大模型ERNIE-5.0(文心5.0),这是一款参数达2.4万亿、采用原生全模态统一建模技术的旗舰级产品,支持文本、图像、音频、视频等多种信息的输入与输出。我们对ERNIE-5.0正式版与此前的ERNIE-5.0-Thinking-Preview版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。
ERNIE-5.0版本表现:
测试题数:约1.5万
总分(准确率):70.9%
平均耗时(每次调用):225s
平均token(每次调用消耗的token):3897
平均花费(每千次调用的人民币花费):89.2
1、新旧版本对比
首先对比预览版本(ERNIE-5.0-Thinking-Preview),数据如下:


*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
*输出价格是"1元/M token "
整体性能显著提升:正式版准确率从67.5%提升至70.9%,提升了3.4个百分点,排名从第22位跃升至第7位,提升了15个名次,实现了质的突破。
专业能力全面增强:从细分领域来看,正式版在绝大多数领域都实现了提升。最突出的是"教育"领域,从50.4%提升至55.7%,增幅达5.3个百分点。"推理与数学计算能力"也从74.0%提升至78.7%,增幅4.7个百分点。
医疗与金融能力优化明显:"医疗与心理健康"从76.0%提升至80.3%(+4.3%),"金融"从74.1%提升至78.8%(+4.7%),体现了正式版在专业垂直领域的能力强化。
语言理解与工具调用同步提升:"语言与指令遵从"从65.9%提升至68.0%(+2.1%),"agent与工具调用"从58.4%提升至61.9%(+3.5%),智能体能力有所增强。
部分领域存在权衡:值得注意的是,"法律与行政公务"领域略有下降,从82.3%降至81.7%(-0.6%),表明在整体性能提升过程中存在一定的能力权衡。
响应速度大幅提升:正式版的平均耗时为225s,比预览版的301s快了约25%,用户体验有所改善。
Token消耗有所增加:每次调用平均消耗的token从3202增加至3897,增幅约21.7%,反映出正式版可能采用了更充分的推理过程。
成本结构调整:每千次调用的费用从72.5元增加至89.2元,增幅约23%,主要由token消耗增加导致。
2、对比其他模型
在当前主流大模型竞争格局中,ERNIE-5.0表现如何?我们从同成本档位、新旧模型、开源VS闭源三个维度进行横向对比分析(本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同):

*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
同成本档位对比
高成本区间定位:ERNIE-5.0以89.2元/千次的调用成本位于高成本区间,与gemini-2.5-pro(189元)、gpt-5.1-high(180元)等顶级商用模型同处高消耗段。
成本效率对比:在相近成本区间,gpt-5.1-medium(87.9元)准确率为69.3%,ERNIE-5.0以89.2元获得70.9%的准确率,成本相当但准确率高出1.6个百分点。与gemini-3-pro-preview(247.3元,72.5%)相比,ERNIE-5.0以约三分之一的成本达到了相近的准确率水平。
与同厂商产品对比:相比ERNIE-5.0-Thinking-Preview(72.5元,67.5%),正式版在准确率提升3.4个百分点的同时,成本增加了23%,升级带来了明确的性能收益。
新旧模型对比
位列新模型第一梯队:在新发布模型中,ERNIE-5.0以70.9%的准确率排名第7,位于gemini-3-pro-preview(72.5%)、hunyuan-2.0-thinking-20251109(71.9%)、doubao-seed-1-8-251215(71.7%)、doubao-seed-1-6-thinking-250715(71.7%)、GLM-4.7(71.5%)、gemini-3-flash-preview(71.5%)之后。
与国际主流模型对比:从总分情况看,准确率与DeepSeek-V3.2-Think(70.9%)持平、高于gpt-5.1-high(69.7%)、gpt-5.1-medium(69.3%)、o4-mini(69.0%)、gpt-5-2025-08-07(68.9%)等模型。
思考模型竞争格局:作为具备思考能力的模型,ERNIE-5.0的70.9%准确率与DeepSeek-V3.2-Think持平,高于Kimi-K2-Thinking(68.3%)、qwen3-max-preview-think(68.2%),在thinking类模型中处于中上游水平。
开源VS闭源对比
闭源阵营中游偏上:在商用闭源模型中,ERNIE-5.0位列gemini-3-pro-preview、hunyuan-2.0-thinking-20251109、doubao系列、gemini-3-flash-preview之后,与gpt-5.1-high(69.7%)、gpt-5.1-medium(69.3%)形成直接竞争。
与开源模型对比互有胜负:ERNIE-5.0(70.9%)低于开源模型GLM-4.7(71.5%),与DeepSeek-V3.2-Think(70.9%)持平,高于DeepSeek-V3.1-Think(67.7%)、qwen3-235b-a22b-thinking-2507(65.5%)等开源模型。。
响应速度对比:225s的响应时间在高性能模型中处于中等偏慢水平,快于Kimi-K2-Thinking(333s)、ERNIE-5.0-Thinking-Preview(301s),但慢于DeepSeek-V3.2-Think(144s)、gpt-5.1-high(117s)、GLM-4.7(96s)等模型。
Token效率待优化:3897的平均token消耗在对比模型中偏高,高于DeepSeek-V3.2-Think(2572)、gpt-5.1-high(2745)、gemini-3-pro-preview(3119),在推理效率方面仍有优化空间。
3、官方评测
百度官方公布了文心5.0在40余项权威基准测试中的综合评测结果,覆盖语言理解、视觉理解、音频处理、视觉生成等多个维度。
语言能力评测

官方将ERNIE-5.0与GPT-5 (High)、Gemini-3-Pro、Gemini-2.5-Pro、DeepSeek-v3.2-thinking进行了对比,评测维度涵盖知识、指令遵循、学科综合、逻辑推理、数学、代码、智能体等核心能力。
知识与指令遵循:在SimpleQA、ChineseSimpleQA、IFEval、MultiChallenge、Multi-IF等基准测试中,ERNIE-5.0表现稳健,与国际顶尖模型处于同一水平。
学科综合能力:在GPQA-Diamond、MMLU-Pro等综合学科测试中,ERNIE-5.0展现出较强的知识储备和推理能力。
逻辑推理与数学:在ZebraLogic、BBEH、AIME 2025、HMMT 2025等高难度推理和数学测试中,各模型表现各有优劣,ERNIE-5.0整体处于竞争前列。
代码与智能体:在LiveCodeBench、HumanEval+、MBPP+、TAU2-Bench、ACEBench等代码生成和智能体测试中,ERNIE-5.0展现出较强的实用能力。
视觉理解评测

在视觉理解维度,官方对比了ERNIE-5.0、GPT-5 (High)、Gemini-3-Pro、Gemini-2.5-Pro四款模型。
理科与推理:在MMMU-Pro、MathVista、MathVerse、MathVision、VisualPuzzle、VisuaLogic等视觉推理测试中,ERNIE-5.0表现出色,在多项测试中领先或持平。
文档理解:在VLMAreaBlind、CharXiv-RQ、CharXiv-DQ、DocVQA等文档和图表理解测试中,ERNIE-5.0展现出强大的OCR和文档解析能力。
通用视觉问答:在SimpleVQA、HallusionBench、MMStar、BLINK、CV-Bench等通用视觉测试中,各模型互有胜负。
视频理解:在VideoMME、Video-MMMU、MMVU等视频理解测试中,ERNIE-5.0展现出全模态模型的综合优势。
音频能力评测

在音频处理维度,官方对比了ERNIE-5.0、Gemini-3-Pro、GPT-4o-Audio三款模型。
音频理解:在MMAU、TUT2017、CochlScene等音频场景理解测试中,ERNIE-5.0表现突出,多项指标领先。
语音文本对话:在VoiceBench系列测试(AlpacaEval、CommonEval、SD-QA、MMSU、OpenBookQA、IFEval、AdvBench)中,ERNIE-5.0展现出优秀的语音交互能力。
语音识别:在AISHELL-1、AISHELL-2、LibriSpeech、Fleurs等语音识别测试中(数值越低越好),表现优异。
视觉生成评测

在视觉生成维度,官方对比了ERNIE-5.0与Veo3、Wan2.1、Hunyuan Video等专业生成模型。
图像生成:在GenEval基准测试中,ERNIE-5.0与GPT-Image、Nano Banana Pro、Seedream 4.0、Qwen-Image等模型对比,生成质量处于领先水平。
视频生成:在视频生成评测中,ERNIE-5.0在Total Score、Quality Score、Semantic Score上与专业视频生成模型Veo3、Wan2.1相当。
我们非线智能官网https://nonelinear.com/static/models.html已上线ERNIE-5.0,欢迎对比体验。同时,非线智能API支持Api聚合以及Api中转,提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号,领50元体验金
大模型/agent评测技术交流:关注公众号,发送消息"进群"