腾讯混元最新版语言模型Tencent HY 2.0正式发布。HY 2.0采用混合专家(MoE)架构,总参数406B,激活参数32B,支持256K上下文窗口。我们对新版本hunyuan-2.0-thinking-20251109与上一版本hunyuan-t1-20250711进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

hunyuan-2.0-thinking-20251109版本表现:

  • 测试题数:约1.5万

  • 总分(准确率):71.9%

  • 平均耗时(每次调用):28s

  • 平均token(每次调用消耗的token):2544

  • 平均花费(每千次调用的人民币花费):9.5

1、新旧版本对比

首先对比上个版本(hunyuan-t1-20250711),数据如下:

引自非线智能(GitHub 第一 AI 商业测评) - 腾讯 Tencent HY 2.0 Think 实测引自非线智能(GitHub 第一 AI 商业测评) - 腾讯 Tencent HY 2.0 Think 实测

*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格是"1元/M token "

  • 整体性能显著跃升:新版本准确率从67.3%提升至71.9%,提升了4.6个百分点,排名从第18位大幅跃升至第2位。

  • 专业能力全面增强:从细分领域来看,新版本在大多数领域有显著的提升。最突出的是"agent与工具调用"能力,从46.8%大幅提升至64.3%,增幅高达17.5个百分点。"医疗与心理健康"领域也从82.9%提升至88.4%(+5.5%)。

  • 推理能力稳步提升:"推理与数学计算能力"从72.0%提升至77.9%,增幅达5.9个百分点,验证了官方宣称的"在数学、科学、代码等复杂推理场景综合表现提升"。

  • 部分领域出现回落:值得注意的是,"语言与指令遵从"能力从72.9%下降至63.8%,降幅达9.1个百分点,这在整体性能大幅提升的背景下形成了反差,表明新版本在能力分布上进行了重新权衡。

  • 速度大幅提升:每次调用的平均耗时从71s大幅缩短至28s,提升约153%,是本次升级中改进幅度最大的指标。

  • Token消耗优化:平均消耗token从2707降至2544,减少约6%,结合速度提升,说明新版本实现了更高效的推理过程。

  • 成本小幅下降:每千次调用的费用从9.9元降至9.5元,下降约4%,变化不大。

2、对比其他新模型

在当前主流大模型竞争格局中,hunyuan-2.0-thinking-20251109表现如何?我们选择了具有代表性的模型进行横向对比分析:

引自非线智能(GitHub 第一 AI 商业测评) - 腾讯 Tencent HY 2.0 Think 实测

*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

  • 同档位表现靠前:在9-10元/千次的成本档位中,hunyuan-2.0-thinking-20251109以71.9%的准确率领先于同档位的hunyuan-t1-20250711(67.3%,9.9元)和ERNIE-X1.1-Preview(64.5%,9.3元)。

  • 对比更高成本档位模型:与花费更高的doubao-seed-1-6-thinking-250715(71.7%,15.6元)相比,hunyuan-2.0-thinking-20251109准确率相当但成本降低近40%;与qwen-plus-think-2025-07-28(67.5%,26元)相比,总分准确率更高且成本仅为其36%。

  • 速度优势明显:28s的响应时间在同成本档位模型中表现最优,远快于doubao-seed-1-6-thinking-250715(37s)和hunyuan-t1-20250711(71s)。

新模型竞争格局

  • 紧追榜首:hunyuan-2.0-thinking-20251109以71.9%的准确率位居第2,仅落后榜首gemini-3-pro-preview(72.5%)0.6个百分点。

  • 与主流竞品对比:相比其他近期发布的模型,hunyuan-2.0-thinking-20251109领先DeepSeek-V3.2-Think(70.9%)1.0个百分点,领先gpt-5.1-high(69.7%)2.2个百分点,领先GLM-4.6(68.1%)3.8个百分点。

  • 成本处于中低水平:9.5元/千次的成本低于gemini-3-pro-preview(247.3元)、gpt-5.1-high(180元)等海外模型,但高于DeepSeek-V3.2-Think(7.5元)等开源方案。。

开源VS闭源对比

  • 头部格局:从榜单来看,前三名均为闭源商用模型(gemini-3-pro-preview、hunyuan-2.0-thinking-20251109、doubao-seed-1-6-thinking-250715),开源模型中表现最好的DeepSeek-V3.2-Think排名第4(70.9%)。

  • 成本与性能权衡:hunyuan-2.0-thinking-20251109(9.5元,71.9%)相比开源模型DeepSeek-V3.2-Think(7.5元,70.9%),成本高出27%,准确率高出1.0个百分点,成本效率比各有侧重。

  • 响应速度差异:hunyuan-2.0-thinking-20251109的28s响应时间明显快于开源思考模型DeepSeek-V3.2-Think(144s)和qwen3-235b-a22b-thinking(143s),但开源模型在部署灵活性上具有自身优势。

3、官方评测

腾讯官方在发布会上公布了HY 2.0 Think的技术特性和内部评测数据:

引自非线智能(GitHub 第一 AI 商业测评) - 腾讯 Tencent HY 2.0 Think 实测引自非线智能(GitHub 第一 AI 商业测评) - 腾讯 Tencent HY 2.0 Think 实测
  • 数学科学知识推理:官方表示使用高质量数据进行Large Rollout强化学习,在国际数学奥林匹克竞赛(IMO-AnswerBench)和哈佛MIT数学竞赛(HMMT2025)等测试中取得一流成绩,在Humanity's Last Exam(HLE)和ARC AGI等任务上也有提升。

  • 指令遵循与长文多轮能力:官方称通过重要性采样修正缓解了训练和推理不一致问题,在Multi Challenge等指令遵循和多轮任务上有所提升。

  • 代码与智能体能力:官方表示在SWE-bench Verified及Tau2-Bench等智能体任务上实现了提升。

  • 推理效率

    • 官方强调HY 2.0 Think引入了长度惩罚策略,在取得类似准确率的情况下消耗更少的tokens。从官方对比图来看,HY 2.0 Think在IMO-AnswerBench、HMMT2025、ARC-AGI、HLE四个任务上的token消耗低于部分竞品模型。

  • 用户体验

    • 官方宣称基于RLVR+RLHF双阶段强化学习策略,在文本创作、前端开发、指令遵循等场景有所改进。

我们官网https://nonelinear.com/static/models.html已上线hunyuan-2.0-thinking-20251109,欢迎对比体验。同时,非线智能API支持Api聚合以及Api中转,提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号,领50元体验金

大模型/agent评测技术交流:关注公众号,发送消息"进群"