腾讯 Tencent HY 2.0 Think 实测 · 非线智能 NoneLinear

腾讯混元最新版语言模型Tencent HY 2.0正式发布。HY 2.0采用混合专家（MoE）架构，总参数406B，激活参数32B，支持256K上下文窗口。我们对新版本hunyuan-2.0-thinking-20251109与上一版本hunyuan-t1-20250711进行了全面对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

hunyuan-2.0-thinking-20251109版本表现：

测试题数：约1.5万
总分（准确率）：71.9%
平均耗时（每次调用）：28s
平均token（每次调用消耗的token）：2544
平均花费（每千次调用的人民币花费）：9.5

1、新旧版本对比

首先对比上个版本（hunyuan-t1-20250711），数据如下：

引自非线智能（GitHub 第一 AI 商业测评） - 腾讯 Tencent HY 2.0 Think 实测

*数据来源：ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格是"1元/M token "

整体性能显著跃升：新版本准确率从67.3%提升至71.9%，提升了4.6个百分点，排名从第18位大幅跃升至第2位。
专业能力全面增强：从细分领域来看，新版本在大多数领域有显著的提升。最突出的是"agent与工具调用"能力，从46.8%大幅提升至64.3%，增幅高达17.5个百分点。"医疗与心理健康"领域也从82.9%提升至88.4%（+5.5%）。
推理能力稳步提升："推理与数学计算能力"从72.0%提升至77.9%，增幅达5.9个百分点，验证了官方宣称的"在数学、科学、代码等复杂推理场景综合表现提升"。
部分领域出现回落：值得注意的是，"语言与指令遵从"能力从72.9%下降至63.8%，降幅达9.1个百分点，这在整体性能大幅提升的背景下形成了反差，表明新版本在能力分布上进行了重新权衡。
速度大幅提升：每次调用的平均耗时从71s大幅缩短至28s，提升约153%，是本次升级中改进幅度最大的指标。
Token消耗优化：平均消耗token从2707降至2544，减少约6%，结合速度提升，说明新版本实现了更高效的推理过程。
成本小幅下降：每千次调用的费用从9.9元降至9.5元，下降约4%，变化不大。

2、对比其他新模型

在当前主流大模型竞争格局中，hunyuan-2.0-thinking-20251109表现如何？我们选择了具有代表性的模型进行横向对比分析：

*数据来源：ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比：

同档位表现靠前：在9-10元/千次的成本档位中，hunyuan-2.0-thinking-20251109以71.9%的准确率领先于同档位的hunyuan-t1-20250711（67.3%，9.9元）和ERNIE-X1.1-Preview（64.5%，9.3元）。
对比更高成本档位模型：与花费更高的doubao-seed-1-6-thinking-250715（71.7%，15.6元）相比，hunyuan-2.0-thinking-20251109准确率相当但成本降低近40%；与qwen-plus-think-2025-07-28（67.5%，26元）相比，总分准确率更高且成本仅为其36%。
速度优势明显：28s的响应时间在同成本档位模型中表现最优，远快于doubao-seed-1-6-thinking-250715（37s）和hunyuan-t1-20250711（71s）。

新模型竞争格局：

紧追榜首：hunyuan-2.0-thinking-20251109以71.9%的准确率位居第2，仅落后榜首gemini-3-pro-preview（72.5%）0.6个百分点。
与主流竞品对比：相比其他近期发布的模型，hunyuan-2.0-thinking-20251109领先DeepSeek-V3.2-Think（70.9%）1.0个百分点，领先gpt-5.1-high（69.7%）2.2个百分点，领先GLM-4.6（68.1%）3.8个百分点。
成本处于中低水平：9.5元/千次的成本低于gemini-3-pro-preview（247.3元）、gpt-5.1-high（180元）等海外模型，但高于DeepSeek-V3.2-Think（7.5元）等开源方案。。

开源VS闭源对比：

头部格局：从榜单来看，前三名均为闭源商用模型（gemini-3-pro-preview、hunyuan-2.0-thinking-20251109、doubao-seed-1-6-thinking-250715），开源模型中表现最好的DeepSeek-V3.2-Think排名第4（70.9%）。
成本与性能权衡：hunyuan-2.0-thinking-20251109（9.5元，71.9%）相比开源模型DeepSeek-V3.2-Think（7.5元，70.9%），成本高出27%，准确率高出1.0个百分点，成本效率比各有侧重。
响应速度差异：hunyuan-2.0-thinking-20251109的28s响应时间明显快于开源思考模型DeepSeek-V3.2-Think（144s）和qwen3-235b-a22b-thinking（143s），但开源模型在部署灵活性上具有自身优势。

3、官方评测

腾讯官方在发布会上公布了HY 2.0 Think的技术特性和内部评测数据：

数学科学知识推理：官方表示使用高质量数据进行Large Rollout强化学习，在国际数学奥林匹克竞赛（IMO-AnswerBench）和哈佛MIT数学竞赛（HMMT2025）等测试中取得一流成绩，在Humanity's Last Exam（HLE）和ARC AGI等任务上也有提升。
指令遵循与长文多轮能力：官方称通过重要性采样修正缓解了训练和推理不一致问题，在Multi Challenge等指令遵循和多轮任务上有所提升。
代码与智能体能力：官方表示在SWE-bench Verified及Tau2-Bench等智能体任务上实现了提升。

推理效率：

官方强调HY 2.0 Think引入了长度惩罚策略，在取得类似准确率的情况下消耗更少的tokens。从官方对比图来看，HY 2.0 Think在IMO-AnswerBench、HMMT2025、ARC-AGI、HLE四个任务上的token消耗低于部分竞品模型。

用户体验：

官方宣称基于RLVR+RLHF双阶段强化学习策略，在文本创作、前端开发、指令遵循等场景有所改进。

我们官网https://nonelinear.com/static/models.html已上线hunyuan-2.0-thinking-20251109，欢迎对比体验。同时，非线智能API支持Api聚合以及Api中转，提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号，领50元体验金

大模型/agent评测技术交流：关注公众号，发送消息"进群"