腾讯 Tencent HY 2.0 Think 实测
腾讯混元最新版语言模型Tencent HY 2.0的实测评测显示其整体性能显著提升,准确率从67.3%跃升至71.9%。在细分领域中,agent与工具调用能力从46.8%大幅提升至64.3%,医疗与心理健康领域也从82.9%提升至88.4%。推理与数学计算能力稳步增长至77.9%,但语言与指令遵从能力从72.9%下降至63.8%,表明模型在能力分布上进行了调整。
腾讯混元最新版语言模型Tencent HY 2.0的实测评测显示其整体性能显著提升,准确率从67.3%跃升至71.9%。在细分领域中,agent与工具调用能力从46.8%大幅提升至64.3%,医疗与心理健康领域也从82.9%提升至88.4%。推理与数学计算能力稳步增长至77.9%,但语言与指令遵从能力从72.9%下降至63.8%,表明模型在能力分布上进行了调整。
DeepSeek-V3.2非思考模式实测揭示了其在多项能力上的显著变化。测试显示,新版本在金融和法律领域的准确率分别提升至81.8%和82.7%,但在语言与指令遵从方面下降了8.3个百分点,工具调用能力也从53.9%降至50.6%。同时,响应速度大幅提升,平均耗时从201秒缩短至75秒,而整体准确率从66.3%下降到64.4%,排名下滑11位,表明能力发展不均衡。
DeepSeek-V3.2-Think模型在本次实测中展现出思考模式下的全面优化。该版本在整体准确率上从70.1%提升至70.9%,其中教育、医疗与心理健康、推理与数学计算等核心能力领域均实现了2.3至3.5个百分点的显著进步,体现了其在复杂认知任务上的协调增强。同时,模型的单次平均响应时间从248秒大幅缩减至144秒,优化幅度约42%,用户交互效率得到明显改善。
百度ERNIE-5.0-Thinking-Preview实测提供了具体性能数据,平均准确率67.5%,响应时间301秒,token消耗3202,成本72.5元每千次调用,与旧版本相比成本增加40倍,响应时间延长4.6倍;与其他模型如豆包doubao-seed(15.6元实现71.7%准确率)对比,成本效率比存在显著差距,凸显数据层面的权衡。
GPT-5.1-high实测深入分析了该模型的性能变化。测试结果显示,整体准确率从68.9%微增至69.7%,但推理与数学计算能力显著提升10.0个百分点,达到84.7%。医疗、金融和法律等专业领域准确率也有小幅改善。然而,语言理解能力下滑8.6%,教育领域下降2.5%,表明深度思考模式在增强推理的同时削弱了基础指令遵从。模型平均耗时117秒,token消耗激增336%,反映了高性能的代价。
Grok-4-1-fast-reasoning的实测聚焦于其在智能体工具调用场景下的优化效果。官方定位为高性能智能体模型,Agent能力从48.4%提升至65.4%,速度从293秒缩短至62秒,显著改善响应体验,成本从每千次241.5元降至8.1元。然而,在实际应用中,准确率64.3%在同成本模型中表现中等,且专业领域能力下滑,可能限制多场景适用性,需在速度与准确率间权衡。
本文对Grok-4-1-fast-non-reasoning模型进行了数据驱动的实测。测试基于约1.5万道题,准确率为47.6%,平均响应时间60秒,每次调用消耗685 token,成本为每千次调用1.61元。对比前代grok-3-mini,准确率从61.7%骤降至47.6%,降幅14.1个百分点;响应时间从182秒缩短至60秒,提速67%;token消耗减少,导致成本从5.2元降至1.6元。
Gemini-3-pro-preview虽在评测中超越豆包成为新王者,但高成本可能严重限制其商用场景应用。每千次调用247.3元的成本是豆包的近16倍,对于日常应用如客服或内容生成,规模化部署面临显著障碍。尽管响应时间优化至64秒,但豆包的37秒在实时交互中更具优势,影响用户体验。在科研或极致准确率需求领域成本或许可接受,但普遍商用需权衡性能与费用,其医疗和推理领域优势与语言理解回退共同影响通用性
GPT-5.1-medium实测评估了其在多个实际应用场景中的表现。医疗与心理健康领域准确率从75.6%升至77.3%,金融领域从71.3%升至75.4%,agent与工具调用从57.8%升至61.7%,显示在专业任务中能力强化。思考模式适合需要深度推理的复杂场景,但教育和法律行政领域下降,且高token消耗和响应时间可能限制日常应用。
GPT-5.1的战略转型意味着其应用场景的定位可能发生变化。模型在传统基准任务上的性能退步,表明它或许不再以复杂的专业分析、精确的数学推理或严格的指令执行见长。相反,官方强调的“更温暖、更有同理心”的特性,暗示其更适用于注重交互流畅性、情感陪伴和自然对话的场景。因此,对于需要高度精确性和逻辑深度的应用,该版本可能并非最优选择,而在强调沟通体验的领域,其潜在价值有待进一步评估。
谷歌Gemini 3 Pro作为全球最强多模态推理模型,展示了AI在复杂任务中的推理与执行能力。测试覆盖学习辅助、创意开发、代码生成和长期规划四个场景,要求生成可直接运行的代码或可交付成果。模型能够处理多模态输入,输出符合技术要求的HTML、React应用或策略报告,体现其将抽象需求转化为具体功能的能力,标志着AI在思考与实践结合上的进步。
MiniMax-M2是一款专为编码与智能体应用设计的轻量级MoE模型,其轻量架构在多个能力维度实现了性能与效率的权衡。新版本在保持推理能力稳定的同时,显著优化了语言指令遵从及工具调用能力,准确率提升3.3个百分点。不过在部分专业领域的表现有所回落,体现了针对通用场景的优化侧重。