深度文章

腾讯 Tencent HY 2.0 Think 实测

腾讯 Tencent HY 2.0 Think 实测

腾讯混元最新版语言模型Tencent HY 2.0的实测评测显示其整体性能显著提升,准确率从67.3%跃升至71.9%。在细分领域中,agent与工具调用能力从46.8%大幅提升至64.3%,医疗与心理健康领域也从82.9%提升至88.4%。推理与数学计算能力稳步增长至77.9%,但语言与指令遵从能力从72.9%下降至63.8%,表明模型在能力分布上进行了调整。

深度 大模型评测及优化NoneLinear 阅读 2044 2025-12-06
DeepSeek-V3.2非思考模式实测

DeepSeek-V3.2非思考模式实测

DeepSeek-V3.2非思考模式实测揭示了其在多项能力上的显著变化。测试显示,新版本在金融和法律领域的准确率分别提升至81.8%和82.7%,但在语言与指令遵从方面下降了8.3个百分点,工具调用能力也从53.9%降至50.6%。同时,响应速度大幅提升,平均耗时从201秒缩短至75秒,而整体准确率从66.3%下降到64.4%,排名下滑11位,表明能力发展不均衡。

深度 大模型评测及优化NoneLinear 阅读 1539 2025-12-05
DeepSeek-V3.2实测

DeepSeek-V3.2实测

DeepSeek-V3.2-Think模型在本次实测中展现出思考模式下的全面优化。该版本在整体准确率上从70.1%提升至70.9%,其中教育、医疗与心理健康、推理与数学计算等核心能力领域均实现了2.3至3.5个百分点的显著进步,体现了其在复杂认知任务上的协调增强。同时,模型的单次平均响应时间从248秒大幅缩减至144秒,优化幅度约42%,用户交互效率得到明显改善。

深度 大模型评测及优化NoneLinear 阅读 1359 2025-12-04
百度ERNIE-5.0-Thinking-Preview实测

百度ERNIE-5.0-Thinking-Preview实测

百度ERNIE-5.0-Thinking-Preview实测提供了具体性能数据,平均准确率67.5%,响应时间301秒,token消耗3202,成本72.5元每千次调用,与旧版本相比成本增加40倍,响应时间延长4.6倍;与其他模型如豆包doubao-seed(15.6元实现71.7%准确率)对比,成本效率比存在显著差距,凸显数据层面的权衡。

深度 大模型评测及优化NoneLinear 阅读 1285 2025-11-28
GPT-5.1-high实测

GPT-5.1-high实测

GPT-5.1-high实测深入分析了该模型的性能变化。测试结果显示,整体准确率从68.9%微增至69.7%,但推理与数学计算能力显著提升10.0个百分点,达到84.7%。医疗、金融和法律等专业领域准确率也有小幅改善。然而,语言理解能力下滑8.6%,教育领域下降2.5%,表明深度思考模式在增强推理的同时削弱了基础指令遵从。模型平均耗时117秒,token消耗激增336%,反映了高性能的代价。

深度 大模型评测及优化NoneLinear 阅读 931 2025-11-27
Grok-4-1-fast-reasoning实测

Grok-4-1-fast-reasoning实测

Grok-4-1-fast-reasoning的实测聚焦于其在智能体工具调用场景下的优化效果。官方定位为高性能智能体模型,Agent能力从48.4%提升至65.4%,速度从293秒缩短至62秒,显著改善响应体验,成本从每千次241.5元降至8.1元。然而,在实际应用中,准确率64.3%在同成本模型中表现中等,且专业领域能力下滑,可能限制多场景适用性,需在速度与准确率间权衡。

深度 大模型评测及优化NoneLinear 阅读 1765 2025-11-26
Grok-4-1-fast-non-reasoning实测

Grok-4-1-fast-non-reasoning实测

本文对Grok-4-1-fast-non-reasoning模型进行了数据驱动的实测。测试基于约1.5万道题,准确率为47.6%,平均响应时间60秒,每次调用消耗685 token,成本为每千次调用1.61元。对比前代grok-3-mini,准确率从61.7%骤降至47.6%,降幅14.1个百分点;响应时间从182秒缩短至60秒,提速67%;token消耗减少,导致成本从5.2元降至1.6元。

深度 大模型评测及优化NoneLinear 阅读 2654 2025-11-26
Gemini-3-pro 实测:登顶榜首但成本激增,打破豆包250天霸榜神话

Gemini-3-pro 实测:登顶榜首但成本激增,打破豆包250天霸榜神话

Gemini-3-pro-preview虽在评测中超越豆包成为新王者,但高成本可能严重限制其商用场景应用。每千次调用247.3元的成本是豆包的近16倍,对于日常应用如客服或内容生成,规模化部署面临显著障碍。尽管响应时间优化至64秒,但豆包的37秒在实时交互中更具优势,影响用户体验。在科研或极致准确率需求领域成本或许可接受,但普遍商用需权衡性能与费用,其医疗和推理领域优势与语言理解回退共同影响通用性

深度 大模型评测及优化NoneLinear 阅读 2117 2025-11-25
GPT-5.1-medium实测

GPT-5.1-medium实测

GPT-5.1-medium实测评估了其在多个实际应用场景中的表现。医疗与心理健康领域准确率从75.6%升至77.3%,金融领域从71.3%升至75.4%,agent与工具调用从57.8%升至61.7%,显示在专业任务中能力强化。思考模式适合需要深度推理的复杂场景,但教育和法律行政领域下降,且高token消耗和响应时间可能限制日常应用。

深度 大模型评测及优化NoneLinear 阅读 2394 2025-11-21
GPT-5.1实测:准确率大幅下滑,OpenAI押注"情绪价值"能否奏效?

GPT-5.1实测:准确率大幅下滑,OpenAI押注"情绪价值"能否奏效?

GPT-5.1的战略转型意味着其应用场景的定位可能发生变化。模型在传统基准任务上的性能退步,表明它或许不再以复杂的专业分析、精确的数学推理或严格的指令执行见长。相反,官方强调的“更温暖、更有同理心”的特性,暗示其更适用于注重交互流畅性、情感陪伴和自然对话的场景。因此,对于需要高度精确性和逻辑深度的应用,该版本可能并非最优选择,而在强调沟通体验的领域,其潜在价值有待进一步评估。

深度 大模型评测及优化NoneLinear 阅读 2287 2025-11-20
Gemini 3 Pro体验测试:当AI真的开始"思考",会发生什么?(附体验链接)

Gemini 3 Pro体验测试:当AI真的开始"思考",会发生什么?(附体验链接)

谷歌Gemini 3 Pro作为全球最强多模态推理模型,展示了AI在复杂任务中的推理与执行能力。测试覆盖学习辅助、创意开发、代码生成和长期规划四个场景,要求生成可直接运行的代码或可交付成果。模型能够处理多模态输入,输出符合技术要求的HTML、React应用或策略报告,体现其将抽象需求转化为具体功能的能力,标志着AI在思考与实践结合上的进步。

深度 大模型评测及优化NoneLinear 阅读 1214 2025-11-19
MiniMax-M2实测:轻量级MoE架构带来性能提升与成本优化

MiniMax-M2实测:轻量级MoE架构带来性能提升与成本优化

MiniMax-M2是一款专为编码与智能体应用设计的轻量级MoE模型,其轻量架构在多个能力维度实现了性能与效率的权衡。新版本在保持推理能力稳定的同时,显著优化了语言指令遵从及工具调用能力,准确率提升3.3个百分点。不过在部分专业领域的表现有所回落,体现了针对通用场景的优化侧重。

深度 大模型评测及优化NoneLinear 阅读 1482 2025-11-04
第 5 / 5 页 · 共 92 篇