深度文章 · 非线智能 NoneLinear

谷歌gemini-3-flash-preview实测

谷歌gemini-3-flash-preview实测聚焦于模型在不同应用场景下的性能变化，教育领域能力从36.0%大幅提升至63.5%，近乎翻倍；推理与数学计算能力从67.5%提高到83.4%，医疗与心理健康、金融领域分别提升15.1%和13.7%。整体准确率达71.5%，但平均响应时间增至72秒，每千次成本53.5元。与同类模型相比，该版本在50-100元成本区间内以最低价格提供最高准确率

深度大模型评测及优化NoneLinear 阅读 711 2025-12-19

OpenAI gpt-5.2-medium实测

OpenAI gpt-5.2-medium实测评估了该模型在多个专业领域的能力表现，基于约1.5万测试题的评测显示，其总分准确率为64.3%，较前代gpt-5.1-medium下降5.0个百分点。推理与数学计算能力从84.7%降至78.0%，语言与指令遵从从67.0%降至60.2%，Agent与工具调用能力也下滑明显。尽管能力指标回落，但响应时间大幅提升，平均耗时仅29秒，用户体验得到改善。

深度大模型评测及优化NoneLinear 阅读 530 2025-12-17

OpenAI GPT-5.2-high实测

本次实测揭示了GPT-5.2-high版本在性能上的分化与权衡。相较于GPT-5.1-high，其整体准确率下滑了2.3个百分点，排名显著下降。这种变化主要源于Agent与工具调用、语言指令遵从能力的明显回落。然而，在金融、法律与行政等特定专业领域的准确率却有所提升，同时核心推理与数学能力保持稳定。这表明新版本可能在进行针对性的能力结构调整。

深度大模型评测及优化NoneLinear 阅读 1190 2025-12-16

OpenAI GPT-5.2体验测试（附完整prompt）

针对GPT-5.2的评测通过20余个场景的具体数据，量化了模型在不同任务类型中的表现。测试表明，该模型在网页开发、动画生成等任务的完成度普遍较高，但在处理高难度空间推理或复杂条件逻辑等特定问题时存在明显局限，测试结论指出，模型在日常快速响应任务中成功率显著，而在深度推理场景中则有待提升。

深度大模型评测及优化NoneLinear 阅读 567 2025-12-14

腾讯 Tencent HY 2.0 Think体验测试：会思考的模型，手艺却一般？

腾讯HY 2.0 Think模型的体验测试聚焦其深度思考能力在代码生成和逻辑推理中的实际表现。测试通过10个前端用例，如复古打印机和加密货币仪表盘，展示了模型能实现基本功能但创新细节不足。在深度思考方面，推理陷阱题中模型展现了自我修正能力，创意写作则保持合格水平。整体上，该模型在深度思考维度有进步，但UI生成手艺仍一般，适用于需要基础代码生成的开发场景。

深度大模型评测及优化NoneLinear 阅读 1335 2025-12-10

DeepSeek V3.2 体验测试：从复古打字机到3D圣诞树，10个用例拷问新模型

DeepSeek V3.2的体验测试通过10个用例全面评估了模型在前端交互、UI设计、数据可视化及创意实现等多方面的能力，测试涵盖从基础动画效果到企业级布局的挑战。结果显示，模型能完整实现核心功能，如复古打字机的打字节奏和拖拽交互，但在UI审美上存在不足，如加密货币仪表盘的玻璃拟态效果不够精致。整体上，模型在响应式设计和3D动画集成方面表现合格，能力覆盖广泛但细节优化有待提升。

深度大模型评测及优化NoneLinear 阅读 1067 2025-12-09

腾讯 HY 2.0 Instruct 实测

腾讯混元hunyuan-2.0-instruct-20251111模型的实测评估显示，其在能力结构上进行了显著调整。相较于前代模型，新版本在响应速度、token消耗效率和调用成本方面均有优化，特别是在agent与工具调用能力上提升达16.2个百分点。然而，这种优化伴随着权衡，语言与指令遵从能力出现大幅下降，金融、医疗等专业领域的准确率也有不同程度回落，反映出模型在性能与资源效率间的取舍。

深度大模型评测及优化NoneLinear 阅读 2354 2025-12-07

腾讯 Tencent HY 2.0 Think 实测

腾讯混元最新版语言模型Tencent HY 2.0的实测评测显示其整体性能显著提升，准确率从67.3%跃升至71.9%。在细分领域中，agent与工具调用能力从46.8%大幅提升至64.3%，医疗与心理健康领域也从82.9%提升至88.4%。推理与数学计算能力稳步增长至77.9%，但语言与指令遵从能力从72.9%下降至63.8%，表明模型在能力分布上进行了调整。

深度大模型评测及优化NoneLinear 阅读 2080 2025-12-06

DeepSeek-V3.2非思考模式实测

DeepSeek-V3.2非思考模式实测揭示了其在多项能力上的显著变化。测试显示，新版本在金融和法律领域的准确率分别提升至81.8%和82.7%，但在语言与指令遵从方面下降了8.3个百分点，工具调用能力也从53.9%降至50.6%。同时，响应速度大幅提升，平均耗时从201秒缩短至75秒，而整体准确率从66.3%下降到64.4%，排名下滑11位，表明能力发展不均衡。

深度大模型评测及优化NoneLinear 阅读 1747 2025-12-05

DeepSeek-V3.2实测

DeepSeek-V3.2-Think模型在本次实测中展现出思考模式下的全面优化。该版本在整体准确率上从70.1%提升至70.9%，其中教育、医疗与心理健康、推理与数学计算等核心能力领域均实现了2.3至3.5个百分点的显著进步，体现了其在复杂认知任务上的协调增强。同时，模型的单次平均响应时间从248秒大幅缩减至144秒，优化幅度约42%，用户交互效率得到明显改善。

深度大模型评测及优化NoneLinear 阅读 1255 2025-12-04

百度ERNIE-5.0-Thinking-Preview实测

百度ERNIE-5.0-Thinking-Preview实测提供了具体性能数据，平均准确率67.5%，响应时间301秒，token消耗3202，成本72.5元每千次调用，与旧版本相比成本增加40倍，响应时间延长4.6倍；与其他模型如豆包doubao-seed（15.6元实现71.7%准确率）对比，成本效率比存在显著差距，凸显数据层面的权衡。

深度大模型评测及优化NoneLinear 阅读 1146 2025-11-28

GPT-5.1-high实测

GPT-5.1-high实测深入分析了该模型的性能变化。测试结果显示，整体准确率从68.9%微增至69.7%，但推理与数学计算能力显著提升10.0个百分点，达到84.7%。医疗、金融和法律等专业领域准确率也有小幅改善。然而，语言理解能力下滑8.6%，教育领域下降2.5%，表明深度思考模式在增强推理的同时削弱了基础指令遵从。模型平均耗时117秒，token消耗激增336%，反映了高性能的代价。

深度大模型评测及优化NoneLinear 阅读 1132 2025-11-27

Grok-4-1-fast-reasoning实测

Grok-4-1-fast-reasoning的实测聚焦于其在智能体工具调用场景下的优化效果。官方定位为高性能智能体模型，Agent能力从48.4%提升至65.4%，速度从293秒缩短至62秒，显著改善响应体验，成本从每千次241.5元降至8.1元。然而，在实际应用中，准确率64.3%在同成本模型中表现中等，且专业领域能力下滑，可能限制多场景适用性，需在速度与准确率间权衡。

深度大模型评测及优化NoneLinear 阅读 2198 2025-11-26

Grok-4-1-fast-non-reasoning实测

本文对Grok-4-1-fast-non-reasoning模型进行了数据驱动的实测。测试基于约1.5万道题，准确率为47.6%，平均响应时间60秒，每次调用消耗685 token，成本为每千次调用1.61元。对比前代grok-3-mini，准确率从61.7%骤降至47.6%，降幅14.1个百分点；响应时间从182秒缩短至60秒，提速67%；token消耗减少，导致成本从5.2元降至1.6元。

深度大模型评测及优化NoneLinear 阅读 2806 2025-11-26

Gemini-3-pro 实测：登顶榜首但成本激增，打破豆包250天霸榜神话

Gemini-3-pro-preview虽在评测中超越豆包成为新王者，但高成本可能严重限制其商用场景应用。每千次调用247.3元的成本是豆包的近16倍，对于日常应用如客服或内容生成，规模化部署面临显著障碍。尽管响应时间优化至64秒，但豆包的37秒在实时交互中更具优势，影响用户体验。在科研或极致准确率需求领域成本或许可接受，但普遍商用需权衡性能与费用，其医疗和推理领域优势与语言理解回退共同影响通用性

深度大模型评测及优化NoneLinear 阅读 2320 2025-11-25

GPT-5.1-medium实测

GPT-5.1-medium实测评估了其在多个实际应用场景中的表现。医疗与心理健康领域准确率从75.6%升至77.3%，金融领域从71.3%升至75.4%，agent与工具调用从57.8%升至61.7%，显示在专业任务中能力强化。思考模式适合需要深度推理的复杂场景，但教育和法律行政领域下降，且高token消耗和响应时间可能限制日常应用。

深度大模型评测及优化NoneLinear 阅读 2471 2025-11-21

GPT-5.1实测：准确率大幅下滑，OpenAI押注"情绪价值"能否奏效？

GPT-5.1的战略转型意味着其应用场景的定位可能发生变化。模型在传统基准任务上的性能退步，表明它或许不再以复杂的专业分析、精确的数学推理或严格的指令执行见长。相反，官方强调的“更温暖、更有同理心”的特性，暗示其更适用于注重交互流畅性、情感陪伴和自然对话的场景。因此，对于需要高度精确性和逻辑深度的应用，该版本可能并非最优选择，而在强调沟通体验的领域，其潜在价值有待进一步评估。

深度大模型评测及优化NoneLinear 阅读 2903 2025-11-20

Gemini 3 Pro体验测试：当AI真的开始"思考"，会发生什么？（附体验链接）

谷歌Gemini 3 Pro作为全球最强多模态推理模型，展示了AI在复杂任务中的推理与执行能力。测试覆盖学习辅助、创意开发、代码生成和长期规划四个场景，要求生成可直接运行的代码或可交付成果。模型能够处理多模态输入，输出符合技术要求的HTML、React应用或策略报告，体现其将抽象需求转化为具体功能的能力，标志着AI在思考与实践结合上的进步。

深度大模型评测及优化NoneLinear 阅读 1669 2025-11-19

MiniMax-M2实测：轻量级MoE架构带来性能提升与成本优化

MiniMax-M2是一款专为编码与智能体应用设计的轻量级MoE模型，其轻量架构在多个能力维度实现了性能与效率的权衡。新版本在保持推理能力稳定的同时，显著优化了语言指令遵从及工具调用能力，准确率提升3.3个百分点。不过在部分专业领域的表现有所回落，体现了针对通用场景的优化侧重。

深度大模型评测及优化NoneLinear 阅读 1529 2025-11-04