深度文章

百度 ERNIE-5.0（文心5.0）体验测试（附完整prompt）

本文测试了百度ERNIE-5.0（文心5.0），这是一款参数达2.4万亿的原生全模态大模型，采用统一建模技术，支持文本、图像、音频、视频等多种信息的输入与输出。测试数据表明，ERNIE-5.0在中文语义判别和空间推理任务中得分较高，例如立体几何推理正确，但在大数计算和代码生成任务中错误率显著，如大数乘法结果错误、HTML生成大量失败。这些量化结果揭示了模型在不同任务上的性能差异和局限性。

深度大模型评测及优化NoneLinear 阅读 821 2026-02-05

阿里 Qwen3-Max-Thinking 体验测试（附完整prompt）

阿里Qwen3-Max-Thinking是一款专注于深度推理的万亿参数旗舰模型，在数学计算、逻辑分析和复杂问题解决方面展现出强大能力。测试表明，它能精准处理大数运算、进行清晰的立体几何推理，并能深刻理解中文语义中的陷阱与双关。作为推理模型，其输出逻辑链条完整且解释详尽，适合需要严谨分析的场景。然而，模型在响应速度上相对较慢，且偶尔会陷入特定的逻辑陷阱，显示出在常识判断与执行效率方面仍有提升空间。

深度大模型评测及优化NoneLinear 阅读 1669 2026-02-04

阶跃星辰Step 3.5 Flash实测

阶跃星辰Step 3.5 Flash实测评估了其技术架构与核心能力，该模型采用稀疏MoE架构，总参数1960亿，每token仅激活约110亿参数，支持256K上下文窗口。推理速度最高可达350 TPS，实测平均响应时间从184秒缩短至36秒，提升约80%。在准确率方面，模型达到64.2%，并在推理与数学计算领域有明显改进，与官方宣称的推理能力优化一致，技术设计注重高效推理，适合Agent场景。

深度大模型评测及优化NoneLinear 阅读 516 2026-02-03

阿里 qwen3-max-2026-01-23 实测

阿里qwen3-max-2026-01-23的实测揭示了其在不同应用场景中的适用性和成本效率。作为非思考模式版本，67.6%的准确率与思考模式版本存在差距，但成本仅为后者的22%，适用于对成本敏感的应用。在同成本档位中竞争力一般，但在金融、法律等专业领域表现提升，适合相关行业使用。响应时间改善至96秒，增强了实时应用的体验，整体适合预算有限或非复杂推理任务。

深度大模型评测及优化NoneLinear 阅读 1135 2026-01-29

月之暗面Kimi K2.5实测

月之暗面Kimi K2.5-Thinking版本在多个核心能力上实现了迭代升级，尤其是在深度推理和指令遵循方面表现突出。该模型在中文场景的通用智能任务评测中，相较于前代K2-Thinking版本，其推理与数学计算能力与语言指令遵从能力均获得显著提升，但Agent与工具调用能力出现明显回落，新旧版本间的性能变化呈现出结构性差异。

深度大模型评测及优化NoneLinear 阅读 1591 2026-01-28

阿里Qwen3-Max-Thinking实测：超越Gemini 3 pro荣登世界第一

阿里Qwen3-Max-Thinking模型参数量超万亿，预训练数据高达36T Tokens，在实测中排名全球第一，测试题数约1.5万。准确率72.8%，平均每次调用耗时214秒，消耗4540个token。成本方面，每千次调用花费43.5元，较预览版下降约50%，输出价格从24.0元/M token降至10.0元/M token，降幅达58%，在性能提升的同时实现成本优化。

深度大模型评测及优化NoneLinear 阅读 876 2026-01-27

百度ERNIE-5.0实测

百度ERNIE-5.0原生全模态大模型的实测结果显示其整体性能与多领域能力均获得显著提升。相较于预览版，其准确率从67.5%提升至70.9%，在教育、推理与数学计算、医疗与金融等专业领域的得分增幅尤为突出，语言理解与工具调用能力也同步增强，仅在法律与行政公务领域出现小幅波动。此次升级体现了模型在复杂任务处理上的综合实力强化，使其在主流大模型竞争中取得了更具优势的排名表现。

深度大模型评测及优化NoneLinear 阅读 648 2026-01-24

美团LongCat-Flash-Thinking-2601实测

美团LongCat-Flash-Thinking-2601实测评估了其在实际应用场景中的表现。该模型在教育、医疗与金融等专业领域优势明显，教育准确率47.3%，医疗78.5%，金融79.8%，适合知识问答类任务。然而，376秒的响应时间可能限制快速交互场景的使用，token消耗4484也较高。尽管免费，但在与豆包等模型对比时，准确率略低，更适用于对准确性要求高但对速度容忍度高的应用。

深度大模型评测及优化NoneLinear 阅读 2960 2026-01-23

智谱GLM-4.7-Flash实测：新版本性能大幅下滑

智谱GLM-4.7-Flash实测显示其相比前代GLM-4.5-Flash版本性能出现显著下滑。在约1.5万题的测试中，其准确率从63.0%大幅降至55.5%，整体排名从第55位跌至第84位。细分领域表现全面倒退，其中“语言与指令遵从”能力下降16.6%，法律、医疗等专业领域降幅也超过10个百分点。新版本每次调用的平均token消耗和响应时间也分别增加了111%和近19倍，运营效率面临挑战。

深度大模型评测及优化NoneLinear 阅读 2002 2026-01-22

GLM-4.6V 多模态能力体验测试（附完整prompt）

本文对智谱AI最新发布的GLM-4.6V大模型进行了多维度多模态能力体验测试。该模型的核心特性在于原生的多模态工具调用能力，它能够直接将图像、截图等视觉元素作为参数传递给工具，形成“感知-理解-执行”的闭环，从而在处理富文本内容和视觉任务时减少信息损耗。测试涵盖了超过60个案例，旨在全面评估其在真实任务中的表现。

深度大模型评测及优化NoneLinear 阅读 2026 2026-01-21

美团 LongCat-Flash-Thinking-2601 体验测试（附完整prompt）

美团 LongCat-Flash-Thinking-2601 的体验测试全面评估了模型的能力，包括工具调用、基础推理和视觉理解。测试发现，该模型在工具类网页开发上表现亮眼，如水印处理工具功能完整交互丝滑，复利计算器UI专业图表实时，公众号排版工具核心功能跑通，实用性强；部分游戏实现出色，如技能五子棋完成度高逻辑清晰。然而，基础推理频繁出错，立体几何推理过程有幻觉，推理陷阱题被套，字符串反转乱序

深度大模型评测及优化NoneLinear 阅读 2038 2026-01-18

MiniMax-M2.1 体验测试（附完整prompt）

MiniMax-M2.1在编程相关基准测试中提升了性能，体验测试覆盖了六大板块。在大数计算中，模型响应虽慢但结果正确；立体几何推理准确；视频理解在多模态测试中为强项。具体数据表明，模型在黄金矿工、太空射击等代码任务完成度高，但3D场景如体素花园全面翻车。测试包括OCR识别、图像理解等，提供完整prompt供参考。

深度大模型评测及优化NoneLinear 阅读 2033 2026-01-07

智谱 GLM-4.7 体验测试（附完整prompt）

智谱GLM-4.7是智谱AI 2025年中的旗舰大模型，主打Agentic Coding能力。本次测试评估了其综合表现，结论显示模型在基础推理、创意写作及调研分析等任务上具备扎实且稳定的能力，尤其文本理解与创意生成表现亮眼。然而，在复杂代码生成（如3D场景渲染）与多模态视觉理解等任务上存在明显短板，指令遵循也偶有偏差，距离其宣称的“新标准”尚有差距。

深度大模型评测及优化NoneLinear 阅读 943 2026-01-04

阿里 qwen3-max-preview-think 实测

评测分析了阿里qwen3-max-preview-think模型在实际应用场景中的适用性。该模型在需要深度推理的场景如Agent任务中表现突出，Agent能力提升22.7%，但响应时间延长至182秒，对实时性要求高的应用构成制约。成本敏感场景需谨慎考虑，每千次调用费用86.8元，远高于非思考版本。语言理解能力下降可能影响指令执行，专业领域如教育、金融表现下降，适合特定推理任务而非通用实时交互。

深度大模型评测及优化NoneLinear 阅读 1164 2025-12-30

谷歌 gemini-3-flash-preview 体验测试（附完整prompt）

通过一系列测试用例，谷歌gemini-3-flash-preview的表现数据被详细记录和分析。数学推理中，大数乘法计算错误，但空间推理和逻辑陷阱题正确；文本处理如字符串反转和语义判别准确无误；创意内容质量高，职场话术贴合语境；多模态能力方面，OCR识别复杂表格准确，视频理解不错。然而，大数口算翻车，视频细节识别不足，这些数据揭示了模型在特定任务上的可靠性和局限性。

深度大模型评测及优化NoneLinear 阅读 2732 2025-12-28

阿里qwen-plus-think-2025-12-01实测

阿里qwen-plus-think-2025-12-01的实测结果为评估其实际应用价值提供了参考。模型在教育、法律、金融及医疗等垂直领域的任务准确率普遍下滑，这可能影响其在相关场景下的输出可靠性。成本的增加与性能的回落并存，使得其在当前竞争激烈的模型市场中定位显得复杂。值得注意的是，agent能力的提升表明模型在工具调用与任务执行方面进行了优化，这或许预示着其在自动化流程类应用中的潜在优势

深度大模型评测及优化NoneLinear 阅读 1532 2025-12-25

MiniMax-M2.1 实测

本次实测聚焦MiniMax-M2.1在各能力维度的具体变化。模型在金融（+11.1%）、法律（+5.6%）、Agent（+5.4%）等多个垂直领域准确率显著提升，但在语言与指令遵从能力上下降了3.2%。这表明新版在强化专业领域表现的同时，在基础语言理解上存在一定的性能权衡。

深度大模型评测及优化NoneLinear 阅读 1415 2025-12-23

智谱 GLM-4.7 实测表明，新版本在编程专用模型中实现了多维度性能提升。相比 GLM-4.6，准确率从 68.1% 升至 71.5%，排名上升至第五位。在推理与数学计算、教育、医疗与金融等领域的准确率均有显著增长，分别提升 6.0、5.1、6.0 和 6.5 个百分点。语言理解能力也改善 4.7 个百分点，但 Agent 与工具调用能力略有下降 1.8 个百分点，显示模型在整体优化中存在权衡。

深度大模型评测及优化NoneLinear 阅读 1810 2025-12-23

小米MiMo-V2-Flash实测

本次评测基于约1.5万道测试题，量化分析了MiMo-V2-Flash模型的关键性能指标。思考模式平均耗时81秒，单次调用消耗约3994个token；非思考模式耗时59秒，消耗1299个token。其思考模式总分准确率为62.0%，在当前主流模型中排名第55位，与部分顶尖商用模型存在约10个百分点的差距，但在同档位开源模型中处于中等水平。

深度大模型评测及优化NoneLinear 阅读 1071 2025-12-21

豆包doubao-seed-1-8-251215实测

豆包doubao-seed-1-8-251215实测突出其在工具调用和专业推理场景的适用性。模型在Agent与工具调用能力上提升34.5个百分点，达到63.1%，适合自动化任务和复杂指令处理。金融领域推理能力从80.6%增至86.0%，增强专业应用。虽然教育领域略有回落，但整体性能在低成本档位中表现优异，响应快速。这些改进使其在需要多模态理解和高效工具集成的场景中更具实用性。

深度大模型评测及优化NoneLinear 阅读 2426 2025-12-20

百度 ERNIE-5.0（文心5.0） 体验测试（附完整prompt）