深度文章

美团LongCat-Flash-Thinking-2601实测

美团LongCat-Flash-Thinking-2601实测

美团LongCat-Flash-Thinking-2601实测评估了其在实际应用场景中的表现。该模型在教育、医疗与金融等专业领域优势明显,教育准确率47.3%,医疗78.5%,金融79.8%,适合知识问答类任务。然而,376秒的响应时间可能限制快速交互场景的使用,token消耗4484也较高。尽管免费,但在与豆包等模型对比时,准确率略低,更适用于对准确性要求高但对速度容忍度高的应用。

深度 大模型评测及优化NoneLinear 阅读 3117 2026-01-23
智谱GLM-4.7-Flash实测:新版本性能大幅下滑

智谱GLM-4.7-Flash实测:新版本性能大幅下滑

智谱GLM-4.7-Flash实测显示其相比前代GLM-4.5-Flash版本性能出现显著下滑。在约1.5万题的测试中,其准确率从63.0%大幅降至55.5%,整体排名从第55位跌至第84位。细分领域表现全面倒退,其中“语言与指令遵从”能力下降16.6%,法律、医疗等专业领域降幅也超过10个百分点。新版本每次调用的平均token消耗和响应时间也分别增加了111%和近19倍,运营效率面临挑战。

深度 大模型评测及优化NoneLinear 阅读 1348 2026-01-22
GLM-4.6V 多模态能力体验测试(附完整prompt)

GLM-4.6V 多模态能力体验测试(附完整prompt)

本文对智谱AI最新发布的GLM-4.6V大模型进行了多维度多模态能力体验测试。该模型的核心特性在于原生的多模态工具调用能力,它能够直接将图像、截图等视觉元素作为参数传递给工具,形成“感知-理解-执行”的闭环,从而在处理富文本内容和视觉任务时减少信息损耗。测试涵盖了超过60个案例,旨在全面评估其在真实任务中的表现。

深度 大模型评测及优化NoneLinear 阅读 1846 2026-01-21
美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

美团 LongCat-Flash-Thinking-2601 的体验测试全面评估了模型的能力,包括工具调用、基础推理和视觉理解。测试发现,该模型在工具类网页开发上表现亮眼,如水印处理工具功能完整交互丝滑,复利计算器UI专业图表实时,公众号排版工具核心功能跑通,实用性强;部分游戏实现出色,如技能五子棋完成度高逻辑清晰。然而,基础推理频繁出错,立体几何推理过程有幻觉,推理陷阱题被套,字符串反转乱序

深度 大模型评测及优化NoneLinear 阅读 1764 2026-01-18
MiniMax-M2.1 体验测试(附完整prompt)

MiniMax-M2.1 体验测试(附完整prompt)

MiniMax-M2.1在编程相关基准测试中提升了性能,体验测试覆盖了六大板块。在大数计算中,模型响应虽慢但结果正确;立体几何推理准确;视频理解在多模态测试中为强项。具体数据表明,模型在黄金矿工、太空射击等代码任务完成度高,但3D场景如体素花园全面翻车。测试包括OCR识别、图像理解等,提供完整prompt供参考。

深度 大模型评测及优化NoneLinear 阅读 1466 2026-01-07
智谱 GLM-4.7 体验测试(附完整prompt)

智谱 GLM-4.7 体验测试(附完整prompt)

智谱GLM-4.7是智谱AI 2025年中的旗舰大模型,主打Agentic Coding能力。本次测试评估了其综合表现,结论显示模型在基础推理、创意写作及调研分析等任务上具备扎实且稳定的能力,尤其文本理解与创意生成表现亮眼。然而,在复杂代码生成(如3D场景渲染)与多模态视觉理解等任务上存在明显短板,指令遵循也偶有偏差,距离其宣称的“新标准”尚有差距。

深度 大模型评测及优化NoneLinear 阅读 771 2026-01-04
阿里 qwen3-max-preview-think 实测

阿里 qwen3-max-preview-think 实测

评测分析了阿里qwen3-max-preview-think模型在实际应用场景中的适用性。该模型在需要深度推理的场景如Agent任务中表现突出,Agent能力提升22.7%,但响应时间延长至182秒,对实时性要求高的应用构成制约。成本敏感场景需谨慎考虑,每千次调用费用86.8元,远高于非思考版本。语言理解能力下降可能影响指令执行,专业领域如教育、金融表现下降,适合特定推理任务而非通用实时交互。

深度 大模型评测及优化NoneLinear 阅读 939 2025-12-30
谷歌 gemini-3-flash-preview 体验测试(附完整prompt)

谷歌 gemini-3-flash-preview 体验测试(附完整prompt)

通过一系列测试用例,谷歌gemini-3-flash-preview的表现数据被详细记录和分析。数学推理中,大数乘法计算错误,但空间推理和逻辑陷阱题正确;文本处理如字符串反转和语义判别准确无误;创意内容质量高,职场话术贴合语境;多模态能力方面,OCR识别复杂表格准确,视频理解不错。然而,大数口算翻车,视频细节识别不足,这些数据揭示了模型在特定任务上的可靠性和局限性。

深度 大模型评测及优化NoneLinear 阅读 2213 2025-12-28
阿里qwen-plus-think-2025-12-01实测

阿里qwen-plus-think-2025-12-01实测

阿里qwen-plus-think-2025-12-01的实测结果为评估其实际应用价值提供了参考。模型在教育、法律、金融及医疗等垂直领域的任务准确率普遍下滑,这可能影响其在相关场景下的输出可靠性。成本的增加与性能的回落并存,使得其在当前竞争激烈的模型市场中定位显得复杂。值得注意的是,agent能力的提升表明模型在工具调用与任务执行方面进行了优化,这或许预示着其在自动化流程类应用中的潜在优势

深度 大模型评测及优化NoneLinear 阅读 1319 2025-12-25
MiniMax-M2.1 实测

MiniMax-M2.1 实测

本次实测聚焦MiniMax-M2.1在各能力维度的具体变化。模型在金融(+11.1%)、法律(+5.6%)、Agent(+5.4%)等多个垂直领域准确率显著提升,但在语言与指令遵从能力上下降了3.2%。这表明新版在强化专业领域表现的同时,在基础语言理解上存在一定的性能权衡。

深度 大模型评测及优化NoneLinear 阅读 1285 2025-12-23
智谱 GLM-4.7 实测

智谱 GLM-4.7 实测

智谱 GLM-4.7 实测表明,新版本在编程专用模型中实现了多维度性能提升。相比 GLM-4.6,准确率从 68.1% 升至 71.5%,排名上升至第五位。在推理与数学计算、教育、医疗与金融等领域的准确率均有显著增长,分别提升 6.0、5.1、6.0 和 6.5 个百分点。语言理解能力也改善 4.7 个百分点,但 Agent 与工具调用能力略有下降 1.8 个百分点,显示模型在整体优化中存在权衡。

深度 大模型评测及优化NoneLinear 阅读 1361 2025-12-23
小米MiMo-V2-Flash实测

小米MiMo-V2-Flash实测

本次评测基于约1.5万道测试题,量化分析了MiMo-V2-Flash模型的关键性能指标。思考模式平均耗时81秒,单次调用消耗约3994个token;非思考模式耗时59秒,消耗1299个token。其思考模式总分准确率为62.0%,在当前主流模型中排名第55位,与部分顶尖商用模型存在约10个百分点的差距,但在同档位开源模型中处于中等水平。

深度 大模型评测及优化NoneLinear 阅读 904 2025-12-21
豆包doubao-seed-1-8-251215实测

豆包doubao-seed-1-8-251215实测

豆包doubao-seed-1-8-251215实测突出其在工具调用和专业推理场景的适用性。模型在Agent与工具调用能力上提升34.5个百分点,达到63.1%,适合自动化任务和复杂指令处理。金融领域推理能力从80.6%增至86.0%,增强专业应用。虽然教育领域略有回落,但整体性能在低成本档位中表现优异,响应快速。这些改进使其在需要多模态理解和高效工具集成的场景中更具实用性。

深度 大模型评测及优化NoneLinear 阅读 2126 2025-12-20
谷歌gemini-3-flash-preview实测

谷歌gemini-3-flash-preview实测

谷歌gemini-3-flash-preview实测聚焦于模型在不同应用场景下的性能变化,教育领域能力从36.0%大幅提升至63.5%,近乎翻倍;推理与数学计算能力从67.5%提高到83.4%,医疗与心理健康、金融领域分别提升15.1%和13.7%。整体准确率达71.5%,但平均响应时间增至72秒,每千次成本53.5元。与同类模型相比,该版本在50-100元成本区间内以最低价格提供最高准确率

深度 大模型评测及优化NoneLinear 阅读 825 2025-12-19
OpenAI gpt-5.2-medium实测

OpenAI gpt-5.2-medium实测

OpenAI gpt-5.2-medium实测评估了该模型在多个专业领域的能力表现,基于约1.5万测试题的评测显示,其总分准确率为64.3%,较前代gpt-5.1-medium下降5.0个百分点。推理与数学计算能力从84.7%降至78.0%,语言与指令遵从从67.0%降至60.2%,Agent与工具调用能力也下滑明显。尽管能力指标回落,但响应时间大幅提升,平均耗时仅29秒,用户体验得到改善。

深度 大模型评测及优化NoneLinear 阅读 462 2025-12-17
OpenAI GPT-5.2-high实测

OpenAI GPT-5.2-high实测

本次实测揭示了GPT-5.2-high版本在性能上的分化与权衡。相较于GPT-5.1-high,其整体准确率下滑了2.3个百分点,排名显著下降。这种变化主要源于Agent与工具调用、语言指令遵从能力的明显回落。然而,在金融、法律与行政等特定专业领域的准确率却有所提升,同时核心推理与数学能力保持稳定。这表明新版本可能在进行针对性的能力结构调整。

深度 大模型评测及优化NoneLinear 阅读 1168 2025-12-16
OpenAI GPT-5.2体验测试(附完整prompt)

OpenAI GPT-5.2体验测试(附完整prompt)

针对GPT-5.2的评测通过20余个场景的具体数据,量化了模型在不同任务类型中的表现。测试表明,该模型在网页开发、动画生成等任务的完成度普遍较高,但在处理高难度空间推理或复杂条件逻辑等特定问题时存在明显局限,测试结论指出,模型在日常快速响应任务中成功率显著,而在深度推理场景中则有待提升。

深度 大模型评测及优化NoneLinear 阅读 570 2025-12-14
腾讯 Tencent HY 2.0 Think体验测试:会思考的模型,手艺却一般?

腾讯 Tencent HY 2.0 Think体验测试:会思考的模型,手艺却一般?

腾讯HY 2.0 Think模型的体验测试聚焦其深度思考能力在代码生成和逻辑推理中的实际表现。测试通过10个前端用例,如复古打印机和加密货币仪表盘,展示了模型能实现基本功能但创新细节不足。在深度思考方面,推理陷阱题中模型展现了自我修正能力,创意写作则保持合格水平。整体上,该模型在深度思考维度有进步,但UI生成手艺仍一般,适用于需要基础代码生成的开发场景。

深度 大模型评测及优化NoneLinear 阅读 1109 2025-12-10
DeepSeek V3.2 体验测试:从复古打字机到3D圣诞树,10个用例拷问新模型

DeepSeek V3.2 体验测试:从复古打字机到3D圣诞树,10个用例拷问新模型

DeepSeek V3.2的体验测试通过10个用例全面评估了模型在前端交互、UI设计、数据可视化及创意实现等多方面的能力,测试涵盖从基础动画效果到企业级布局的挑战。结果显示,模型能完整实现核心功能,如复古打字机的打字节奏和拖拽交互,但在UI审美上存在不足,如加密货币仪表盘的玻璃拟态效果不够精致。整体上,模型在响应式设计和3D动画集成方面表现合格,能力覆盖广泛但细节优化有待提升。

深度 大模型评测及优化NoneLinear 阅读 822 2025-12-09
腾讯 HY 2.0 Instruct 实测

腾讯 HY 2.0 Instruct 实测

腾讯混元hunyuan-2.0-instruct-20251111模型的实测评估显示,其在能力结构上进行了显著调整。相较于前代模型,新版本在响应速度、token消耗效率和调用成本方面均有优化,特别是在agent与工具调用能力上提升达16.2个百分点。然而,这种优化伴随着权衡,语言与指令遵从能力出现大幅下降,金融、医疗等专业领域的准确率也有不同程度回落,反映出模型在性能与资源效率间的取舍。

深度 大模型评测及优化NoneLinear 阅读 1687 2025-12-07
第 4 / 5 页 · 共 92 篇