深度文章

【非线智能测评】Qwen3.6-27B 评测:编程、推理与多模态能力解析

【非线智能测评】Qwen3.6-27B 评测:编程、推理与多模态能力解析

本文评测了阿里开源的Qwen3.6-27B模型。该模型聚焦智能体编程,中文评测呈现明显的“取舍”特征:总分微降至68.8%,推理等通用能力回调;但编程能力大幅提升6.7%,响应时间缩短80%。多维横向对比表明,该模型牺牲部分通用表现,换取了顶尖的代码水平,且凭借开源属性具备极高的本地部署价值。

深度 大模型评测及优化NoneLinear 阅读 754 2026-05-01
【非线智能测评】大模型OCR识别能力评测报告:Kimi综合准确率最高,国产模型性价比优于GPT系列

【非线智能测评】大模型OCR识别能力评测报告:Kimi综合准确率最高,国产模型性价比优于GPT系列

本次大模型中文OCR能力评测基于真实业务场景数据,覆盖票据、手写、繁体字及竖排文本等七类典型任务。评测采用规则匹配与LLM裁判结合的双重判分机制,以确保结果客观。总榜显示,月之暗面的Kimi K2.6以69.8%的综合准确率位居第一,领先第二名Qwen3.6-plus近3个百分点。在排名前十的模型中,国产模型占据八席,表现出明显的群体优势。

深度 大模型评测及优化NoneLinear 阅读 740 2026-04-29
【非线智能测评】大模型表格识别能力实测:GPT-5.5、Kimi、通义千问,Mimo,谁在“睁眼说瞎话”?

【非线智能测评】大模型表格识别能力实测:GPT-5.5、Kimi、通义千问,Mimo,谁在“睁眼说瞎话”?

本文对 GPT-5.5、Kimi、通义千问等多款大模型的表格识别能力进行实测,重点评估它们在复杂结构和水印干扰下的表现,发现模型普遍存在准确率下降和识别错误问题。实测中,GPT-5.5 因水印导致数字识别偏差和结构错乱;通义千问在水印下输出内容空白或错误;Kimi 则出现“致盲”现象,识别准确率受影响。这些结果反映了多模态大模型在视觉理解任务中的能力局限。

深度 大模型评测及优化NoneLinear 阅读 619 2026-04-28
OpenAI GPT-5.5实测

OpenAI GPT-5.5实测

OpenAI GPT-5.5实测深入评估了模型在智能体编程、计算机操作、知识工作和科研任务等核心能力上的强化。测试显示,新版本在推理与数学计算领域准确率从78.2%提升至83.7%,agent与工具调用能力从60.3%升至65.0%,整体准确率达到75.3%,较GPT-5.4-high的72.6%有显著改进。响应速度平均耗时从24秒缩短至15秒,token消耗下降约30%,印证了官方用更少指导完成

深度 大模型评测及优化NoneLinear 阅读 1088 2026-04-26
【非线智能测评】DeepSeek-V4-Pro 评测:准确率与效率解析

【非线智能测评】DeepSeek-V4-Pro 评测:准确率与效率解析

本文客观评测了深度求索新开源的DeepSeek-V4系列模型。旗舰版V4-Pro基于混合稀疏注意力架构,大幅降低了长上下文的推理成本。评测显示其综合准确率达71.7%,在代码与智能体能力上跃升显著,稳居开源顶尖水平。虽然调用单价上涨,但其单次响应提速且资源消耗降低。结合全新的量化训练等技术,该模型成功缩小了与前沿闭源大模型的差距,综合竞争力突出。

深度 大模型评测及优化NoneLinear 阅读 1120 2026-04-25
第 2 / 6 页 · 共 119 篇