深度文章

reasoning / thinking 块存储与重注入：跨模型 Tool Use 兼容的状态回放问题

深度阅读 250 2026-06-11

Anthropic tool_use / tool_result 基础转换：跨模型 Agent 的协议状态机

深度阅读 409 2026-06-11

【非线智能测评】Anthropic Claude Opus 4.8 思考模式实测：高额成本与Agent回调的权衡

深度大模型评测及优化NoneLinear 阅读 620 2026-06-07

【非线智能测评】阶跃星辰Step 3.7 Flash实测：Agent能力显著跃升，但成本与延迟双双走高

深度大模型评测及优化NoneLinear 阅读 387 2026-06-04

【非线智能测评】阿里Qwen3.7-Plus实测：降本增效的多模态智能体新选择

深度大模型评测及优化NoneLinear 阅读 353 2026-06-03

【非线智能测评】MiniMax-M3 实测：推理与数学大幅改善，Agent与调用成本迎来代际新变化

深度大模型评测及优化NoneLinear 阅读 610 2026-06-02

【非线智能测评】Anthropic Claude Opus 4.8非思考模式实测：更快，但更“偏科”？

深度大模型评测及优化NoneLinear 阅读 251 2026-05-30

非线智能API检验教程：市面上API聚合平台 OpenAI-compatible API 评测方案

★ 置顶深度阅读 656 2026-05-25

【非线智能测评】阿里Qwen3.7-Max实测: Agent 能力显著提升，耗时与调用成本大幅双降

深度大模型评测及优化NoneLinear 阅读 1748 2026-05-23

非线智能Nonelinear Github 6000+Star ReLE 评测项目chinese-llm-benchmark

★ 置顶深度阅读 915 2026-05-22

【非线智能测评】谷歌Gemini 3.5 Flash实测：Agent、代码、多模态能力解析

深度大模型评测及优化NoneLinear 阅读 921 2026-05-21

Obsidian + NoneLinear：把本地笔记变成 AI 驱动的知识系统

深度阅读 1053 2026-05-14

【非线智能测评】百度 ERNIE-5.1 抢先实测：Coding能力进步明显

深度大模型评测及优化NoneLinear 阅读 807 2026-05-13

【非线智能测评】Qwen3.6-27B 评测：编程、推理与多模态能力解析

本文评测了阿里开源的Qwen3.6-27B模型。该模型聚焦智能体编程，中文评测呈现明显的“取舍”特征：总分微降至68.8%，推理等通用能力回调；但编程能力大幅提升6.7%，响应时间缩短80%。多维横向对比表明，该模型牺牲部分通用表现，换取了顶尖的代码水平，且凭借开源属性具备极高的本地部署价值。

深度大模型评测及优化NoneLinear 阅读 754 2026-05-01

【非线智能测评】大模型OCR识别能力评测报告：Kimi综合准确率最高，国产模型性价比优于GPT系列

本次大模型中文OCR能力评测基于真实业务场景数据，覆盖票据、手写、繁体字及竖排文本等七类典型任务。评测采用规则匹配与LLM裁判结合的双重判分机制，以确保结果客观。总榜显示，月之暗面的Kimi K2.6以69.8%的综合准确率位居第一，领先第二名Qwen3.6-plus近3个百分点。在排名前十的模型中，国产模型占据八席，表现出明显的群体优势。

深度大模型评测及优化NoneLinear 阅读 740 2026-04-29

【非线智能测评】大模型表格识别能力实测：GPT-5.5、Kimi、通义千问，Mimo，谁在“睁眼说瞎话”？

本文对 GPT-5.5、Kimi、通义千问等多款大模型的表格识别能力进行实测，重点评估它们在复杂结构和水印干扰下的表现，发现模型普遍存在准确率下降和识别错误问题。实测中，GPT-5.5 因水印导致数字识别偏差和结构错乱；通义千问在水印下输出内容空白或错误；Kimi 则出现“致盲”现象，识别准确率受影响。这些结果反映了多模态大模型在视觉理解任务中的能力局限。

深度大模型评测及优化NoneLinear 阅读 619 2026-04-28

OpenAI GPT-5.5实测深入评估了模型在智能体编程、计算机操作、知识工作和科研任务等核心能力上的强化。测试显示，新版本在推理与数学计算领域准确率从78.2%提升至83.7%，agent与工具调用能力从60.3%升至65.0%，整体准确率达到75.3%，较GPT-5.4-high的72.6%有显著改进。响应速度平均耗时从24秒缩短至15秒，token消耗下降约30%，印证了官方用更少指导完成

深度大模型评测及优化NoneLinear 阅读 1088 2026-04-26

【非线智能测评】DeepSeek-V4-Pro 评测：准确率与效率解析

本文客观评测了深度求索新开源的DeepSeek-V4系列模型。旗舰版V4-Pro基于混合稀疏注意力架构，大幅降低了长上下文的推理成本。评测显示其综合准确率达71.7%，在代码与智能体能力上跃升显著，稳居开源顶尖水平。虽然调用单价上涨，但其单次响应提速且资源消耗降低。结合全新的量化训练等技术，该模型成功缩小了与前沿闭源大模型的差距，综合竞争力突出。

深度大模型评测及优化NoneLinear 阅读 1120 2026-04-25