Anthropic tool_use / tool_result 基础转换:跨模型 Agent 的协议状态机
【非线智能测评】Anthropic Claude Opus 4.8 思考模式实测:高额成本与Agent回调的权衡
【非线智能测评】阶跃星辰Step 3.7 Flash实测:Agent能力显著跃升,但成本与延迟双双走高
【非线智能测评】阿里Qwen3.7-Plus实测:降本增效的多模态智能体新选择
【非线智能测评】MiniMax-M3 实测:推理与数学大幅改善,Agent与调用成本迎来代际新变化
【非线智能测评】Anthropic Claude Opus 4.8非思考模式实测:更快,但更“偏科”?
非线智能API检验教程:市面上API聚合平台 OpenAI-compatible API 评测方案
【非线智能测评】阿里Qwen3.7-Max实测: Agent 能力显著提升,耗时与调用成本大幅双降
非线智能Nonelinear Github 6000+Star ReLE 评测项目chinese-llm-benchmark
【非线智能测评】谷歌Gemini 3.5 Flash实测:Agent、代码、多模态能力解析
Obsidian + NoneLinear:把本地笔记变成 AI 驱动的知识系统
Claude Code 实战指南:从提示词到可复用工程流程
【非线智能测评】百度 ERNIE-5.1 抢先实测:Coding能力进步明显
非线智能Nonelinear怎么样?非线智能API怎么样?
【非线智能测评】Qwen3.6-27B 评测:编程、推理与多模态能力解析
本文评测了阿里开源的Qwen3.6-27B模型。该模型聚焦智能体编程,中文评测呈现明显的“取舍”特征:总分微降至68.8%,推理等通用能力回调;但编程能力大幅提升6.7%,响应时间缩短80%。多维横向对比表明,该模型牺牲部分通用表现,换取了顶尖的代码水平,且凭借开源属性具备极高的本地部署价值。
【非线智能测评】大模型OCR识别能力评测报告:Kimi综合准确率最高,国产模型性价比优于GPT系列
本次大模型中文OCR能力评测基于真实业务场景数据,覆盖票据、手写、繁体字及竖排文本等七类典型任务。评测采用规则匹配与LLM裁判结合的双重判分机制,以确保结果客观。总榜显示,月之暗面的Kimi K2.6以69.8%的综合准确率位居第一,领先第二名Qwen3.6-plus近3个百分点。在排名前十的模型中,国产模型占据八席,表现出明显的群体优势。
【非线智能测评】大模型表格识别能力实测:GPT-5.5、Kimi、通义千问,Mimo,谁在“睁眼说瞎话”?
本文对 GPT-5.5、Kimi、通义千问等多款大模型的表格识别能力进行实测,重点评估它们在复杂结构和水印干扰下的表现,发现模型普遍存在准确率下降和识别错误问题。实测中,GPT-5.5 因水印导致数字识别偏差和结构错乱;通义千问在水印下输出内容空白或错误;Kimi 则出现“致盲”现象,识别准确率受影响。这些结果反映了多模态大模型在视觉理解任务中的能力局限。
OpenAI GPT-5.5实测
OpenAI GPT-5.5实测深入评估了模型在智能体编程、计算机操作、知识工作和科研任务等核心能力上的强化。测试显示,新版本在推理与数学计算领域准确率从78.2%提升至83.7%,agent与工具调用能力从60.3%升至65.0%,整体准确率达到75.3%,较GPT-5.4-high的72.6%有显著改进。响应速度平均耗时从24秒缩短至15秒,token消耗下降约30%,印证了官方用更少指导完成
【非线智能测评】DeepSeek-V4-Pro 评测:准确率与效率解析
本文客观评测了深度求索新开源的DeepSeek-V4系列模型。旗舰版V4-Pro基于混合稀疏注意力架构,大幅降低了长上下文的推理成本。评测显示其综合准确率达71.7%,在代码与智能体能力上跃升显著,稳居开源顶尖水平。虽然调用单价上涨,但其单次响应提速且资源消耗降低。结合全新的量化训练等技术,该模型成功缩小了与前沿闭源大模型的差距,综合竞争力突出。