小米 MiMo-V2.5 实测
本次实测针对小米MiMo-V2.5模型在中文文本场景下的综合能力进行了全面评估。模型在编码能力上实现显著提升(+8.8%),金融与医疗知识也有所增强,但教育与推理数学能力出现不同程度回调。整体准确率(65.8%)与上一代全模态模型基本持平,表明其能力结构在通用文本领域进行了针对性调整,重点强化了编程等特定任务,同时保持了法律、医疗等垂直领域的稳定表现。
本次实测针对小米MiMo-V2.5模型在中文文本场景下的综合能力进行了全面评估。模型在编码能力上实现显著提升(+8.8%),金融与医疗知识也有所增强,但教育与推理数学能力出现不同程度回调。整体准确率(65.8%)与上一代全模态模型基本持平,表明其能力结构在通用文本领域进行了针对性调整,重点强化了编程等特定任务,同时保持了法律、医疗等垂直领域的稳定表现。
小米 MiMo-V2.5-Pro 是小米推出的最新AI模型,实测显示其在推理、编码和工具调用等核心能力上实现显著提升。模型在推理与数学计算维度提升幅度最大,从71.9%增至83.5%,编码能力也从56.0%提升至62.9%。响应时间大幅缩短,从265秒降至56秒,表明工程优化效果明显。整体准确率从65.8%提升至71.4%,进入头部梯队,但Agent工具调用提升有限,医疗和语言维度基本持平。
月之暗面Kimi K2.6实测针对中文场景下的综合能力进行了考察,评测框架加入了coding维度。结果显示,模型在交互式场景中的等待体验改善,响应时间大幅缩短;成本方面,每千次调用花费100.41元,较上代上涨30.2%,但准确率提升2.1%。官方强调的长程执行和Agent集群能力在当前评测中未充分展开,适用于需要代码生成和长程任务的场景,读者可参考文末官方数据评估适用性。
阿里Qwen3.6-Max-Preview的实测数据显示准确率从69.3%提升至75.4%,排名升至总榜第一,编码维度提升24.1%,教育领域增强8.8%,同时成本涨幅约220%,输出价格从10元/M token升至54元/M token,每千次调用花费139.2元,在高端成本区间内表现领先于同类竞品。
Qwen3.6-35B-A3B的实测数据显示了多项性能指标的显著变化。在约1.5万题的中文场景测试中,新版本总准确率为68.1%,响应时间大幅优化至81秒,但单次调用成本增至40.5元。具体维度上,医疗法律类任务准确率上升超过2个百分点,而金融与数学推理任务则下降约4至5个百分点。首次评测的编码能力得分为56.6%,低于前代模型。
大模型表格识别能力实测显示,新一代模型如Qwen3.6-Plus和GLM-5V-Turbo在表格识别上不一定比前代更强。Qwen3.6-Plus虽编程能力突出,但表格识别准确率从66%降至60%,主要短板包括内容识别错误和结构错乱;GLM-5V-Turbo视觉编程领先,但表格识别仅53%,水印处理和表头还原问题明显。两者表现反映模型迭代中能力发展不均衡,编程优化可能挤占其他训练资源。
智谱GLM-5.1实测显示其在代码工程和长程Agent任务方面有显著能力提升,该模型在SWE-Bench Pro等基准上取得开源模型第一的成绩,能独立工作超过8小时。评测表明,其推理与数学计算能力提升9.2%,Agent与工具调用能力增强7.5%,突出了深度推理和任务执行的优势。然而,语言指令遵从略有下降,响应时间增加41%,但整体性能进入榜单头部。
基于ReLE基准1.5万道中文测试,Gemma 4 26B MoE展现出极强的低延迟优势,响应较31B版快43%,Agent工具调用能力近乎翻倍。但短板是其中文复杂指令遵从提升微弱,50.3%的准确率远落后于头部开源竞品。业务选型建议:该模型高度契合算力受限、对延迟极敏感的边缘端在线交互场景,不适用于追求极限精准度的核心高阶任务。
Qwen3.6-Plus作为阿里最新推出的旗舰API模型,在本次针对中文场景的综合能力评测中呈现出能力结构的显著变化。其整体准确率从前代的74.6%回调至71.6%,但在语言与指令遵从维度上获得了明显提升,表明模型对复杂中文指令的理解与执行能力增强。然而,这一提升并未抵消其在金融、推理数学及Agent工具调用等多个垂直领域的准确率下降。评测同时关注其性能表现,包括响应时间与成本结构的变动。
本文实测了小米MiMo-V2-Omni与OpenAI的gpt-5.4-mini及nano模型在表格识别任务中的表现。评测显示,MiMo-V2-Omni以58%的准确率位列中游,其短板主要在处理复杂表头和抗水印干扰上。gpt-5.4-mini表现次之,准确率为53%,在水印和表头边界识别上同样存在薄弱环节。而gpt-5.4-nano准确率仅11%,在各项错误类型上均全面崩溃。
基于ReLE基准1.5万道中文测试,GPT-5.4-Nano响应提速85%,Agent调用能力显著增强,总成本下降32%。短板为中文复杂指令遵从能力下滑,同成本区间准确率明显落后于豆包等国产竞品。业务选型建议:不适用于追求中文性价比的核心任务,但高度契合多模型协作中需极速响应与高频调用的轻量级子智能体场景。
小米 MiMo-V2-Omni 是一款全模态基座模型,专注于感知与行动的统一,能够同时处理图像、视频、音频和文本输入。它将感知直接转化为行动,具备跨模态理解和 Agent 执行能力,如浏览器操作和端到端任务自动化。官方定位为面向智能体时代的全模态基座,本次实测侧重中文场景下的综合文本与逻辑能力,以检验其底层语言内核。评测显示,尽管架构复杂,但在准确率、响应时间等方面表现稳定
小米MiMo-V2-Pro的实测突出了其在Agent系统和专业领域中的应用场景。作为专为Agent设计的旗舰模型,它在编程和工具调用方面具备优势,适用于复杂工作流编排。评测显示在中文场景下,金融领域从76.2%提升至80.1%,医疗与心理健康从79.2%提升至80.5%,表明其在专业知识密集型应用中的潜力。尽管法律与行政公务领域有所回调,但整体为高效Agent系统提供了可靠基础。
OpenAI GPT-5.4 Mini 的实测数据表明其性能在多个维度发生显著变化。准确率从61.3%提升至67.5%,排名从第86位升至第38位;响应速度大幅提升,平均耗时从503秒降至65秒,提速约87%。平均token消耗从3551降至2479,但输出价格上涨导致每千次调用费用从48.4元增至71.8元,成本上涨48%。数据基于非线智能ReLE评测,反映了中文环境下的实际运行指标。
本次实测评估了当前主流大模型在表格识别任务上的实际表现,其核心能力体现在从复杂图像中准确还原表格结构与数据的精度。评测覆盖了政务、财务、资讯等多种真实业务场景下的表格图片,通过严格比对原图与模型输出,统计了各模型的准确率。结果显示,整体表现最佳的模型准确率也仅为66%,大部分模型集中在56%至63%区间,表明表格识别仍是多模态能力的一个技术难点。
智谱 GLM-5-Turbo 实测数据显示,测试题数约1.5万,总分准确率71.5%,平均耗时52秒,平均token消耗2934,每千次调用花费60.8元。与GLM-5版本相比,准确率微升0.5%,响应时间从130秒缩短至52秒,提速约60%,token消耗减少17.8%。输出价格从18.0元/百万token上调至22.0元/百万token,总成本基本持平,体现了速度与效率的改进。
本文对谷歌Gemini 3.1 Flash-Lite进行了全面体验测试,重点评估其在文本理解、创意写作、代码生成和逻辑推理等方面的能力。测试显示,该模型在文本理解和创意写作上表现扎实,语义判别和创意任务完成度高;实物识别与OCR能力可靠;基础逻辑推理能处理常规问题。然而,在前端代码生成、空间推理和事实准确性方面存在明显短板,如游戏开发频繁缺失机制,复杂逻辑题失败,以及深度调研中的幻觉问题。
OpenAI GPT-5.4的非推理模式测试评估了该模型在关闭深度思考后的综合能力表现。测试显示,模型在创意写作和代码生成方面表现出色,能够快速生成多种风格的内容和可运行的代码,稳定性突出。然而,在抽象视觉推理、复杂3D场景和数学计算方面存在明显短板,尤其是视觉推理题几乎全部失败。整体而言,GPT-5.4非推理模式是一个“文强理偏”的高速选手,适合速度优先的场景,但不适合硬核推理任务。
OpenAI GPT-5.4非思考模式实测表明,该模型在关闭深度思考后以快速响应为核心,相比前代在中文场景下整体能力提升。语言与指令遵从维度大幅改善达10.2%,教育、金融等专业领域多数维度得分增长,但Agent与工具调用略有回调,可能与推理深度不足有关。评测显示非推理模式在速度敏感任务中表现稳健,原生Computer Use等能力可用,适配轻量级交互需求。
GPT-5.4的实测数据显示其在性能与效率上实现了显著平衡。模型在约1.5万道中文评测题中平均准确率达72.6%,每次调用平均耗时24秒,平均消耗1364 tokens,每次调用成本约为1.22元。相较于上一代模型,其在教育、金融、语言指令遵从及Agent工具调用等领域的准确率均获得超过5%的提升,响应时间缩短约12秒,体现了全面的优化迭代。