【非线智能测评】MiniMax-M3 实测：推理与数学大幅改善，Agent与调用成本迎来代际新变化

数据来源非线智能Nonelinear 非线智能团队，维护着GitHub上的开源项目 chinese-llm-benchmark，目前 6,000+ Stars，长期占据中文LLM商业评测类项目Star数第一

githun管网图

正文：

MiniMax在M2系列之后，发布了新一代基础模型MiniMax-M3。官方将其定位为一款面向编程、智能体、多模态和超长上下文的新模型，强调其在Agentic Coding、多模态理解、原生语音以及1M token上下文等方向的能力，并称将在未来10天内更新技术报告和开源模型权重。我们对其API版本MiniMax-M3进行了全面评测，测试其在准确率、响应时间、token消耗和调用花费等关键指标上的表现。

需要说明的是，本次评测侧重中文场景下的综合能力考察，评测维度覆盖教育、医疗、金融、法律、推理数学、语言指令、Agent工具调用以及coding八个板块。

MiniMax-M3版本表现：

测试题数：约1.5万
总分（准确率）：67.5%
平均耗时（每次调用）：99s
平均token（每次调用消耗的token）：2484
平均花费（每千次调用的人民币花费）：37

1、新旧对决

对比上一代版本MiniMax-M2.7，MiniMax-M3在中文综合能力上有所提升，但并不是所有维度都同步向上，数据如下：

引自非线智能（GitHub 第一 AI 商业测评） - 【非线智能测评】MiniMax-M3 实测：推理与数学大幅改善，Agent与调用成本迎来代际新变化

*数据来源：非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格单位：元/百万token

整体性能小幅提升：新版本准确率从65.1%提升至67.5%，提升了2.4个百分点，榜单排名从第46位上升至第31位。
推理与数学计算提升最明显：从细分领域来看，"推理与数学计算"从70.9%提升至81.4%（+10.5%），是本次迭代中提升幅度最大的维度。
医疗与教育也有较明显改善：医疗与心理健康从72.2%提升至81.1%（+8.9%），教育从43.8%提升至52.1%（+8.3%）。这两项提升说明MiniMax-M3在知识问答、文本理解和中文场景下的稳定性上有了更扎实的表现。
金融与语言维度稳步提升：金融从70.2%提升至75.8%（+5.6%），语言与指令遵从从59.6%提升至62.6%（+3.0%），coding从54.0%提升至56.9%（+2.9%）。这些维度的变化幅度较小，但整体方向是向上的。
法律与行政公务出现小幅回调：法律与行政公务从74.7%降至72.7%（-2.0%）。这一回调幅度不大，但说明新版本在规则类、行政类和细粒度文本判断任务上，并没有延续其他知识类维度的提升。
Agent与工具调用回调较大：agent与工具调用从75.8%降至64.3%（-11.5%），是本次新旧对比中最值得注意的变化。
响应时间有所增加：平均耗时从87s增加至99s，增加约14%。
Token消耗明显下降，但成本反而上升：平均token从4044降至2484，下降约39%，输出更精炼；但输出价格从8.4元/百万token上调至16.8元/百万token，价格正好翻倍。最终每千次调用花费从32.4元升至37元，增加约14%。

2、横向对比

在当前主流大模型竞争格局中，MiniMax-M3作为MiniMax转向开放权重路线的新一代模型表现如何？我们从三个维度进行横向对比分析：

*数据来源：非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

30至45元/千次档位的中游位置：MiniMax-M3（67.5%，37元）所处区间内，可对比的模型包括Qwen3.5-122B-A10B（70.9%，32.3元）、Qwen3.5-27B（70.6%，25元）、qwen3.6-plus（70.7%，41.6元）、qwen3-max-think-2026-01-23（69.3%，43.5元）、Qwen3.6-35B-A3B（68.1%，40.5元）、ernie-5.1（68.2%，32.6元）等。仅从中文综合准确率和花费看，MiniMax-M3在该档位并不占优。
与更低成本模型相比压力明显：DeepSeek-V3.2-Think（66.9%，7.5元）、deepseek-v4-flash（68.8%，4.9元）、Doubao-Seed-2.0-lite（70.5%，5.4元）、qwen3.5-flash（68.9%，10.4元）都以更低成本提供了接近或更高的准确率。
向上对比头部模型：MiniMax-M3距离qwen3.7-max（76.9%）、qwen3.6-max-preview（75.4%）、gpt-5.5（75.3%）、gemini-3.1-pro-preview（75.2%）等榜单头部模型仍有明显差距。与中高端区间的mimo-v2.5-pro（71.4%，64.3元）、deepseek-v4-pro（71.7%，54.3元）相比，MiniMax-M3成本更低，但准确率差距在4个百分点左右。

新旧模型对比

代际进步明确但幅度有限：MiniMax-M3（67.5%，第31位）相比MiniMax-M2.7（65.1%，第46位）提升2.4个百分点，排名上升15位。相比更早的MiniMax-M2.5（63.9%，第55位）和MiniMax-M2.1（63.2%，第59位），MiniMax产品线的整体分数在持续上移。
MiniMax产品线仍处于追赶区间：从榜单看，MiniMax-M3已经超过MiniMax-M2.7、MiniMax-M2.5、MiniMax-M2.1，也略高于GLM-4.7（67.3%）、gpt-5.2-high（67.3%）、ERNIE-5.0（67.2%）、gpt-5.1-high（67.1%）。但面对Qwen、DeepSeek、Gemini、OpenAI等近期新模型，MiniMax-M3在中文综合准确率上仍处于中游。

开源VS闭源对比

官方走向开放权重路线：官方博客称MiniMax-M3是其第一款开放权重模型，并表示将在未来10天内更新技术报告和开源权重。由于当前MiniMax-M3仍为商用，因此本文在横向比较时仍以API调用成本和榜单表现为主。
开源模型相比差距明显：Qwen3.5-122B-A10B（70.9%，32.3元）、Qwen3.5-27B（70.6%，25元）、deepseek-v4-flash（68.8%，4.9元）等开源模型，在准确率或成本上都对MiniMax-M3形成压力。如果MiniMax-M3后续权重开放顺利，其生态价值将更多取决于真实部署成本、上下文长度、多模态能力和Agent框架适配。
闭源商用阵营中的位置：MiniMax-M3在闭源/商用API模型中高于gpt-5.2-high（67.3%）、ERNIE-5.0（67.2%）、gpt-5.1-high（67.1%）、gpt-5-2025-08-07（66.8%），但低于Doubao-Seed-2.0-lite（70.5%）、claude-opus-4.6（70.0%）、GLM-5-Turbo（69.3%）等模型。其当前位置更像是一款补齐基础能力、等待生态展开的新模型。

3、官方评测

根据MiniMax官方博客发布的信息（https://www.minimax.io/blog/minimax-m3），MiniMax-M3是官方推出的新一代模型，核心卖点集中在Agentic Coding、多模态理解、原生语音输出、超长上下文和开放权重路线。官方还特别强调，MiniMax-M3的训练成本为53.74万美元，并将在未来10天内更新技术报告和开源权重。

核心评测概览

官方在核心概览图中，将MiniMax-M3与Claude Opus 4.7、GPT-5.5和Gemini 3.1 Pro进行了对比，覆盖Coding、Agent、多模态与计算机操作等方向。几个主要结果包括：SWE-Bench Pro得分59.0，高于GPT-5.5的58.6和Gemini 3.1 Pro的54.2，低于Claude Opus 4.7的64.3；Terminal-Bench 2.1得分66.0，与Claude Opus 4.7的66.1基本持平，但低于GPT-5.5的78.2和Gemini 3.1 Pro的70.0；SVG-Bench得分63.7，高于Claude Opus 4.7的62.3、GPT-5.5的58.2和Gemini 3.1 Pro的59.2。

在Agent与工作流类任务上，MiniMax-M3的BrowseComp得分83.5，接近GPT-5.5的84.4和Gemini 3.1 Pro的85.9，并高于Claude Opus 4.7的79.3；BankerToolBench得分76.1，高于GPT-5.5的55.5和Gemini 3.1 Pro的67.0，但低于Claude Opus 4.7的81.3；MCP Atlas得分74.2，低于Claude Opus 4.7的77.0和GPT-5.5的75.3，高于Gemini 3.1 Pro的69.2。GUI操作类的OSWorld-Verified得分70.0，与三家闭源前沿模型相比仍有差距。

详细评测总表与方法

文末详细评测表给出了更完整的官方数据。Coding方面，MiniMax-M3在SWE-Bench Verified上取得80.5，SWE-Bench Pro为59.0，Terminal-Bench 2.1为66.0，NL2Repo为42.13，SVG-Bench为63.7，KernelBench Hard为28.8，PaperBench为52.6。整体来看，官方最强调的仍然是复杂软件工程、终端任务、代码生成与图形生成等Agentic Coding场景。

Agent类任务方面，MiniMax-M3在BrowseComp上取得83.52，DRACO为73.23，GPDval rubrics为74.78，BankerToolBench为76.12，OfficeQA Pro为45.1，SpreadsheetBench为89.35，MCP Atlas为74.2，Apex Agents为27.7，Claw-Eval为74.5。这些任务更接近真实工作流、工具调用和长程任务执行，也更符合官方对MiniMax-M3的定位。

多模态和GUI方向上，MiniMax-M3在OmniDocBench上取得91.6，MMMU-Pro为78.1，Video-MMMU为84.6，VideoMME为85.4；GUI操作类OSWorld-Verified为70.06。推理类基准中，官方披露MiniMax-M3在IMO2025上为35/42，USAMO2026为36/42。

非线智能官网https://nonelinear.com 已上线MiniMax-M3版，欢迎深度体验。同时，非线智能API可连接超480+全球模型，支持一键Api聚合以及Api中转，提供稳定的企业级服务。登录github账号，领20-50元体验金。接入MiniMax-M3就用非线智能API。

非线智能api图5