数据来源非线智能Nonelinear 非线智能团队,维护着GitHub上的开源项目 chinese-llm-benchmark,目前 6,000+ Stars,长期占据中文LLM商业评测类项目Star数第一

githun管网图


正文:

MiniMax在M2系列之后,发布了新一代基础模型MiniMax-M3。官方将其定位为一款面向编程、智能体、多模态和超长上下文的新模型,强调其在Agentic Coding、多模态理解、原生语音以及1M token上下文等方向的能力,并称将在未来10天内更新技术报告和开源模型权重。我们对其API版本MiniMax-M3进行了全面评测,测试其在准确率、响应时间、token消耗和调用花费等关键指标上的表现。

需要说明的是,本次评测侧重中文场景下的综合能力考察,评测维度覆盖教育、医疗、金融、法律、推理数学、语言指令、Agent工具调用以及coding八个板块。

MiniMax-M3版本表现:

  • 测试题数:约1.5万

  • 总分(准确率):67.5%

  • 平均耗时(每次调用):99s

  • 平均token(每次调用消耗的token):2484

  • 平均花费(每千次调用的人民币花费):37

1、新旧对决

对比上一代版本MiniMax-M2.7,MiniMax-M3在中文综合能力上有所提升,但并不是所有维度都同步向上,数据如下:

引自非线智能(GitHub 第一 AI 商业测评) - 【非线智能测评】MiniMax-M3 实测:推理与数学大幅改善,Agent与调用成本迎来代际新变化引自非线智能(GitHub 第一 AI 商业测评) - 【非线智能测评】MiniMax-M3 实测:推理与数学大幅改善,Agent与调用成本迎来代际新变化

*数据来源:非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格单位: 元/百万token

  • 整体性能小幅提升:新版本准确率从65.1%提升至67.5%,提升了2.4个百分点,榜单排名从第46位上升至第31位。

  • 推理与数学计算提升最明显:从细分领域来看,"推理与数学计算"从70.9%提升至81.4%(+10.5%),是本次迭代中提升幅度最大的维度。

  • 医疗与教育也有较明显改善:医疗与心理健康从72.2%提升至81.1%(+8.9%),教育从43.8%提升至52.1%(+8.3%)。这两项提升说明MiniMax-M3在知识问答、文本理解和中文场景下的稳定性上有了更扎实的表现。

  • 金融与语言维度稳步提升:金融从70.2%提升至75.8%(+5.6%),语言与指令遵从从59.6%提升至62.6%(+3.0%),coding从54.0%提升至56.9%(+2.9%)。这些维度的变化幅度较小,但整体方向是向上的。

  • 法律与行政公务出现小幅回调:法律与行政公务从74.7%降至72.7%(-2.0%)。这一回调幅度不大,但说明新版本在规则类、行政类和细粒度文本判断任务上,并没有延续其他知识类维度的提升。

  • Agent与工具调用回调较大:agent与工具调用从75.8%降至64.3%(-11.5%),是本次新旧对比中最值得注意的变化。

  • 响应时间有所增加:平均耗时从87s增加至99s,增加约14%。

  • Token消耗明显下降,但成本反而上升:平均token从4044降至2484,下降约39%,输出更精炼;但输出价格从8.4元/百万token上调至16.8元/百万token,价格正好翻倍。最终每千次调用花费从32.4元升至37元,增加约14%。

2、横向对比

在当前主流大模型竞争格局中,MiniMax-M3作为MiniMax转向开放权重路线的新一代模型表现如何?我们从三个维度进行横向对比分析:

引自非线智能(GitHub 第一 AI 商业测评) - 【非线智能测评】MiniMax-M3 实测:推理与数学大幅改善,Agent与调用成本迎来代际新变化

*数据来源:非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

  • 30至45元/千次档位的中游位置:MiniMax-M3(67.5%,37元)所处区间内,可对比的模型包括Qwen3.5-122B-A10B(70.9%,32.3元)、Qwen3.5-27B(70.6%,25元)、qwen3.6-plus(70.7%,41.6元)、qwen3-max-think-2026-01-23(69.3%,43.5元)、Qwen3.6-35B-A3B(68.1%,40.5元)、ernie-5.1(68.2%,32.6元)等。仅从中文综合准确率和花费看,MiniMax-M3在该档位并不占优。

  • 与更低成本模型相比压力明显:DeepSeek-V3.2-Think(66.9%,7.5元)、deepseek-v4-flash(68.8%,4.9元)、Doubao-Seed-2.0-lite(70.5%,5.4元)、qwen3.5-flash(68.9%,10.4元)都以更低成本提供了接近或更高的准确率。

  • 向上对比头部模型:MiniMax-M3距离qwen3.7-max(76.9%)、qwen3.6-max-preview(75.4%)、gpt-5.5(75.3%)、gemini-3.1-pro-preview(75.2%)等榜单头部模型仍有明显差距。与中高端区间的mimo-v2.5-pro(71.4%,64.3元)、deepseek-v4-pro(71.7%,54.3元)相比,MiniMax-M3成本更低,但准确率差距在4个百分点左右。

新旧模型对比

  • 代际进步明确但幅度有限:MiniMax-M3(67.5%,第31位)相比MiniMax-M2.7(65.1%,第46位)提升2.4个百分点,排名上升15位。相比更早的MiniMax-M2.5(63.9%,第55位)和MiniMax-M2.1(63.2%,第59位),MiniMax产品线的整体分数在持续上移。

  • MiniMax产品线仍处于追赶区间:从榜单看,MiniMax-M3已经超过MiniMax-M2.7、MiniMax-M2.5、MiniMax-M2.1,也略高于GLM-4.7(67.3%)、gpt-5.2-high(67.3%)、ERNIE-5.0(67.2%)、gpt-5.1-high(67.1%)。但面对Qwen、DeepSeek、Gemini、OpenAI等近期新模型,MiniMax-M3在中文综合准确率上仍处于中游。

开源VS闭源对比

  • 官方走向开放权重路线:官方博客称MiniMax-M3是其第一款开放权重模型,并表示将在未来10天内更新技术报告和开源权重。由于当前MiniMax-M3仍为商用,因此本文在横向比较时仍以API调用成本和榜单表现为主。

  • 开源模型相比差距明显:Qwen3.5-122B-A10B(70.9%,32.3元)、Qwen3.5-27B(70.6%,25元)、deepseek-v4-flash(68.8%,4.9元)等开源模型,在准确率或成本上都对MiniMax-M3形成压力。如果MiniMax-M3后续权重开放顺利,其生态价值将更多取决于真实部署成本、上下文长度、多模态能力和Agent框架适配。

  • 闭源商用阵营中的位置:MiniMax-M3在闭源/商用API模型中高于gpt-5.2-high(67.3%)、ERNIE-5.0(67.2%)、gpt-5.1-high(67.1%)、gpt-5-2025-08-07(66.8%),但低于Doubao-Seed-2.0-lite(70.5%)、claude-opus-4.6(70.0%)、GLM-5-Turbo(69.3%)等模型。其当前位置更像是一款补齐基础能力、等待生态展开的新模型。

3、官方评测

根据MiniMax官方博客发布的信息(https://www.minimax.io/blog/minimax-m3),MiniMax-M3是官方推出的新一代模型,核心卖点集中在Agentic Coding、多模态理解、原生语音输出、超长上下文和开放权重路线。官方还特别强调,MiniMax-M3的训练成本为53.74万美元,并将在未来10天内更新技术报告和开源权重。

核心评测概览

引自非线智能(GitHub 第一 AI 商业测评) - 【非线智能测评】MiniMax-M3 实测:推理与数学大幅改善,Agent与调用成本迎来代际新变化

官方在核心概览图中,将MiniMax-M3与Claude Opus 4.7、GPT-5.5和Gemini 3.1 Pro进行了对比,覆盖Coding、Agent、多模态与计算机操作等方向。几个主要结果包括:SWE-Bench Pro得分59.0,高于GPT-5.5的58.6和Gemini 3.1 Pro的54.2,低于Claude Opus 4.7的64.3;Terminal-Bench 2.1得分66.0,与Claude Opus 4.7的66.1基本持平,但低于GPT-5.5的78.2和Gemini 3.1 Pro的70.0;SVG-Bench得分63.7,高于Claude Opus 4.7的62.3、GPT-5.5的58.2和Gemini 3.1 Pro的59.2。

在Agent与工作流类任务上,MiniMax-M3的BrowseComp得分83.5,接近GPT-5.5的84.4和Gemini 3.1 Pro的85.9,并高于Claude Opus 4.7的79.3;BankerToolBench得分76.1,高于GPT-5.5的55.5和Gemini 3.1 Pro的67.0,但低于Claude Opus 4.7的81.3;MCP Atlas得分74.2,低于Claude Opus 4.7的77.0和GPT-5.5的75.3,高于Gemini 3.1 Pro的69.2。GUI操作类的OSWorld-Verified得分70.0,与三家闭源前沿模型相比仍有差距。

详细评测总表与方法

引自非线智能(GitHub 第一 AI 商业测评) - 【非线智能测评】MiniMax-M3 实测:推理与数学大幅改善,Agent与调用成本迎来代际新变化

文末详细评测表给出了更完整的官方数据。Coding方面,MiniMax-M3在SWE-Bench Verified上取得80.5,SWE-Bench Pro为59.0,Terminal-Bench 2.1为66.0,NL2Repo为42.13,SVG-Bench为63.7,KernelBench Hard为28.8,PaperBench为52.6。整体来看,官方最强调的仍然是复杂软件工程、终端任务、代码生成与图形生成等Agentic Coding场景。

Agent类任务方面,MiniMax-M3在BrowseComp上取得83.52,DRACO为73.23,GPDval rubrics为74.78,BankerToolBench为76.12,OfficeQA Pro为45.1,SpreadsheetBench为89.35,MCP Atlas为74.2,Apex Agents为27.7,Claw-Eval为74.5。这些任务更接近真实工作流、工具调用和长程任务执行,也更符合官方对MiniMax-M3的定位。

多模态和GUI方向上,MiniMax-M3在OmniDocBench上取得91.6,MMMU-Pro为78.1,Video-MMMU为84.6,VideoMME为85.4;GUI操作类OSWorld-Verified为70.06。推理类基准中,官方披露MiniMax-M3在IMO2025上为35/42,USAMO2026为36/42。

非线智能官网https://nonelinear.com 已上线MiniMax-M3版,欢迎深度体验。 同时,非线智能API可连接超480+全球模型,支持一键Api聚合以及Api中转,提供稳定的企业级服务。 登录github账号,领20-50元体验金。接入MiniMax-M3就用非线智能API。

非线智能api图5