引自非线智能(GitHub 第一 AI 商业测评) - 每月AI大模型更新速递(26年3月)

3月1日

【开源】阿里发布Qwen3.5-0.8B / 2B / 4B / 9B,Qwen3.5系列端侧小模型家族正式开源,采用原生多模态训练+混合注意力架构,专为移动端和边缘设备设计。其中:

  • Qwen3.5-9B:小尺寸旗舰,GPQA Diamond 81.7超越上代Qwen3-30B甚至Qwen3-80B,4-bit量化仅约5GB显存

  • Qwen3.5-4B:轻量级多模态Agent基座,在同参数量级中首次实现接近大模型的完整多模态能力,适合消费级GPU部署

  • Qwen3.5-0.8B / 2B:极端轻量边缘模型,0.8B为首个支持原生视频处理的亿级参数模型,可在手机端离线进行视频摘要和空间推理

详情请参见:

https://www.modelscope.cn/collections/Qwen/Qwen35

3月2日

【闭源】阿里发布CosyVoice 3.5(cosyvoice-v3.5-plus、cosyvoice-v3.5-flash),CosyVoice3.5语音合成模型上线,专注声音复刻与设计,支持指令控制语音合成效果。详情请参见

https://help.aliyun.com/zh/model-studio/text-to-speech

3月3日

【闭源】OpenAI发布GPT-5.3 Instant,ChatGPT日常使用模型的重大更新。幻觉率降低26.8%(联网时),对话语气更自然、减少"说教感"和不必要拒绝,网页搜索结果质量显著提升。支持400K Token上下文窗口。详情请参见

https://openai.com/zh-Hans-CN/index/gpt-5-3-instant/

国内体验:https://nonelinear.com/static/models.html

【闭源】谷歌发布Gemini 3.1 Flash-Lite Preview,Gemini 3系列首款Flash-Lite模型,专为大规模高频场景设计。定价仅$0.25/百万输入Token + $1.50/百万输出Token,是Pro的1/8成本。输出速度比2.5 Flash快45%,首Token响应快2.5倍。支持100万Token上下文及多模态输入。详情请参见

https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-lite-preview

国内体验:https://nonelinear.com/static/models.html

【闭源】阿里发布qwen-image-2.0系列(qwen-image-2.0-2026-03-03、qwen-image-2.0-pro、qwen-image-2.0-pro-2026-03-03),千问Image2.0系列,同时支持图像生成和编辑。Pro系列文字渲染、真实质感、语义遵循能力更强;加速版兼顾效果与响应速度。详情请参见https://help.aliyun.com/zh/model-studio/qwen-image-api

https://help.aliyun.com/zh/model-studio/qwen-image-edit-api

直接体验:https://nonelinear.com/static/models.html

3月5日

【闭源】OpenAI发布GPT-5.4,OpenAI最新旗舰模型。首个内置原生Computer Use能力的通用模型,可自主操作桌面应用并执行多步工作流。最大支持100万Token上下文,推理Token效率大幅优于GPT-5.2,事实错误率降低33%。引入Tool Search机制,智能查找调用工具。详情请参见

https://openai.com/zh-Hans-CN/index/introducing-gpt-5-4/

国内体验:https://nonelinear.com/static/models.html

3月10日

【闭源】xAI发布Grok 4.20 Beta和Grok 4.20 Multi-agent Beta,现可通过xAI Enterprise API调用。Grok 4.20采用4智能体并行协作架构(Grok/Harper/Benjamin/Lucas),多角度分析问题后交叉验证、综合输出,幻觉率从约12%降至约4.2%。Multi-agent Beta支持深度研究、协调工具调用和跨任务信息综合。详情请参见

https://docs.x.ai/developers/model-capabilities/text/multi-agent

国内体验:https://nonelinear.com/static/models.html

【闭源】谷歌发布gemini-embedding-2-preview,这是谷歌首个原生多模态嵌入模型。支持文本、图片、视频、音频和PDF输入,将所有模态映射到统一的嵌入空间。支持100+语言,默认输出3072维向量,可灵活缩放至1536或768维。现已通过Gemini API和Vertex AI公开预览。详情请参见

https://ai.google.dev/gemini-api/docs/embeddings?hl=zh-cn

3月13日

【闭源】Anthropic宣布Claude Opus 4.6和Sonnet 4.6的100万Token上下文窗口正式GA(通用可用),采用标准定价,无长上下文溢价。媒体限制从100提升至600张图片或PDF页面,已取消专用1M速率限制。无需beta header,超过200K的请求自动生效。详情请参见

https://platform.claude.com/docs/en/build-with-claude/context-windows



3月16日

【闭源】智谱GLM发布GLM-5-Turbo,全球首个专为OpenClaw龙虾场景深度优化的基座模型。从训练阶段即针对龙虾任务核心需求进行专项优化,增强工具调用、指令遵循、定时与持续性任务、长链路执行等核心能力,支持200K上下文窗口。详情请参见

https://docs.bigmodel.cn/cn/guide/models/text/glm-5-turbo

直接体验:https://nonelinear.com/static/models.html

【开源】Mistral发布Mistral Small 4(mistral-small-2603),Mistral Small系列最新一代模型,首次将Mistral Small(指令跟随)、Magistral(推理)、Pixtral(多模态)、Devstral(编程Agent)四大能力统一到单一模型。MoE架构,128个专家中每Token激活4个,总参数119B、激活参数仅6B,支持256K上下文窗口。支持可配置推理强度(reasoning_effort参数),端到端响应时间比Small 3降低40%,吞吐量提升3倍。Apache 2.0开源。详情请参见

https://mistral.ai/news/mistral-small-4

【开源】Mistral发布Leanstral,全球首个开源Lean 4代码Agent,专为形式化数学证明验证设计,核心参数6B。Apache 2.0开源,支持MCP协议,可在Mistral Vibe中零配置使用,同时提供免费Labs API。详情请见

https://mistral.ai/news/leanstral

3月17日

【闭源】OpenAI发布GPT-5.4 Mini和GPT-5.4 Nano,定位为”迄今最强的小型模型”,专为编码、子智能体和高吞吐量工作负载设计。GPT-5.4 Mini是专为编码助手、子智能体(subagent)和高吞吐量工作负载设计的高效模型,在编码、推理、多模态理解和工具调用方面相较前代GPT-5 Mini有显著提升,同时运行速度提升超过2倍。

GPT-5.4 Nano是GPT-5.4家族中最小、最便宜的版本,专为速度和成本优先的场景而生,推荐用于分类、数据提取、排序以及处理简单辅助任务的编码子智能体。详情请参见

https://openai.com/zh-Hans-CN/index/introducing-gpt-5-4-mini-and-nano/

国内体验:https://nonelinear.com/static/models.html

3月18日

【闭源】MiniMax发布MiniMax M2.7,首个深度参与自身训练迭代的商用大模型。通过构建Agent Harness体系,模型自主完成超100轮迭代循环(含失败分析、代码修改、评测对比),在部分研发场景中可承担30%-50%的工作量,内部评测提升约30%。已在MiniMax Agent与开放平台全球上线,API定价与M2.5一致。详情请参见

https://www.minimaxi.com/news/minimax-m27-zh

直接体验:https://nonelinear.com/static/models.html

【闭源】小米发布Xiaomi MiMo-V2-Pro,面向Agent时代的旗舰基座大模型。万亿参数,总参数1T、激活42B,采用创新混合注意力架构(比例7:1),支持1M超长上下文。此前以"Hunter Alpha"代号匿名测试,调用量突破1T Tokens、多日登顶OpenRouter日榜。详情请参见

https://mimo.xiaomi.com/mimo-v2-pro

直接体验:https://nonelinear.com/static/models.html

【闭源】小米发布Xiaomi MiMo-V2-Omni,面向Agent时代的全模态基座模型。原生全模态感知,支持图像、视频、音频、文本的跨模态精准理解,并具备原生Agent与Browser Use能力,是通往具身智能的基座。Healer Alpha测试期间Pinchbench均分第一。详情请参见

https://mimo.xiaomi.com/mimo-v2-omni

直接体验:https://nonelinear.com/static/models.html

【闭源】小米发布Xiaomi MiMo-V2-TTS,能说会唱的百变Voice Agent基座模型。端到端语音生成架构,基于自研Audio Tokenizer和多码本语音建模架构,实现更精细的语音特征捕捉与还原。基于上亿小时语音进行超大规模预训练,覆盖丰富说话风格与场景。通过多维度强化学习训练实现高拟人度、强表现力的语音生成,同时具备唱歌、方言(四川话/河南话/粤语/台湾腔等)等独特能力。详情请参见

https://mimo.xiaomi.com/mimo-v2-tts

直接体验:https://nonelinear.com/static/models.html


3月23日

【开源】Mistral发布Voxtral TTS(voxtral-tts-2603),最新一代文本转语音模型,支持零样本声音克隆、多语言输出和实时流式生成,可生成高质量48kHz立体声音频。基于4B参数核心架构,Apache 2.0开源。详情请参见

https://huggingface.co/mistralai/Voxtral-4B-TTS-2603

3月24日

【开源】阿里通义实验室开源PrismAudio,一个强大的视频配音(V2A)模型。仅518M参数、0.63s推理时延,在语义、时序、美学、空间及主观评分五项指标上全面超越现有5B量级方法。PrismAudio是首个将强化学习(RL)与专项思维链(CoT)规划相结合的V2A生成框架,将推理分解为语义、时序、美学、空间四个专项CoT模块,每个模块配备独立奖励函数,引导模型从多视角同步提升推理质量。详情请参见

https://www.modelscope.cn/models/iic/PrismAudio

3月25日

【闭源】谷歌发布Lyria 3音乐生成模型系列:lyria-3-clip-preview(生成30秒音乐片段)和lyria-3-pro-preview(生成完整歌曲)。两款模型均支持文本和图像输入,可生成高质量48kHz立体声音频。详情请参见

https://ai.google.dev/gemini-api/docs/music-generation

3月26日

【闭源】谷歌发布gemini-3.1-flash-live-preview,最新一代音频到音频(A2A)模型,专为实时对话和语音优先AI应用设计。通过Live API接入使用。详情请参见

https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-live-preview



3月31日

【闭源】谷歌发布Veo 3.1 Lite预览版(veo-3.1-lite-generate-preview),谷歌最具成本效益的视频生成模型,专为快速迭代和构建大批量应用而设计。详情请参见

https://ai.google.dev/gemini-api/docs/video?hl=zh-cn&example=dialogue






大模型/agent评测技术交流:关注公众号,发送消息"进群"。同时,非线智能API支持Api聚合以及Api中转,提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号,领50元体验金