每月AI大模型更新速递（26年3月）

3月1日

【开源】阿里发布Qwen3.5-0.8B / 2B / 4B / 9B，Qwen3.5系列端侧小模型家族正式开源，采用原生多模态训练+混合注意力架构，专为移动端和边缘设备设计。其中：

Qwen3.5-9B：小尺寸旗舰，GPQA Diamond 81.7超越上代Qwen3-30B甚至Qwen3-80B，4-bit量化仅约5GB显存
Qwen3.5-4B：轻量级多模态Agent基座，在同参数量级中首次实现接近大模型的完整多模态能力，适合消费级GPU部署
Qwen3.5-0.8B / 2B：极端轻量边缘模型，0.8B为首个支持原生视频处理的亿级参数模型，可在手机端离线进行视频摘要和空间推理

详情请参见：

https://www.modelscope.cn/collections/Qwen/Qwen35

3月2日

【闭源】阿里发布CosyVoice 3.5（cosyvoice-v3.5-plus、cosyvoice-v3.5-flash），CosyVoice3.5语音合成模型上线，专注声音复刻与设计，支持指令控制语音合成效果。详情请参见

https://help.aliyun.com/zh/model-studio/text-to-speech

3月3日

【闭源】OpenAI发布GPT-5.3 Instant，ChatGPT日常使用模型的重大更新。幻觉率降低26.8%（联网时），对话语气更自然、减少"说教感"和不必要拒绝，网页搜索结果质量显著提升。支持400K Token上下文窗口。详情请参见

https://openai.com/zh-Hans-CN/index/gpt-5-3-instant/

国内体验：https://nonelinear.com/static/models.html

【闭源】谷歌发布Gemini 3.1 Flash-Lite Preview，Gemini 3系列首款Flash-Lite模型，专为大规模高频场景设计。定价仅$0.25/百万输入Token + $1.50/百万输出Token，是Pro的1/8成本。输出速度比2.5 Flash快45%，首Token响应快2.5倍。支持100万Token上下文及多模态输入。详情请参见

https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-lite-preview

国内体验：https://nonelinear.com/static/models.html

【闭源】阿里发布qwen-image-2.0系列（qwen-image-2.0-2026-03-03、qwen-image-2.0-pro、qwen-image-2.0-pro-2026-03-03），千问Image2.0系列，同时支持图像生成和编辑。Pro系列文字渲染、真实质感、语义遵循能力更强；加速版兼顾效果与响应速度。详情请参见https://help.aliyun.com/zh/model-studio/qwen-image-api

https://help.aliyun.com/zh/model-studio/qwen-image-edit-api

直接体验：https://nonelinear.com/static/models.html

3月5日

【闭源】OpenAI发布GPT-5.4，OpenAI最新旗舰模型。首个内置原生Computer Use能力的通用模型，可自主操作桌面应用并执行多步工作流。最大支持100万Token上下文，推理Token效率大幅优于GPT-5.2，事实错误率降低33%。引入Tool Search机制，智能查找调用工具。详情请参见

https://openai.com/zh-Hans-CN/index/introducing-gpt-5-4/

国内体验：https://nonelinear.com/static/models.html

3月10日

【闭源】xAI发布Grok 4.20 Beta和Grok 4.20 Multi-agent Beta，现可通过xAI Enterprise API调用。Grok 4.20采用4智能体并行协作架构（Grok/Harper/Benjamin/Lucas），多角度分析问题后交叉验证、综合输出，幻觉率从约12%降至约4.2%。Multi-agent Beta支持深度研究、协调工具调用和跨任务信息综合。详情请参见

https://docs.x.ai/developers/model-capabilities/text/multi-agent

国内体验：https://nonelinear.com/static/models.html

【闭源】谷歌发布gemini-embedding-2-preview，这是谷歌首个原生多模态嵌入模型。支持文本、图片、视频、音频和PDF输入，将所有模态映射到统一的嵌入空间。支持100+语言，默认输出3072维向量，可灵活缩放至1536或768维。现已通过Gemini API和Vertex AI公开预览。详情请参见

https://ai.google.dev/gemini-api/docs/embeddings?hl=zh-cn

3月13日

【闭源】Anthropic宣布Claude Opus 4.6和Sonnet 4.6的100万Token上下文窗口正式GA（通用可用），采用标准定价，无长上下文溢价。媒体限制从100提升至600张图片或PDF页面，已取消专用1M速率限制。无需beta header，超过200K的请求自动生效。详情请参见

https://platform.claude.com/docs/en/build-with-claude/context-windows

3月16日

【闭源】智谱GLM发布GLM-5-Turbo，全球首个专为OpenClaw龙虾场景深度优化的基座模型。从训练阶段即针对龙虾任务核心需求进行专项优化，增强工具调用、指令遵循、定时与持续性任务、长链路执行等核心能力，支持200K上下文窗口。详情请参见

https://docs.bigmodel.cn/cn/guide/models/text/glm-5-turbo

直接体验：https://nonelinear.com/static/models.html

【开源】Mistral发布Mistral Small 4（mistral-small-2603），Mistral Small系列最新一代模型，首次将Mistral Small（指令跟随）、Magistral（推理）、Pixtral（多模态）、Devstral（编程Agent）四大能力统一到单一模型。MoE架构，128个专家中每Token激活4个，总参数119B、激活参数仅6B，支持256K上下文窗口。支持可配置推理强度（reasoning_effort参数），端到端响应时间比Small 3降低40%，吞吐量提升3倍。Apache 2.0开源。详情请参见

https://mistral.ai/news/mistral-small-4

【开源】Mistral发布Leanstral，全球首个开源Lean 4代码Agent，专为形式化数学证明验证设计，核心参数6B。Apache 2.0开源，支持MCP协议，可在Mistral Vibe中零配置使用，同时提供免费Labs API。详情请见

https://mistral.ai/news/leanstral

3月17日

【闭源】OpenAI发布GPT-5.4 Mini和GPT-5.4 Nano，定位为”迄今最强的小型模型”，专为编码、子智能体和高吞吐量工作负载设计。GPT-5.4 Mini是专为编码助手、子智能体（subagent）和高吞吐量工作负载设计的高效模型，在编码、推理、多模态理解和工具调用方面相较前代GPT-5 Mini有显著提升，同时运行速度提升超过2倍。

GPT-5.4 Nano是GPT-5.4家族中最小、最便宜的版本，专为速度和成本优先的场景而生，推荐用于分类、数据提取、排序以及处理简单辅助任务的编码子智能体。详情请参见

https://openai.com/zh-Hans-CN/index/introducing-gpt-5-4-mini-and-nano/

国内体验：https://nonelinear.com/static/models.html

3月18日

【闭源】MiniMax发布MiniMax M2.7，首个深度参与自身训练迭代的商用大模型。通过构建Agent Harness体系，模型自主完成超100轮迭代循环（含失败分析、代码修改、评测对比），在部分研发场景中可承担30%-50%的工作量，内部评测提升约30%。已在MiniMax Agent与开放平台全球上线，API定价与M2.5一致。详情请参见

https://www.minimaxi.com/news/minimax-m27-zh

直接体验：https://nonelinear.com/static/models.html

【闭源】小米发布Xiaomi MiMo-V2-Pro，面向Agent时代的旗舰基座大模型。万亿参数，总参数1T、激活42B，采用创新混合注意力架构（比例7:1），支持1M超长上下文。此前以"Hunter Alpha"代号匿名测试，调用量突破1T Tokens、多日登顶OpenRouter日榜。详情请参见

https://mimo.xiaomi.com/mimo-v2-pro

直接体验：https://nonelinear.com/static/models.html

【闭源】小米发布Xiaomi MiMo-V2-Omni，面向Agent时代的全模态基座模型。原生全模态感知，支持图像、视频、音频、文本的跨模态精准理解，并具备原生Agent与Browser Use能力，是通往具身智能的基座。Healer Alpha测试期间Pinchbench均分第一。详情请参见

https://mimo.xiaomi.com/mimo-v2-omni

直接体验：https://nonelinear.com/static/models.html

【闭源】小米发布Xiaomi MiMo-V2-TTS，能说会唱的百变Voice Agent基座模型。端到端语音生成架构，基于自研Audio Tokenizer和多码本语音建模架构，实现更精细的语音特征捕捉与还原。基于上亿小时语音进行超大规模预训练，覆盖丰富说话风格与场景。通过多维度强化学习训练实现高拟人度、强表现力的语音生成，同时具备唱歌、方言（四川话/河南话/粤语/台湾腔等）等独特能力。详情请参见

https://mimo.xiaomi.com/mimo-v2-tts

直接体验：https://nonelinear.com/static/models.html

3月23日

【开源】Mistral发布Voxtral TTS（voxtral-tts-2603），最新一代文本转语音模型，支持零样本声音克隆、多语言输出和实时流式生成，可生成高质量48kHz立体声音频。基于4B参数核心架构，Apache 2.0开源。详情请参见

https://huggingface.co/mistralai/Voxtral-4B-TTS-2603

3月24日

【开源】阿里通义实验室开源PrismAudio，一个强大的视频配音（V2A）模型。仅518M参数、0.63s推理时延，在语义、时序、美学、空间及主观评分五项指标上全面超越现有5B量级方法。PrismAudio是首个将强化学习（RL）与专项思维链（CoT）规划相结合的V2A生成框架，将推理分解为语义、时序、美学、空间四个专项CoT模块，每个模块配备独立奖励函数，引导模型从多视角同步提升推理质量。详情请参见

https://www.modelscope.cn/models/iic/PrismAudio

3月25日

【闭源】谷歌发布Lyria 3音乐生成模型系列：lyria-3-clip-preview（生成30秒音乐片段）和lyria-3-pro-preview（生成完整歌曲）。两款模型均支持文本和图像输入，可生成高质量48kHz立体声音频。详情请参见

https://ai.google.dev/gemini-api/docs/music-generation

3月26日

【闭源】谷歌发布gemini-3.1-flash-live-preview，最新一代音频到音频（A2A）模型，专为实时对话和语音优先AI应用设计。通过Live API接入使用。详情请参见

https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-live-preview

3月31日

【闭源】谷歌发布Veo 3.1 Lite预览版（veo-3.1-lite-generate-preview），谷歌最具成本效益的视频生成模型，专为快速迭代和构建大批量应用而设计。详情请参见

https://ai.google.dev/gemini-api/docs/video?hl=zh-cn&example=dialogue

大模型/agent评测技术交流：关注公众号，发送消息"进群"。同时，非线智能API支持Api聚合以及Api中转，提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号，领50元体验金