每月AI大模型更新速递（26年4月）

4月1日

【闭源】阿里发布万相2.7图像生成与编辑模型（wan2.7-image-pro、wan2.7-image），支持文生图、文生组图、图生组图、图像编辑、多图参考生成、交互式编辑，在文字渲染、主体一致性、复杂指令遵循表现更优。Pro系列支持4K输出，加速版兼顾效果与响应速度。详情请参见

https://help.aliyun.com/zh/model-studio/wan-image-generation-and-editing-api-reference

直接体验：https://nonelinear.com/static/models.html

【开源】阿里通义实验室开源CoPaw-Flash系列，专为CoPaw自主智能体场景深度优化的轻量级模型。从训练阶段即针对CoPaw任务进行专门微调，基于大量真实CoPaw环境采样的高质量智能体轨迹数据训练，在工具调用、命令执行、记忆管理及多步规划等方面展现出更强的Agent性能。核心特性包括主动记忆管理、原生文件解析、高效信息搜索和智能引导等。详情请参见

https://modelscope.cn/collections/AgentScope/CoPaw-Flash

4月2日

【开源】谷歌发布Gemma 4系列开源模型（gemma-4-26b-a4b-it、gemma-4-31b-it），基于与Gemini 3相同的研究与技术体系构建，覆盖从手机到工作站的全硬件区间。支持140+语言训练、文本/图片/视频多模态输入、内置可开关思考模式。全系采用Apache 2.0许可证。详情请参见

https://ai.google.dev/gemma/docs/core?hl=zh-cn

国内体验：https://nonelinear.com/static/models.html

【闭源】阿里发布Qwen3.6-Plus，千问3.6-Plus模型，代码开发能力重点升级（Agentic Coding、前端编程等），Vibe Coding体验显著提升；泛化场景推理能力进一步增强；多模态方面万物识别、OCR、物体定位等能力显著提升；同时修复了Qwen3.5-Plus上线后的已知问题。详情请参见

https://help.aliyun.com/zh/model-studio/text-generation

直接体验：https://nonelinear.com/static/models.html

4月4日

【开源】京东开源JoyAI-Image-Edit，专注于指令引导图像编辑的多模态基础模型。通过统一的MLLM-MMDiT架构实现理解、生成与编辑的统一，具备强大的空间理解能力（场景解析、关系定位、指令分解），支持高质量长文本排版、多视图生成及结构保留的可控编辑。详情请参见

https://modelscope.cn/models/jd-opensource/JoyAI-Image-Edit

4月6日

【开源】智谱GLM发布GLM-5.1，新一代旗舰级智能体工程模型，编码能力相较前代实现显著跃升。在SWE-Bench Pro上取得SOTA成绩，并在NL2Repo和Terminal-Bench 2.0等基准上大幅领先GLM-5。专为长周期智能体任务构建，面对模糊问题具备更佳判断力，可在数百轮交互和数千次工具调用中持续优化，运行时间越长结果越出色。详情请参见

https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1

直接体验：https://nonelinear.com/static/models.html

4月7日

【闭源】Anthropic宣布Claude Mythos Preview作为Project Glasswing的一部分，以受邀制研究预览形式向防御性网络安全工作开放。该项目联合AWS、Apple、Google、Microsoft、NVIDIA等12家巨头，致力于利用前沿AI能力保护关键软件基础设施。Claude Mythos Preview已发现数千个高危漏洞，包括所有主流操作系统和浏览器中的安全缺陷。详情请参见

https://www.anthropic.com/glasswing

4月8日

【闭源】Anthropic推出Claude Managed Agents公测版，这是一个完全托管的智能体运行框架，支持将Claude作为自主智能体运行，具备安全沙箱、内置工具和服务端事件流式传输。开发者可通过API创建智能体、配置容器并运行会话，所有端点需使用managed-agents-2026-04-01 beta header。详情请参见

https://platform.claude.com/docs/en/managed-agents/overview

4月10日

【开源】腾讯混元联合Robotics X实验室发布HY-Embodied-0.5具身智能模型系列，推出两款主力模型：MoT-2B主打端侧部署和实时响应，MoE-32B追求复杂推理与极致性能。详情请参见

https://modelscope.cn/models/Tencent-Hunyuan/HY-Embodied-0.5

4月14日

【闭源】谷歌发布更新版机器人模型 gemini-robotics-er-1.6-preview，新增乐器识读能力，空间与物理推理能力显著增强，进一步推动具身智能在真实物理世界中的感知与决策能力。详情请参见：

https://deepmind.google/blog/gemini-robotics-er-1-6/

【开源】百度开源文本到图像生成模型 ERNIE-Image，基于单流扩散 Transformer（DiT）架构，仅80亿参数即在开源权重文生图模型中达到业界领先水平。模型内置轻量级提示增强器，可将简短输入扩展为结构化描述，在复杂指令遵循、文本渲染和结构化图像生成方面表现出色，尤其适用于商业海报、漫画、多面板布局等对可控性要求高的内容创作场景。详情请参见

https://modelscope.cn/models/PaddlePaddle/ERNIE-Image

4月15日

【闭源】xAI 语音转文字API（Speech to Text）正式GA上线，支持25种语言的音频转录，同时提供批量处理与流式传输两种模式，满足不同场景的语音识别需求。详情请参见

https://docs.x.ai/developers/model-capabilities/audio/speech-to-text

【闭源】谷歌推出 Gemini 3.1 Flash TTS 预览版文字转语音模型，主打经济实惠、富有表现力且可控，为开发者提供高性价比的语音合成能力。详情请参见

https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-tts-preview

【开源】阿里开源 Qwen3.6-35B-A3B，Qwen3.6系列首个开源权重版本，采用 Apache 2.0 协议。总参数35B、激活参数仅3B的稀疏MoE模型，智能体编程能力大幅超越前代 Qwen3.5-35B-A3B，原生支持262K上下文可扩展至1010K，同时支持多模态思考与非思考模式。详情请参见

https://qwen.ai/blog?id=qwen3.6-35b-a3b

直接体验：https://nonelinear.com/static/models.html

4月16日

【闭源】Anthropic 发布 Claude Opus 4.7，迄今最强的通用可用模型，主打复杂推理与智能体编程，定价与 Opus 4.6 保持一致（$5/$25 每百万tokens）。本次更新包含能力提升、新功能及全新tokenizer，需注意存在相对 Opus 4.6 的 API 破坏性变更。同时 Claude Opus 4.7 与 Haiku 4.5 已在 Amazon Bedrock 27个AWS区域面向所有客户开放自助使用。详情请参见

https://www.anthropic.com/news/claude-opus-4-7

国内体验：https://nonelinear.com/static/models.html

【开源】腾讯混元联合腾讯 Robotics X 实验室推出具身智能模型 HY-Embodied-0.5，创新采用混合 Transformer（MoT）架构，利用潜在 token 实现模态特定计算，显著提升细粒度感知能力。系列包含两款主力模型：MoT-2B（总参数4B激活2B）主打端侧部署与实时响应；MoE-32B（总参数407B激活32B）追求极致性能。详情请参见

https://modelscope.cn/models/Tencent-Hunyuan/HY-World-2.0

4月17日

【开源】蚂蚁灵波开源流式三维重建模型 LingBot-Map，突破性地仅需普通 RGB 摄像头即可运行。模型采用纯自回归式建模与几何上下文注意力机制（GCA），实现"边看边建"的实时相机位姿估计与场景三维重建，推理速度约20 FPS。作为具身智能关键拼图，支持长序列连续推理精度无衰减，可为机器人导航、避障及交互提供稳定的空间感知能力。详情请参见

https://www.modelscope.cn/models/Robbyant/lingbot-map

4月21日

【闭源】谷歌发布新版 Deep Research 代理，新增协作规划、可视化支持、MCP 服务器集成与文件搜索功能。包含两个版本：deep-research-preview-04-2026 专为速度和效率设计，适合流式回传客户端；deep-research-max-preview-04-2026 主打自动收集与合成上下文的最大全面性。详情请参见

https://ai.google.dev/gemini-api/docs/deep-research?hl=zh-cn

4月22日

【闭源】谷歌推出 gemini-embedding-2 嵌入模型正式版（GA），为开发者提供更稳定可靠的向量嵌入能力，适用于检索、分类、聚类等下游任务。详情请参见

https://ai.google.dev/gemini-api/docs/embeddings?hl=zh-cn

【闭源】阿里发布 qwen-image-2.0-pro-2026-04-22 快照，Qwen-Image-2.0 系列模型实现图片生成与图片编辑的融合。相较3月3日快照，在画面质感、纹理细节、光影材质上明显跃升，支持多语言图内文字生成，艺术风格表现更加均衡。详情请参见

https://help.aliyun.com/zh/model-studio/qwen-image-edit-api

直接体验：https://nonelinear.com/static/models.html

4月23日

【闭源】OpenAI 发布迄今最强模型 GPT-5.5（代号"Spud"），是自 GPT-4.5 以来首个完全从头重训的基础模型，原生统一处理文本、图像、音频与视频，主打智能体编程、计算机操作、知识工作与早期科学研究。在保持与 GPT-5.4 相同每 token 延迟的同时大幅提升智能水平，且完成相同 Codex 任务消耗 token 显著更少。GPT-5.5 Pro 同步推出。详情请参见

https://openai.com/index/introducing-gpt-5-5/

国内体验：https://nonelinear.com/static/models.html

【开源】腾讯混元开源 Hy3 preview 语言模型，快慢思考融合的混合专家模型，总参数295B/激活21B，最大支持256K上下文。这是混元重建后训练的第一个模型，也是迄今最智能的模型。在复杂推理、指令遵循、代码与智能体等能力实现大幅提升。详情请参见

https://www.modelscope.cn/models/Tencent-Hunyuan/Hy3-preview

【开源】阿里开源 Qwen3.6-27B，Qwen3.6系列社区呼声极高的稠密视觉多模态模型，270亿参数，原生支持262K上下文（可扩展至100万tokens）。详情请参见

https://www.modelscope.cn/models/Qwen/Qwen3.6-27B

直接体验：https://nonelinear.com/static/models.html

【闭源】阿里发布 qwen3.5-plus-2026-04-20 快照，Qwen3.5 原生视觉语言系列 Plus 模型更新。相较2月15日快照 Agentic coding 能力大幅提升，推理速度显著加快，知识、推理与长上下文能力保持较高水准，适合编码智能体、生产工作流和高吞吐场景。详情请参见

https://help.aliyun.com/zh/model-studio/models#e5a8609f0edt3

直接体验：https://nonelinear.com/static/models.html

【开源】Moonshot AI 开源 Kimi K2.6，主打长时编码执行、智能体协同与前端设计生成。在 Terminal-Bench 2.0、SWE-Bench Pro 等编码基准达到开源SOTA，接近 GPT-5.4 和 Claude Opus 4.6 水平。智能体集群架构从 K2.5 的100个子智能体扩展至300个，协调步数从1500提升至4000，支持长周期端到端编码、编码驱动设计（文本+视觉转生产级界面）、24/7持久运行后台智能体等能力，可自主生成文档、网站、电子表格等端到端输出。详情请参见

https://www.modelscope.cn/models/moonshotai/Kimi-K2.6

直接体验：https://nonelinear.com/static/models.html

【闭源】小米发布迄今最强大模型 MiMo-V2.5 系列并开启公测，包含 MiMo-V2.5、MiMo-V2.5-Pro、MiMo-V2.5-TTS Series、MiMo-V2.5-ASR 共4款模型，其中 V2.5 与 V2.5-Pro 将于近期全球开源。MiMo-V2.5-Pro 专为长难 Agent 任务打造，在通用智能体、复杂软件工程、长程任务上可与 Claude Opus 4.6、GPT-5.4 正面较量；MiMo-V2.5 主打原生全模态融合，文本/图像/音频/视频集成于单一模型，API 成本降低约 50%。详情请参见：

https://platform.xiaomimimo.com/docs/news/v2.5-news

直接体验：https://nonelinear.com/static/models.html

4月24日

【开源】DeepSeek 开源 V4 系列预览版，采用 MIT 协议，包含 V4-Pro（1.6T 总参数/49B 激活）和 V4-Flash（284B 总参数/13B 激活），共4个模型版本均支持百万 token 上下文。在 Agent 能力、世界知识和推理性能上均实现开源领先，两个版本均支持三种推理模式：Non-think 快速直觉响应、Think High 逻辑分析推理、Think Max 推理能力全开探索模型推理边界（建议上下文窗口至少384K tokens）。详情请参见

https://www.modelscope.cn/collections/deepseek-ai/DeepSeek-V4

直接体验：https://nonelinear.com/static/models.html

【闭源】美团开放测试新一代基础大模型 LongCat-2.0-Preview，总参数规模突破万亿，采用 MoE 架构，支持 1M 上下文窗口。模型面向 Agent 应用场景深度优化，可适配代码生成、复杂任务规划、企业自动化等生产场景。训练全程依托国产算力集群完成，是迄今为止国产算力上完成的规模最大的大模型训练任务。测试期间每天提供 1000万免费 Token 额度。详情请参见：

https://longcat.chat/platform/docs/ChangeLog.html

大模型/agent评测技术交流：关注公众号，发送消息"进群"。同时，非线智能API支持Api聚合以及Api中转，提供稳定的企业级服务。