
4月1日
【闭源】阿里发布万相2.7图像生成与编辑模型(wan2.7-image-pro、wan2.7-image),支持文生图、文生组图、图生组图、图像编辑、多图参考生成、交互式编辑,在文字渲染、主体一致性、复杂指令遵循表现更优。Pro系列支持4K输出,加速版兼顾效果与响应速度。详情请参见
https://help.aliyun.com/zh/model-studio/wan-image-generation-and-editing-api-reference
直接体验:https://nonelinear.com/static/models.html
【开源】阿里通义实验室开源CoPaw-Flash系列,专为CoPaw自主智能体场景深度优化的轻量级模型。从训练阶段即针对CoPaw任务进行专门微调,基于大量真实CoPaw环境采样的高质量智能体轨迹数据训练,在工具调用、命令执行、记忆管理及多步规划等方面展现出更强的Agent性能。核心特性包括主动记忆管理、原生文件解析、高效信息搜索和智能引导等。详情请参见
https://modelscope.cn/collections/AgentScope/CoPaw-Flash
4月2日
【开源】谷歌发布Gemma 4系列开源模型(gemma-4-26b-a4b-it、gemma-4-31b-it),基于与Gemini 3相同的研究与技术体系构建,覆盖从手机到工作站的全硬件区间。支持140+语言训练、文本/图片/视频多模态输入、内置可开关思考模式。全系采用Apache 2.0许可证。详情请参见
https://ai.google.dev/gemma/docs/core?hl=zh-cn
国内体验:https://nonelinear.com/static/models.html
【闭源】阿里发布Qwen3.6-Plus,千问3.6-Plus模型,代码开发能力重点升级(Agentic Coding、前端编程等),Vibe Coding体验显著提升;泛化场景推理能力进一步增强;多模态方面万物识别、OCR、物体定位等能力显著提升;同时修复了Qwen3.5-Plus上线后的已知问题。详情请参见
https://help.aliyun.com/zh/model-studio/text-generation
直接体验:https://nonelinear.com/static/models.html
4月4日
【开源】京东开源JoyAI-Image-Edit,专注于指令引导图像编辑的多模态基础模型。通过统一的MLLM-MMDiT架构实现理解、生成与编辑的统一,具备强大的空间理解能力(场景解析、关系定位、指令分解),支持高质量长文本排版、多视图生成及结构保留的可控编辑。详情请参见
https://modelscope.cn/models/jd-opensource/JoyAI-Image-Edit
4月6日
【开源】智谱GLM发布GLM-5.1,新一代旗舰级智能体工程模型,编码能力相较前代实现显著跃升。在SWE-Bench Pro上取得SOTA成绩,并在NL2Repo和Terminal-Bench 2.0等基准上大幅领先GLM-5。专为长周期智能体任务构建,面对模糊问题具备更佳判断力,可在数百轮交互和数千次工具调用中持续优化,运行时间越长结果越出色。详情请参见
https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1
直接体验:https://nonelinear.com/static/models.html
4月7日
【闭源】Anthropic宣布Claude Mythos Preview作为Project Glasswing的一部分,以受邀制研究预览形式向防御性网络安全工作开放。该项目联合AWS、Apple、Google、Microsoft、NVIDIA等12家巨头,致力于利用前沿AI能力保护关键软件基础设施。Claude Mythos Preview已发现数千个高危漏洞,包括所有主流操作系统和浏览器中的安全缺陷。详情请参见
https://www.anthropic.com/glasswing
4月8日
【闭源】Anthropic推出Claude Managed Agents公测版,这是一个完全托管的智能体运行框架,支持将Claude作为自主智能体运行,具备安全沙箱、内置工具和服务端事件流式传输。开发者可通过API创建智能体、配置容器并运行会话,所有端点需使用managed-agents-2026-04-01 beta header。详情请参见
https://platform.claude.com/docs/en/managed-agents/overview
4月10日
【开源】腾讯混元联合Robotics X实验室发布HY-Embodied-0.5具身智能模型系列,推出两款主力模型:MoT-2B主打端侧部署和实时响应,MoE-32B追求复杂推理与极致性能。详情请参见
https://modelscope.cn/models/Tencent-Hunyuan/HY-Embodied-0.5
4月14日
【闭源】谷歌 发布更新版机器人模型 gemini-robotics-er-1.6-preview,新增乐器识读能力,空间与物理推理能力显著增强,进一步推动具身智能在真实物理世界中的感知与决策能力。详情请参见:
https://deepmind.google/blog/gemini-robotics-er-1-6/
【开源】百度 开源文本到图像生成模型 ERNIE-Image,基于单流扩散 Transformer(DiT)架构,仅80亿参数即在开源权重文生图模型中达到业界领先水平。模型内置轻量级提示增强器,可将简短输入扩展为结构化描述,在复杂指令遵循、文本渲染和结构化图像生成方面表现出色,尤其适用于商业海报、漫画、多面板布局等对可控性要求高的内容创作场景。详情请参见
https://modelscope.cn/models/PaddlePaddle/ERNIE-Image
4月15日
【闭源】xAI 语音转文字API(Speech to Text)正式GA上线,支持25种语言的音频转录,同时提供批量处理与流式传输两种模式,满足不同场景的语音识别需求。详情请参见
https://docs.x.ai/developers/model-capabilities/audio/speech-to-text
【闭源】谷歌 推出 Gemini 3.1 Flash TTS 预览版文字转语音模型,主打经济实惠、富有表现力且可控,为开发者提供高性价比的语音合成能力。详情请参见
https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-tts-preview
【开源】阿里开源 Qwen3.6-35B-A3B,Qwen3.6系列首个开源权重版本,采用 Apache 2.0 协议。总参数35B、激活参数仅3B的稀疏MoE模型,智能体编程能力大幅超越前代 Qwen3.5-35B-A3B,原生支持262K上下文可扩展至1010K,同时支持多模态思考与非思考模式。详情请参见
https://qwen.ai/blog?id=qwen3.6-35b-a3b
直接体验:https://nonelinear.com/static/models.html
4月16日
【闭源】Anthropic 发布 Claude Opus 4.7,迄今最强的通用可用模型,主打复杂推理与智能体编程,定价与 Opus 4.6 保持一致($5/$25 每百万tokens)。本次更新包含能力提升、新功能及全新tokenizer,需注意存在相对 Opus 4.6 的 API 破坏性变更。同时 Claude Opus 4.7 与 Haiku 4.5 已在 Amazon Bedrock 27个AWS区域面向所有客户开放自助使用。详情请参见
https://www.anthropic.com/news/claude-opus-4-7
国内体验:https://nonelinear.com/static/models.html
【开源】腾讯混元 联合腾讯 Robotics X 实验室推出具身智能模型 HY-Embodied-0.5,创新采用混合 Transformer(MoT)架构,利用潜在 token 实现模态特定计算,显著提升细粒度感知能力。系列包含两款主力模型:MoT-2B(总参数4B激活2B)主打端侧部署与实时响应;MoE-32B(总参数407B激活32B)追求极致性能。详情请参见
https://modelscope.cn/models/Tencent-Hunyuan/HY-World-2.0
4月17日
【开源】蚂蚁灵波 开源流式三维重建模型 LingBot-Map,突破性地仅需普通 RGB 摄像头即可运行。模型采用纯自回归式建模与几何上下文注意力机制(GCA),实现"边看边建"的实时相机位姿估计与场景三维重建,推理速度约20 FPS。作为具身智能关键拼图,支持长序列连续推理精度无衰减,可为机器人导航、避障及交互提供稳定的空间感知能力。详情请参见
https://www.modelscope.cn/models/Robbyant/lingbot-map
4月21日
【闭源】谷歌发布新版 Deep Research 代理,新增协作规划、可视化支持、MCP 服务器集成与文件搜索功能。包含两个版本:deep-research-preview-04-2026 专为速度和效率设计,适合流式回传客户端;deep-research-max-preview-04-2026 主打自动收集与合成上下文的最大全面性。详情请参见
https://ai.google.dev/gemini-api/docs/deep-research?hl=zh-cn
4月22日
【闭源】谷歌 推出 gemini-embedding-2 嵌入模型正式版(GA),为开发者提供更稳定可靠的向量嵌入能力,适用于检索、分类、聚类等下游任务。详情请参见
https://ai.google.dev/gemini-api/docs/embeddings?hl=zh-cn
【闭源】阿里发布 qwen-image-2.0-pro-2026-04-22 快照,Qwen-Image-2.0 系列模型实现图片生成与图片编辑的融合。相较3月3日快照,在画面质感、纹理细节、光影材质上明显跃升,支持多语言图内文字生成,艺术风格表现更加均衡。详情请参见
https://help.aliyun.com/zh/model-studio/qwen-image-edit-api
直接体验:https://nonelinear.com/static/models.html
4月23日
【闭源】OpenAI 发布迄今最强模型 GPT-5.5(代号"Spud"),是自 GPT-4.5 以来首个完全从头重训的基础模型,原生统一处理文本、图像、音频与视频,主打智能体编程、计算机操作、知识工作与早期科学研究。在保持与 GPT-5.4 相同每 token 延迟的同时大幅提升智能水平,且完成相同 Codex 任务消耗 token 显著更少。GPT-5.5 Pro 同步推出。详情请参见
https://openai.com/index/introducing-gpt-5-5/
国内体验:https://nonelinear.com/static/models.html
【开源】腾讯混元 开源 Hy3 preview 语言模型,快慢思考融合的混合专家模型,总参数295B/激活21B,最大支持256K上下文。这是混元重建后训练的第一个模型,也是迄今最智能的模型。在复杂推理、指令遵循、代码与智能体等能力实现大幅提升。详情请参见
https://www.modelscope.cn/models/Tencent-Hunyuan/Hy3-preview
【开源】阿里开源 Qwen3.6-27B,Qwen3.6系列社区呼声极高的稠密视觉多模态模型,270亿参数,原生支持262K上下文(可扩展至100万tokens)。详情请参见
https://www.modelscope.cn/models/Qwen/Qwen3.6-27B
直接体验:https://nonelinear.com/static/models.html
【闭源】阿里发布 qwen3.5-plus-2026-04-20 快照,Qwen3.5 原生视觉语言系列 Plus 模型更新。相较2月15日快照 Agentic coding 能力大幅提升,推理速度显著加快,知识、推理与长上下文能力保持较高水准,适合编码智能体、生产工作流和高吞吐场景。详情请参见
https://help.aliyun.com/zh/model-studio/models#e5a8609f0edt3
直接体验:https://nonelinear.com/static/models.html
【开源】Moonshot AI 开源 Kimi K2.6,主打长时编码执行、智能体协同与前端设计生成。在 Terminal-Bench 2.0、SWE-Bench Pro 等编码基准达到开源SOTA,接近 GPT-5.4 和 Claude Opus 4.6 水平。智能体集群架构从 K2.5 的100个子智能体扩展至300个,协调步数从1500提升至4000,支持长周期端到端编码、编码驱动设计(文本+视觉转生产级界面)、24/7持久运行后台智能体等能力,可自主生成文档、网站、电子表格等端到端输出。详情请参见
https://www.modelscope.cn/models/moonshotai/Kimi-K2.6
直接体验:https://nonelinear.com/static/models.html
【闭源】小米 发布迄今最强大模型 MiMo-V2.5 系列并开启公测,包含 MiMo-V2.5、MiMo-V2.5-Pro、MiMo-V2.5-TTS Series、MiMo-V2.5-ASR 共4款模型,其中 V2.5 与 V2.5-Pro 将于近期全球开源。MiMo-V2.5-Pro 专为长难 Agent 任务打造,在通用智能体、复杂软件工程、长程任务上可与 Claude Opus 4.6、GPT-5.4 正面较量;MiMo-V2.5 主打原生全模态融合,文本/图像/音频/视频集成于单一模型,API 成本降低约 50%。详情请参见:
https://platform.xiaomimimo.com/docs/news/v2.5-news
直接体验:https://nonelinear.com/static/models.html
4月24日
【开源】DeepSeek 开源 V4 系列预览版,采用 MIT 协议,包含 V4-Pro(1.6T 总参数/49B 激活)和 V4-Flash(284B 总参数/13B 激活),共4个模型版本均支持百万 token 上下文。在 Agent 能力、世界知识和推理性能上均实现开源领先,两个版本均支持三种推理模式:Non-think 快速直觉响应、Think High 逻辑分析推理、Think Max 推理能力全开探索模型推理边界(建议上下文窗口至少384K tokens)。详情请参见
https://www.modelscope.cn/collections/deepseek-ai/DeepSeek-V4
直接体验:https://nonelinear.com/static/models.html
【闭源】美团开放测试新一代基础大模型 LongCat-2.0-Preview,总参数规模突破万亿,采用 MoE 架构,支持 1M 上下文窗口。模型面向 Agent 应用场景深度优化,可适配代码生成、复杂任务规划、企业自动化等生产场景。训练全程依托国产算力集群完成,是迄今为止国产算力上完成的规模最大的大模型训练任务。测试期间每天提供 1000万 免费 Token 额度。详情请参见:
https://longcat.chat/platform/docs/ChangeLog.html
大模型/agent评测技术交流:关注公众号,发送消息"进群"。同时,非线智能API支持Api聚合以及Api中转,提供稳定的企业级服务。