引自非线智能(GitHub 第一 AI 商业测评) - GLM-4.6V 多模态能力体验测试(附完整prompt)

前言

智谱近期发布了 GLM-4.6V,这是一款具备原生多模态工具调用能力的大模型。与传统 LLM 依赖纯文本处理图像不同,GLM-4.6V 可以直接将图像、屏幕截图和文档页面作为工具参数传递,避免了信息丢失,同时支持对工具返回的可视化结果(搜索结果、统计图表、网页截图等)进行理解和推理。

这种"感知-理解-执行"的闭环设计,让 GLM-4.6V 在富文本内容理解与创建、视觉网络搜索等复杂任务上具备了独特优势。

那么,它的实际表现如何?我们通过 60多个覆盖多种场景的测试案例,对其进行了全面体验测试。

一、OCR/文字识别

这是 GLM-4.6V 最强的能力维度,古诗词、表格、发票、小票均能准确识别。

案例:古诗词识别 ✓

引自非线智能(GitHub 第一 AI 商业测评) - GLM-4.6V 多模态能力体验测试(附完整prompt)

Prompt:

识别图片中的全部内容,言简意赅

模型输出:

女冠子四月十七,正是去年今日。别君时,忍泪佯低面,含羞半敛眉。不知魂已断,空有梦相随。除却天边月,没人知。昨夜夜半,枕上分明梦见。语多时,依旧桃花面,频低柳叶眉。半羞还半喜,欲去又依依。觉来知是梦,不胜悲。——韦庄

评价:完美识别全文,仅标点符号略有差异。

案例:发票信息提取 ✓

引自非线智能(GitHub 第一 AI 商业测评) - GLM-4.6V 多模态能力体验测试(附完整prompt)

Prompt:

请提取这张照片的内容,其中内容格式‘机器编号’、‘发票代码’、‘发票号码’、‘开票日期’、‘校 验 码’、‘购买方名称’、‘购买方纳税人识别号’、‘购买方地 址、电 话’、‘开户行及账号’、‘货物或应税劳务、服务名称’、‘规格型号’、‘单 位’、‘数 量’、‘单 价’、‘金 额’、‘税率’、‘税 额’、‘价税合计(大写)’、‘价税合计(小写)’、‘销售方名称’、‘销售方纳税人识别号’、‘销售方地 址、电 话’、‘销售方地 址、电 话’、‘开户行及账号’、‘备注’、‘收款人’、‘复核’、‘开票人’ 字段返回信息,返回的结果信息以json格式返回

模型输出:

{
    "机器编号": "497003211467",
    "发票代码": "053002100113",
    "发票号码": "00195236",
    "开票日期": "2022年12月05日",
    "校验码": "02954 95163 05440 33053",
    "购买方名称": "云南艾拓信息技术有限公司",
    "购买方纳税人识别号": "91530100792866047D",
    "购买方地址、电话": "云南省昆明市高新区经典双城C1幢1单元15层1503室 0871-65386218",
    "购买方开户行及账号": "富滇银行昆明五华支行 242021010000495122",
    "货物或应税劳务、服务名称": ["*计算机网络设备*光纤箱", "*计算机网络设备*光纤箱", "*计算机网络设备*光纤适配器"],
    "规格型号": ["DS-ZGHK-24/E", "DS-ZGHK-12/E", "DS-ZMFGHLS-2/E"],
    "单位": ["个", "个", "个"],
    "数量": [3, 8, 168],
    "单价": [143.36283158407, 106.194690265487, 4.42477876106195],
    "金额": [430.09, 849.56, 743.36],
    "税率": ["13%", "13%", "13%"],
    "税额": [55.91, 110.44, 96.64],
    "价税合计(大写)": "贰仟贰佰捌拾陆圆整",
    "价税合计(小写)": "¥2286.00",
    "销售方名称": "云南亚彩科技有限公司",
    "销售方纳税人识别号": "91530103MA6Q798R69",
    "销售方地址、电话": "云南省昆明市盘龙区北京路花园10幢503-2号13629663610",
    "销售方开户行及账号": "中国建设银行昆明白土路支行530501888637000000644",
    "备注": "",
    "收款人": "蒋云芳",
    "复核": "赵建柏",
    "开票人": "董飞霞"
}

评价:完整提取所有字段,虽然个别字段的内容有点小缺失,比如“富滇银行昆明五华支行” 缺失了“市”,JSON 格式规范。

二、专业报告解读

在医学报告、保健品成分解读等专业场景,GLM-4.6V 展现了令人惊喜的专业度。

案例:血样报告解读 ✓

引自非线智能(GitHub 第一 AI 商业测评) - GLM-4.6V 多模态能力体验测试(附完整prompt)

Prompt:

请帮我解读一下报告内容。

模型输出:

这份医学检验报告的解读需结合**各指标测量结果与参考区间的对比**,以及箭头(↑表示升高)提示的异常情况,分项目分析如下:  

### 1. 新型冠状病毒(2019 - nCoV)IgG抗体  

- 测量结果:10.33(单位:COI)  

- 参考区间:0.00 - 0.99  

- 箭头:↑(升高)  

- 解读:**IgG抗体阳性**,提示可能为**既往感染新冠病毒**,或**接种新冠疫苗后产生的抗体反应**(需结合疫苗接种史、临床症状等综合判断)。  

### 2. 肝功能相关指标(肝酶、胆红素)  

- 丙氨酸氨基转移酶(ALT):27 U/L(参考0 - 50)→ 正常。  

- 天门冬氨酸氨基转移酶(AST):16 U/L(参考15 - 40)→ 正常。  

- γ - 谷氨酰转移酶(GGT):42 U/L(参考10 - 60)→ 正常。  

- 碱性磷酸酶(ALP):48 U/L(参考45 - 125)→ 正常。  

- 总胆红素(TBIL):25.0 umol/L(参考0 - 26)→ 正常(接近上限,但仍在范围内)。  

- 直接胆红素(DBIL):6.86 umol/L(参考0 - 8)→ 正常。  

- 间接胆红素(IBIL):18.14 umol/L(参考1.7 - 14.2)→ **升高**(箭头↑)。  

  - 解读:间接胆红素升高可能提示**溶血、肝细胞损伤或胆道排泄异常**,但结合其他肝酶(ALT、AST等)正常,需结合临床症状(如黄疸、乏力等)进一步排查,暂无明确肝功能异常。  

### 3. 肾功能相关指标(尿素、肌酐、尿酸)  

- 尿素(UREA):5.2 mmol/L(参考3.1 - 8.0)→ 正常。  

- 肌酐(Cr):77 umol/L(参考57 - 97)→ 正常。  

- 尿酸(UA):444 umol/L(参考210 - 430)→ **升高**(箭头↑)。  

  - 解读:尿酸升高提示**高尿酸血症**,可能与饮食(高嘌呤食物)、代谢异常、肾功能轻度影响等有关,建议调整饮食(减少海鲜、动物内脏、啤酒等高嘌呤食物)、多饮水,必要时就医评估。  

### 4. 血糖、血脂相关指标  

- 空腹血糖(FBG):5.33 mmol/L(参考3.9 - 6.1)→ 正常。  

- 总胆固醇(TC):5.53 mmol/L(参考2.90 - 5.72)→ 正常(接近上限,但仍在范围内)。  

- 甘油三酯(TG):1.63 mmol/L(参考0.40 - 1.81)→ 正常。  

- 高密度脂蛋白胆固醇(HDL - C):1.33 mmol/L(参考0.8 - 1.8)→ 正常。  

- 低密度脂蛋白胆固醇(LDL - C):3.36 mmol/L(参考1.50 - 3.37)→ 正常(接近上限,但仍在范围内)。  

  - 解读:血糖、血脂整体在参考范围内,无明确异常。  

### 5. 心肌酶相关指标  

- 磷酸肌酸激酶(CK):52 U/L(参考24 - 194)→ 正常。  

- 磷酸肌酸激酶同工酶(CK - MB):9.50 U/L(参考0 - 24)→ 正常。  

- 乳酸脱氢酶(LDH):154 U/L(参考120 - 250)→ 正常。  

  - 解读:心肌酶无异常,提示无明显心肌损伤。  

### 6. 超敏C反应蛋白(HS - CRP)  

- 测量结果:0.83 mg/L(参考0.00 - 4.00)→ 正常。  

  - 解读:无明显炎症反应。  

### 总结异常项目与建议  

- **异常项**:① 2019 - nCoV IgG抗体(升高);② 间接胆红素(IBIL,升高);③ 尿酸(UA,升高)。  

- **建议**:  

  1. 2019 - nCoV IgG抗体阳性:结合疫苗接种史、既往感染史,若为疫苗接种后反应,属正常免疫应答;若为既往感染,需关注自身健康状况。  

  2. 间接胆红素升高:若无症状,可定期复查;若有黄疸、乏力等,需进一步检查(如溶血试验、肝胆超声等)。  

  3. 尿酸升高:调整饮食(低嘌呤饮食)、多饮水,若反复升高或伴关节疼痛,建议就医评估痛风风险。  

(注:医学报告解读需结合**临床症状、病史、其他检查**等综合判断,以上为基于实验室数据的初步分析,具体诊断请以临床医生结论为准。)

评价:逐项分析 30+ 指标,专业程度堪比医学助手。

三、内容生成

公众号文章、菜谱、技术解读等,生成内容结构清晰、实用性强。

案例:看图写公众号文章 ✓

引自非线智能(GitHub 第一 AI 商业测评) - GLM-4.6V 多模态能力体验测试(附完整prompt)

Prompt:

根据这个内容,写一个图文并茂的内容送来介绍这篇文章。

模型输出:

# DeepSeek-V3.2:开源大语言模型的效率与能力双突破

近日,DeepSeek AI发布了新一代开源大语言模型**DeepSeek-V3.2**,该模型在**计算效率、推理能力、智能体性能**之间实现了卓越平衡,其三大核心技术突破——**稀疏注意力(DSA)、可扩展强化学习(RL)框架、大规模智能体任务合成管道**,为开源大语言模型树立了新标杆。本文将通过图文结合的方式,带你深入了解V3.2的核心创新与性能表现。

## 一、三大技术创新:效率与能力的双重优化

### 1. DSA稀疏注意力:降低长上下文计算复杂度  

长上下文场景中,传统注意力机制的计算成本随token数量呈平方级增长,导致推理效率低下。DeepSeek-V3.2引入**DSA(DeepSeek 稀疏注意力)机制**,通过“闪电索引器(Lightning Indexer)”和“Top-k选择器”,从大量key-value条目中筛选出与查询token最相关的top-k条目,大幅减少需要处理的token数量,同时保持模型性能。  

**架构解析**(如图2所示):  

在多查询注意力(MLA)框架下,DSA机制首先通过闪电索引器对key-value条目进行快速筛选,再通过Top-k选择器确定最相关的top-k条目,最后进行部分旋转位置编码(RoPE)和注意力计算。这种设计将计算复杂度从O(n²)降低到O(n log n),显著提升了长上下文推理效率。  

**推理成本对比**(如图3所示):  

在H800集群上,V3.2的**预填充(Prefilling)**和**解码(Decoding)**阶段成本均显著低于V3.1-Terminus。例如,处理128K token时,预填充成本从0.7$降至0.2$,解码成本从2.4$降至0.4$,尤其在长token序列场景下优势更明显。

### 2. 可扩展强化学习框架:提升复杂任务表现  

为提升模型在复杂任务(如数学、编程)上的表现,V3.2采用**可扩展的强化学习(RL)框架**,通过合成通用智能体数据(如z-bench/Airline、z-bench/Retail)进行大规模RL训练。  

**训练效果**(如图5所示):  

通过RL训练,V3.2-SFT在多个基准测试(如z-bench/Overall、MCP-Mark/PostgreSQL)上的性能持续提升。例如,在z-bench/Airline任务中,模型得分从0.65逐步提升至0.75,证明了RL框架对复杂任务的有效优化。

### 3. 大规模智能体任务合成管道:整合推理能力到工具使用  

为将推理能力整合到工具使用场景,V3.2开发了**大规模智能体任务合成管道**,通过保留和管理“思考过程(Thinking traces)”,确保推理的连续性。  

**工具调用场景示例**(如图4所示):  

在多轮工具调用中,模型先进行思考(如Thinking 1.1),再调用工具(如Tool call 1.1),得到结果后继续思考(如Thinking 1.2),再调用工具(如Tool call 1.2),直到最终给出答案。这种机制提升了工具使用的准确性和效率,例如在Turn 2.1中,模型通过保留之前的思考过程,准确调用了Tool call 1.2并给出Answer 1。

## 二、卓越性能表现:基准测试与顶级竞赛的双重验证

### 1. 基准测试:超越主流模型  

在多项基准测试中,V3.2-Speciale(特别版)的表现优于GPT-5-High、Claude-4.5-Sonnet和Gemini-3.0-Pro,尤其在**数学、编程、推理**任务上表现突出。  

**性能对比**(如图1所示):  

- 数学任务(AIME 2025):V3.2-Speciale得分96.0,高于GPT-5-High的93.1;  

- 编程任务(Codeforces):V3.2-Speciale得分2701,高于GPT-5-High的2386;  

- 推理任务(Terminal Bench 2.0):V3.2-Speciale得分80.3,高于GPT-5-High的54.2。

### 2. 顶级竞赛:金牌成绩彰显实力  

V3.2-Speciale在2025年**国际数学奥林匹克(IMO)、中国数学奥林匹克(CMO)、国际信息学奥林匹克(IOI)、国际大学生程序设计竞赛(ICPC)**中均获得金牌,展现了其在顶级竞赛中的卓越表现。  

**竞赛成绩**(如表4所示):  

- IMO 2025:总分35/42,金牌;  

- CMO 2025:总分102/126,金牌;  

- IOI 2025:总分492/600,金牌;  

- ICPC WF 2025:总分10/12,金牌。

## 三、总结:开源大语言模型的新标杆  

DeepSeek-V3.2通过**DSA机制**降低计算复杂度、**可扩展RL框架**提升复杂任务表现、**智能体任务合成管道**整合推理能力,成功平衡了计算效率与模型能力。其在基准测试和顶级竞赛中的卓越表现,证明了其作为领先开源大语言模型的实力,为开源社区树立了新标杆。  

未来,DeepSeek-V3.2将继续推动开源大语言模型的发展,为更多场景提供高效、强大的AI解决方案。

(注:文中图片均来自DeepSeek-V3.2技术文档,展示了模型架构、推理成本、训练效果及性能对比。)

评价:结构清晰,技术点覆盖全面,适合公众号发布。

案例:看图识菜谱 ✓

引自非线智能(GitHub 第一 AI 商业测评) - GLM-4.6V 多模态能力体验测试(附完整prompt)

Prompt:

帮我看看这道菜是怎么做的

模型输出:

这道菜看起来是**凉拌猪肝(或猪肝拌葱花)**,做法相对简单,以下是详细步骤:  

### 🔸 食材准备  

- 主料:猪肝(约300g)、小葱(适量)  

- 调料:生抽、香醋、香油、盐、白糖、料酒、姜片、蒜末(可选)  

### 🔸 制作步骤  

1. **猪肝处理(去腥+焯水)**  

   猪肝洗净,切成薄片(或块状)。冷水下锅,加入**料酒、姜片**(去腥),大火煮沸后撇去浮沫,继续煮2 - 3分钟(至猪肝变色、内部无血水)。捞出后立即放入**冰水(或凉白开)**中浸泡(这一步能让猪肝口感更嫩滑),沥干水分备用。  

2. **调味拌匀**  

   将沥干水的猪肝放入碗中,加入**生抽、香醋、少许白糖、盐、香油**(可根据口味调整,比如喜欢辣可加辣椒油),再加入蒜末(可选,增香),充分搅拌均匀,让猪肝吸收调料。  

3. **撒葱花完成**  

   小葱洗净,切成葱花,撒在猪肝上(或与猪肝拌匀),即可食用。  

### 🔸 小贴士  

- 猪肝焯水时间不宜过长,否则会变老;过凉水是关键,能提升嫩度。  

- 调料比例可根据个人口味调整(比如重口可多加生抽/醋,清淡则少放盐)。  

- 若担心猪肝腥味,焯水时可多放姜片,或焯水后用温水冲洗一遍。  

这样做的凉拌猪肝,猪肝嫩滑、葱香浓郁,是一道快手下酒/下饭菜~

评价:正确识别菜品,步骤详细实用。

四、知识理解

电影角色、植物功效、成语等识别准确,艺术风格判断偶有失误。

案例:电影角色职业识别 ✓

引自非线智能(GitHub 第一 AI 商业测评) - GLM-4.6V 多模态能力体验测试(附完整prompt)

Prompt:

图中右侧的角色在电影的结尾是什么职业

模型输出:图中右侧的角色是尼克·王尔德(狐狸),在电影《疯狂动物城》的结尾,他成为了一名警察,与朱迪·霍普斯搭档执法。

案例:艺术风格识别 ✗

引自非线智能(GitHub 第一 AI 商业测评) - GLM-4.6V 多模态能力体验测试(附完整prompt)

Prompt:

图中作品属于以下哪一种风格?A:印象派,B:后印象派,C:现代主义,D:达达主义

标准答案:D

模型输出的最终答案:C

评价:将达达主义作品误判为现代主义

五、地标/场景识别

案例:红海滩识别 ✓

引自非线智能(GitHub 第一 AI 商业测评) - GLM-4.6V 多模态能力体验测试(附完整prompt)

Prompt:

朋友拍了一张图片,可以告诉我他是在中国哪个城市拍的吗?

模型输出:这这张图片展示的是中国辽宁省盘锦市的红海滩景区。盘锦红海滩以大面积的碱蓬草形成的红色湿地景观闻名,图中可见的木质栈道、特色建筑等也与红海滩的旅游设施相符,因此可以判断拍摄地点是辽宁省盘锦市。

案例:AGI Bar 地点识别 ✗

引自非线智能(GitHub 第一 AI 商业测评) - GLM-4.6V 多模态能力体验测试(附完整prompt)

Prompt:

这个酒吧在哪里?

标准答案:北京中关村创业大街

模型输出:仅从这张图片无法确定该酒吧的具体地理位置,图片中仅显示了酒吧的名称“AGI Bar 知识蒸馏”以及部分装饰元素,若要明确位置,可能需要结合更多背景信息(如所在城市、具体场所关联等)来判断。无法仅凭图片确定具体位置,需更多信息

评价:未能识别知名的"知识蒸馏"酒吧

六、空间推理 — 明显短板

这是 GLM-4.6V 最薄弱的环节,空间推理题全部答错

案例1:立体图形主视图 ✗

引自非线智能(GitHub 第一 AI 商业测评) - GLM-4.6V 多模态能力体验测试(附完整prompt)

Prompt:

请回答。

标准答案:C  |  模型输出:A

评价:回答错误

案例2:六面体展开图匹配 ✗

引自非线智能(GitHub 第一 AI 商业测评) - GLM-4.6V 多模态能力体验测试(附完整prompt)

Prompt:

请回答,哪个选项的六面体展开结果是上面的展开图

标准答案:D  |  模型输出:C

评价:回答错误

案例3:三维视角推断 ✗

引自非线智能(GitHub 第一 AI 商业测评) - GLM-4.6V 多模态能力体验测试(附完整prompt)

Prompt:

三维视角图形推断:请从ABCD中选出正确视角

标准答案:C  |  模型输出:A

评价:回答错误

案例4:箭头所指视图图形 ✗

引自非线智能(GitHub 第一 AI 商业测评) - GLM-4.6V 多模态能力体验测试(附完整prompt)

Prompt:

图片中的哪一个选项是图中箭头所指的视图图形

标准答案:A  |  模型输出:C

评价:回答错误,空间推理涉及三维到二维的投影转换、展开图的折叠还原等,这类任务对当前多模态模型仍是较大挑战。

七、更多亮点案例

梗图笑点解读 ✓

引自非线智能(GitHub 第一 AI 商业测评) - GLM-4.6V 多模态能力体验测试(附完整prompt)

Prompt:

解释一下这张图好笑在哪

模型输出:

这张图的笑点在于 **文字游戏的荒诞联想**,结合了名字拆分与视觉组合:  

1. **元素拆分**:上方左边是“William”(威廉,莎士比亚的名字),右边是“Pear”(梨)。  

2. **名字重组**:下方是“William Shakespeare”(威廉·莎士比亚)。图中用莎士比亚的画像 + 一只手拿着梨(Pear),暗示“Shakespeare”这个名字是由“William”和“Pear”**视觉化组合**而来的(类似“拆字梗”,把名字拆成“William + Pear”,再通过图像把“梨”和“莎士比亚”强行关联)。  

这种幽默源于 **对名字的荒诞拆解**——正常情况下,“Shakespeare”是固定名字,但图中用“William(人名)+ Pear(水果)”的视觉组合,制造出“名字是由这两个元素拼成”的荒诞感,属于文字游戏类的冷幽默(类似“谐音/拆字梗”的变体)。  

简单说:把莎士比亚的名字拆成“William(人名)”和“Pear(梨)”,再用图像把“梨”和“莎士比亚”强行绑定,形成“名字是这两个东西凑出来的”的搞笑联想~这张图的笑点在于利用文字游戏,将“William”(莎士比亚的名字)和“Pear”(梨)通过视觉组合,暗示“William Shakespeare”的名字是由“William”和“Pear”组成的,形成荒诞的联想,产生幽默效果。

小学奥数题 ✓

引自非线智能(GitHub 第一 AI 商业测评) - GLM-4.6V 多模态能力体验测试(附完整prompt)

Prompt:

这是一道小学奥数题,根据示例图来算加减数学题。

标准答案:15

模型输出的最终答案:15

八、待改进案例

投屏键识别 ✗

引自非线智能(GitHub 第一 AI 商业测评) - GLM-4.6V 多模态能力体验测试(附完整prompt)

Prompt:

哪个是投屏键

标准答案:F6

模型输出:...通常在功能键区域(如F8、F4等),带有屏幕/投影图标的键为投屏键(具体需看键位图标,常见为F8或F4)

评价:回答过于泛化,未能精确指出

垃圾分类连线 ✗

引自非线智能(GitHub 第一 AI 商业测评) - GLM-4.6V 多模态能力体验测试(附完整prompt)

Prompt:

图片上的三类物品沿着线分别进入哪种颜色的垃圾桶

标准答案:饮料杯→蓝色,报纸→黄色,苹果核→绿色

模型输出:饮料杯进入黄色垃圾桶,报纸进入蓝色垃圾桶,苹果核进入绿色垃圾桶。


评价:饮料杯和报纸的颜色搞反了

结论

推荐使用场景

  • 文档处理:发票、表格、小票等 OCR 任务,准确率极高

  • 内容创作:公众号文章、技术解读、菜谱生成等

  • 专业解读:医学报告、保健品成分、论文分析等

  • 知识问答:电影角色、植物识别、成语猜谜等

谨慎使用场景

  • 空间推理题:立体图形、展开图匹配等(0% 准确率)

  • 精确定位任务:如在复杂图像中定位特定物体的精确坐标

  • 小众地标识别:非著名景点或特定场所

一句话总结

GLM-4.6V 是一款实用性强的多模态模型,在 OCR、内容生成、专业解读等领域表现优异,但空间推理能力是其明显短板。如果你的应用场景不涉及几何推理,它将是一个可靠的选择。





大模型/agent评测技术交流:关注公众号,发送消息"进群"。同时,非线智能API支持Api聚合以及Api中转,提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号,领50元体验金