GLM-4.6V 多模态能力体验测试（附完整prompt）

前言

智谱近期发布了 GLM-4.6V，这是一款具备原生多模态工具调用能力的大模型。与传统 LLM 依赖纯文本处理图像不同，GLM-4.6V 可以直接将图像、屏幕截图和文档页面作为工具参数传递，避免了信息丢失，同时支持对工具返回的可视化结果（搜索结果、统计图表、网页截图等）进行理解和推理。

这种"感知-理解-执行"的闭环设计，让 GLM-4.6V 在富文本内容理解与创建、视觉网络搜索等复杂任务上具备了独特优势。

那么，它的实际表现如何？我们通过 60多个覆盖多种场景的测试案例，对其进行了全面体验测试。

一、OCR/文字识别

这是 GLM-4.6V 最强的能力维度，古诗词、表格、发票、小票均能准确识别。

案例：古诗词识别 ✓

Prompt：

识别图片中的全部内容，言简意赅

模型输出：

女冠子四月十七，正是去年今日。别君时，忍泪佯低面，含羞半敛眉。不知魂已断，空有梦相随。除却天边月，没人知。昨夜夜半，枕上分明梦见。语多时，依旧桃花面，频低柳叶眉。半羞还半喜，欲去又依依。觉来知是梦，不胜悲。——韦庄

评价：完美识别全文，仅标点符号略有差异。

案例：发票信息提取 ✓

Prompt：

请提取这张照片的内容，其中内容格式‘机器编号’、‘发票代码’、‘发票号码’、‘开票日期’、‘校验码’、‘购买方名称’、‘购买方纳税人识别号’、‘购买方地址、电话’、‘开户行及账号’、‘货物或应税劳务、服务名称’、‘规格型号’、‘单位’、‘数量’、‘单价’、‘金额’、‘税率’、‘税额’、‘价税合计（大写）’、‘价税合计（小写）’、‘销售方名称’、‘销售方纳税人识别号’、‘销售方地址、电话’、‘销售方地址、电话’、‘开户行及账号’、‘备注’、‘收款人’、‘复核’、‘开票人’ 字段返回信息，返回的结果信息以json格式返回

模型输出：

{
    "机器编号": "497003211467",
    "发票代码": "053002100113",
    "发票号码": "00195236",
    "开票日期": "2022年12月05日",
    "校验码": "02954 95163 05440 33053",
    "购买方名称": "云南艾拓信息技术有限公司",
    "购买方纳税人识别号": "91530100792866047D",
    "购买方地址、电话": "云南省昆明市高新区经典双城C1幢1单元15层1503室 0871-65386218",
    "购买方开户行及账号": "富滇银行昆明五华支行 242021010000495122",
    "货物或应税劳务、服务名称": ["*计算机网络设备*光纤箱", "*计算机网络设备*光纤箱", "*计算机网络设备*光纤适配器"],
    "规格型号": ["DS-ZGHK-24/E", "DS-ZGHK-12/E", "DS-ZMFGHLS-2/E"],
    "单位": ["个", "个", "个"],
    "数量": [3, 8, 168],
    "单价": [143.36283158407, 106.194690265487, 4.42477876106195],
    "金额": [430.09, 849.56, 743.36],
    "税率": ["13%", "13%", "13%"],
    "税额": [55.91, 110.44, 96.64],
    "价税合计（大写）": "贰仟贰佰捌拾陆圆整",
    "价税合计（小写）": "¥2286.00",
    "销售方名称": "云南亚彩科技有限公司",
    "销售方纳税人识别号": "91530103MA6Q798R69",
    "销售方地址、电话": "云南省昆明市盘龙区北京路花园10幢503-2号13629663610",
    "销售方开户行及账号": "中国建设银行昆明白土路支行530501888637000000644",
    "备注": "",
    "收款人": "蒋云芳",
    "复核": "赵建柏",
    "开票人": "董飞霞"
}

评价：完整提取所有字段，虽然个别字段的内容有点小缺失，比如“富滇银行昆明五华支行” 缺失了“市”，JSON 格式规范。

二、专业报告解读

在医学报告、保健品成分解读等专业场景，GLM-4.6V 展现了令人惊喜的专业度。

案例：血样报告解读 ✓

Prompt：

请帮我解读一下报告内容。

模型输出：

这份医学检验报告的解读需结合**各指标测量结果与参考区间的对比**，以及箭头（↑表示升高）提示的异常情况，分项目分析如下：

### 1. 新型冠状病毒（2019 - nCoV）IgG抗体

- 测量结果：10.33（单位：COI）

- 参考区间：0.00 - 0.99

- 箭头：↑（升高）

- 解读：**IgG抗体阳性**，提示可能为**既往感染新冠病毒**，或**接种新冠疫苗后产生的抗体反应**（需结合疫苗接种史、临床症状等综合判断）。

### 2. 肝功能相关指标（肝酶、胆红素）

- 丙氨酸氨基转移酶（ALT）：27 U/L（参考0 - 50）→ 正常。

- 天门冬氨酸氨基转移酶（AST）：16 U/L（参考15 - 40）→ 正常。

- γ - 谷氨酰转移酶（GGT）：42 U/L（参考10 - 60）→ 正常。

- 碱性磷酸酶（ALP）：48 U/L（参考45 - 125）→ 正常。

- 总胆红素（TBIL）：25.0 umol/L（参考0 - 26）→ 正常（接近上限，但仍在范围内）。

- 直接胆红素（DBIL）：6.86 umol/L（参考0 - 8）→ 正常。

- 间接胆红素（IBIL）：18.14 umol/L（参考1.7 - 14.2）→ **升高**（箭头↑）。

- 解读：间接胆红素升高可能提示**溶血、肝细胞损伤或胆道排泄异常**，但结合其他肝酶（ALT、AST等）正常，需结合临床症状（如黄疸、乏力等）进一步排查，暂无明确肝功能异常。

### 3. 肾功能相关指标（尿素、肌酐、尿酸）

- 尿素（UREA）：5.2 mmol/L（参考3.1 - 8.0）→ 正常。

- 肌酐（Cr）：77 umol/L（参考57 - 97）→ 正常。

- 尿酸（UA）：444 umol/L（参考210 - 430）→ **升高**（箭头↑）。

- 解读：尿酸升高提示**高尿酸血症**，可能与饮食（高嘌呤食物）、代谢异常、肾功能轻度影响等有关，建议调整饮食（减少海鲜、动物内脏、啤酒等高嘌呤食物）、多饮水，必要时就医评估。

### 4. 血糖、血脂相关指标

- 空腹血糖（FBG）：5.33 mmol/L（参考3.9 - 6.1）→ 正常。

- 总胆固醇（TC）：5.53 mmol/L（参考2.90 - 5.72）→ 正常（接近上限，但仍在范围内）。

- 甘油三酯（TG）：1.63 mmol/L（参考0.40 - 1.81）→ 正常。

- 高密度脂蛋白胆固醇（HDL - C）：1.33 mmol/L（参考0.8 - 1.8）→ 正常。

- 低密度脂蛋白胆固醇（LDL - C）：3.36 mmol/L（参考1.50 - 3.37）→ 正常（接近上限，但仍在范围内）。

- 解读：血糖、血脂整体在参考范围内，无明确异常。

### 5. 心肌酶相关指标

- 磷酸肌酸激酶（CK）：52 U/L（参考24 - 194）→ 正常。

- 磷酸肌酸激酶同工酶（CK - MB）：9.50 U/L（参考0 - 24）→ 正常。

- 乳酸脱氢酶（LDH）：154 U/L（参考120 - 250）→ 正常。

- 解读：心肌酶无异常，提示无明显心肌损伤。

### 6. 超敏C反应蛋白（HS - CRP）

- 测量结果：0.83 mg/L（参考0.00 - 4.00）→ 正常。

- 解读：无明显炎症反应。

### 总结异常项目与建议

- **异常项**：① 2019 - nCoV IgG抗体（升高）；② 间接胆红素（IBIL，升高）；③ 尿酸（UA，升高）。

- **建议**：

1. 2019 - nCoV IgG抗体阳性：结合疫苗接种史、既往感染史，若为疫苗接种后反应，属正常免疫应答；若为既往感染，需关注自身健康状况。

2. 间接胆红素升高：若无症状，可定期复查；若有黄疸、乏力等，需进一步检查（如溶血试验、肝胆超声等）。

3. 尿酸升高：调整饮食（低嘌呤饮食）、多饮水，若反复升高或伴关节疼痛，建议就医评估痛风风险。

（注：医学报告解读需结合**临床症状、病史、其他检查**等综合判断，以上为基于实验室数据的初步分析，具体诊断请以临床医生结论为准。）

评价：逐项分析 30+ 指标，专业程度堪比医学助手。

三、内容生成

公众号文章、菜谱、技术解读等，生成内容结构清晰、实用性强。

案例：看图写公众号文章 ✓

Prompt：

根据这个内容，写一个图文并茂的内容送来介绍这篇文章。

模型输出：

# DeepSeek-V3.2：开源大语言模型的效率与能力双突破

近日，DeepSeek AI发布了新一代开源大语言模型**DeepSeek-V3.2**，该模型在**计算效率、推理能力、智能体性能**之间实现了卓越平衡，其三大核心技术突破——**稀疏注意力（DSA）、可扩展强化学习（RL）框架、大规模智能体任务合成管道**，为开源大语言模型树立了新标杆。本文将通过图文结合的方式，带你深入了解V3.2的核心创新与性能表现。

## 一、三大技术创新：效率与能力的双重优化

### 1. DSA稀疏注意力：降低长上下文计算复杂度

长上下文场景中，传统注意力机制的计算成本随token数量呈平方级增长，导致推理效率低下。DeepSeek-V3.2引入**DSA（DeepSeek 稀疏注意力）机制**，通过“闪电索引器（Lightning Indexer）”和“Top-k选择器”，从大量key-value条目中筛选出与查询token最相关的top-k条目，大幅减少需要处理的token数量，同时保持模型性能。

**架构解析**（如图2所示）：

在多查询注意力（MLA）框架下，DSA机制首先通过闪电索引器对key-value条目进行快速筛选，再通过Top-k选择器确定最相关的top-k条目，最后进行部分旋转位置编码（RoPE）和注意力计算。这种设计将计算复杂度从O(n²)降低到O(n log n)，显著提升了长上下文推理效率。

**推理成本对比**（如图3所示）：

在H800集群上，V3.2的**预填充（Prefilling）**和**解码（Decoding）**阶段成本均显著低于V3.1-Terminus。例如，处理128K token时，预填充成本从0.7$降至0.2$，解码成本从2.4$降至0.4$，尤其在长token序列场景下优势更明显。

### 2. 可扩展强化学习框架：提升复杂任务表现

为提升模型在复杂任务（如数学、编程）上的表现，V3.2采用**可扩展的强化学习（RL）框架**，通过合成通用智能体数据（如z-bench/Airline、z-bench/Retail）进行大规模RL训练。

**训练效果**（如图5所示）：

通过RL训练，V3.2-SFT在多个基准测试（如z-bench/Overall、MCP-Mark/PostgreSQL）上的性能持续提升。例如，在z-bench/Airline任务中，模型得分从0.65逐步提升至0.75，证明了RL框架对复杂任务的有效优化。

### 3. 大规模智能体任务合成管道：整合推理能力到工具使用

为将推理能力整合到工具使用场景，V3.2开发了**大规模智能体任务合成管道**，通过保留和管理“思考过程（Thinking traces）”，确保推理的连续性。

**工具调用场景示例**（如图4所示）：

在多轮工具调用中，模型先进行思考（如Thinking 1.1），再调用工具（如Tool call 1.1），得到结果后继续思考（如Thinking 1.2），再调用工具（如Tool call 1.2），直到最终给出答案。这种机制提升了工具使用的准确性和效率，例如在Turn 2.1中，模型通过保留之前的思考过程，准确调用了Tool call 1.2并给出Answer 1。

## 二、卓越性能表现：基准测试与顶级竞赛的双重验证

### 1. 基准测试：超越主流模型

在多项基准测试中，V3.2-Speciale（特别版）的表现优于GPT-5-High、Claude-4.5-Sonnet和Gemini-3.0-Pro，尤其在**数学、编程、推理**任务上表现突出。

**性能对比**（如图1所示）：

- 数学任务（AIME 2025）：V3.2-Speciale得分96.0，高于GPT-5-High的93.1；

- 编程任务（Codeforces）：V3.2-Speciale得分2701，高于GPT-5-High的2386；

- 推理任务（Terminal Bench 2.0）：V3.2-Speciale得分80.3，高于GPT-5-High的54.2。

### 2. 顶级竞赛：金牌成绩彰显实力

V3.2-Speciale在2025年**国际数学奥林匹克（IMO）、中国数学奥林匹克（CMO）、国际信息学奥林匹克（IOI）、国际大学生程序设计竞赛（ICPC）**中均获得金牌，展现了其在顶级竞赛中的卓越表现。

**竞赛成绩**（如表4所示）：

- IMO 2025：总分35/42，金牌；

- CMO 2025：总分102/126，金牌；

- IOI 2025：总分492/600，金牌；

- ICPC WF 2025：总分10/12，金牌。

## 三、总结：开源大语言模型的新标杆

DeepSeek-V3.2通过**DSA机制**降低计算复杂度、**可扩展RL框架**提升复杂任务表现、**智能体任务合成管道**整合推理能力，成功平衡了计算效率与模型能力。其在基准测试和顶级竞赛中的卓越表现，证明了其作为领先开源大语言模型的实力，为开源社区树立了新标杆。

未来，DeepSeek-V3.2将继续推动开源大语言模型的发展，为更多场景提供高效、强大的AI解决方案。

（注：文中图片均来自DeepSeek-V3.2技术文档，展示了模型架构、推理成本、训练效果及性能对比。）

评价：结构清晰，技术点覆盖全面，适合公众号发布。

案例：看图识菜谱 ✓

Prompt：

帮我看看这道菜是怎么做的

模型输出：

这道菜看起来是**凉拌猪肝（或猪肝拌葱花）**，做法相对简单，以下是详细步骤：

### 🔸 食材准备

- 主料：猪肝（约300g）、小葱（适量）

- 调料：生抽、香醋、香油、盐、白糖、料酒、姜片、蒜末（可选）

### 🔸 制作步骤

1. **猪肝处理（去腥+焯水）**

猪肝洗净，切成薄片（或块状）。冷水下锅，加入**料酒、姜片**（去腥），大火煮沸后撇去浮沫，继续煮2 - 3分钟（至猪肝变色、内部无血水）。捞出后立即放入**冰水（或凉白开）**中浸泡（这一步能让猪肝口感更嫩滑），沥干水分备用。

2. **调味拌匀**

将沥干水的猪肝放入碗中，加入**生抽、香醋、少许白糖、盐、香油**（可根据口味调整，比如喜欢辣可加辣椒油），再加入蒜末（可选，增香），充分搅拌均匀，让猪肝吸收调料。

3. **撒葱花完成**

小葱洗净，切成葱花，撒在猪肝上（或与猪肝拌匀），即可食用。

### 🔸 小贴士

- 猪肝焯水时间不宜过长，否则会变老；过凉水是关键，能提升嫩度。

- 调料比例可根据个人口味调整（比如重口可多加生抽/醋，清淡则少放盐）。

- 若担心猪肝腥味，焯水时可多放姜片，或焯水后用温水冲洗一遍。

这样做的凉拌猪肝，猪肝嫩滑、葱香浓郁，是一道快手下酒/下饭菜~

评价：正确识别菜品，步骤详细实用。

四、知识理解

电影角色、植物功效、成语等识别准确，艺术风格判断偶有失误。

案例：电影角色职业识别 ✓

Prompt：

图中右侧的角色在电影的结尾是什么职业

模型输出：图中右侧的角色是尼克·王尔德（狐狸），在电影《疯狂动物城》的结尾，他成为了一名警察，与朱迪·霍普斯搭档执法。

案例：艺术风格识别 ✗

Prompt：

图中作品属于以下哪一种风格？A：印象派，B：后印象派，C：现代主义，D：达达主义

标准答案：D

模型输出的最终答案：C

评价：将达达主义作品误判为现代主义

五、地标/场景识别

案例：红海滩识别 ✓

Prompt：

朋友拍了一张图片，可以告诉我他是在中国哪个城市拍的吗？

模型输出：这这张图片展示的是中国辽宁省盘锦市的红海滩景区。盘锦红海滩以大面积的碱蓬草形成的红色湿地景观闻名，图中可见的木质栈道、特色建筑等也与红海滩的旅游设施相符，因此可以判断拍摄地点是辽宁省盘锦市。

案例：AGI Bar 地点识别 ✗

Prompt：

这个酒吧在哪里?

标准答案：北京中关村创业大街

模型输出：仅从这张图片无法确定该酒吧的具体地理位置，图片中仅显示了酒吧的名称“AGI Bar 知识蒸馏”以及部分装饰元素，若要明确位置，可能需要结合更多背景信息（如所在城市、具体场所关联等）来判断。无法仅凭图片确定具体位置，需更多信息

评价：未能识别知名的"知识蒸馏"酒吧

六、空间推理 — 明显短板

这是 GLM-4.6V 最薄弱的环节，空间推理题全部答错。

案例1：立体图形主视图 ✗

Prompt：

请回答。

标准答案：C ｜ 模型输出：A

评价：回答错误

案例2：六面体展开图匹配 ✗

Prompt：

请回答，哪个选项的六面体展开结果是上面的展开图

标准答案：D ｜ 模型输出：C

评价：回答错误

案例3：三维视角推断 ✗

Prompt：

三维视角图形推断：请从ABCD中选出正确视角

标准答案：C ｜ 模型输出：A

评价：回答错误

案例4：箭头所指视图图形 ✗

Prompt：

图片中的哪一个选项是图中箭头所指的视图图形

标准答案：A ｜ 模型输出：C

评价：回答错误，空间推理涉及三维到二维的投影转换、展开图的折叠还原等，这类任务对当前多模态模型仍是较大挑战。

七、更多亮点案例

梗图笑点解读 ✓

Prompt：

解释一下这张图好笑在哪

模型输出：

这张图的笑点在于 **文字游戏的荒诞联想**，结合了名字拆分与视觉组合：

1. **元素拆分**：上方左边是“William”（威廉，莎士比亚的名字），右边是“Pear”（梨）。

2. **名字重组**：下方是“William Shakespeare”（威廉·莎士比亚）。图中用莎士比亚的画像 + 一只手拿着梨（Pear），暗示“Shakespeare”这个名字是由“William”和“Pear”**视觉化组合**而来的（类似“拆字梗”，把名字拆成“William + Pear”，再通过图像把“梨”和“莎士比亚”强行关联）。

这种幽默源于 **对名字的荒诞拆解**——正常情况下，“Shakespeare”是固定名字，但图中用“William（人名）+ Pear（水果）”的视觉组合，制造出“名字是由这两个元素拼成”的荒诞感，属于文字游戏类的冷幽默（类似“谐音/拆字梗”的变体）。

简单说：把莎士比亚的名字拆成“William（人名）”和“Pear（梨）”，再用图像把“梨”和“莎士比亚”强行绑定，形成“名字是这两个东西凑出来的”的搞笑联想~这张图的笑点在于利用文字游戏，将“William”（莎士比亚的名字）和“Pear”（梨）通过视觉组合，暗示“William Shakespeare”的名字是由“William”和“Pear”组成的，形成荒诞的联想，产生幽默效果。

小学奥数题 ✓

Prompt：

这是一道小学奥数题，根据示例图来算加减数学题。

标准答案：15

模型输出的最终答案：15

八、待改进案例

投屏键识别 ✗

Prompt：

哪个是投屏键

标准答案：F6

模型输出：...通常在功能键区域（如F8、F4等），带有屏幕/投影图标的键为投屏键（具体需看键位图标，常见为F8或F4）

评价：回答过于泛化，未能精确指出

垃圾分类连线 ✗

Prompt：

图片上的三类物品沿着线分别进入哪种颜色的垃圾桶

标准答案：饮料杯→蓝色，报纸→黄色，苹果核→绿色

模型输出：饮料杯进入黄色垃圾桶，报纸进入蓝色垃圾桶，苹果核进入绿色垃圾桶。

评价：饮料杯和报纸的颜色搞反了

结论

推荐使用场景

文档处理：发票、表格、小票等 OCR 任务，准确率极高
内容创作：公众号文章、技术解读、菜谱生成等
专业解读：医学报告、保健品成分、论文分析等
知识问答：电影角色、植物识别、成语猜谜等

谨慎使用场景

空间推理题：立体图形、展开图匹配等（0% 准确率）
精确定位任务：如在复杂图像中定位特定物体的精确坐标
小众地标识别：非著名景点或特定场所

一句话总结

GLM-4.6V 是一款实用性强的多模态模型，在 OCR、内容生成、专业解读等领域表现优异，但空间推理能力是其明显短板。如果你的应用场景不涉及几何推理，它将是一个可靠的选择。

大模型/agent评测技术交流：关注公众号，发送消息"进群"。同时，非线智能API支持Api聚合以及Api中转，提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号，领50元体验金