美团 LongCat-Flash-Thinking-2601 体验测试（附完整prompt）

美团最近推出了LongCat-Flash-Thinking-2601版本，作为首个支持在线免费体验「重思考模式」的模型，主打工具调用能力，号称在Agentic Search（智能体搜索）、Agentic Tool Use（智能体工具调用）、TIR（工具交互推理）等核心评测上达到开源SOTA，均达到开源模型 SOTA 水平。

先说结论：

三大亮点：

工具类网页完成度高：水印处理工具功能完整交互丝滑、复利计算器UI专业图表实时、公众号排版工具核心功能跑通，实用性强

部分游戏实现出色：技能五子棋完成度高逻辑清晰、N-Back实验页面画面统一操作流畅、表情反应堆合格交付

中文语义理解不错：准确理解"但丁真"双关语、语义判别正确、小学生作文有那味儿

三个短板：

基础推理频繁出错：立体几何推理过程有幻觉、推理陷阱题被套、弱智吧两题全错、字符串反转乱序

视觉空间推理全面崩盘：空间变换、六面体展开图、图片排序、目标定位四题全错，视觉理解是重灾区

复杂前端/3D任务失败率高：太空射击核心玩法未实现、浏览器操作系统无法运行、相机复刻完全走样

一句话总结： LongCat在工具类网页开发上确实表现亮眼，但基础逻辑推理和视觉空间理解存在明显短板，"重思考模式"的深度推理优势在实测中尚未充分体现。

往下看详细测试结果👇

一、基础能力测试

1.1 数学推理

大数计算

Prompt：

大数计算：178939247893 * 299281748617等于多少？

输出：

正确答案是53,553,251,005,627,872,913,981，LongCat-Flash-Thinking-2601算对了。

立体几何推理

Prompt：

一个长五点五米的竹竿，能否穿过一扇高四米，宽三米的门？请考虑立体几何

输出：

推理过程看着不错，但错误百出，三维立体分析推理过程有幻觉，最终的答案也是错误。

推理陷阱题

Prompt：

假设有三个创业团队(A、B、C)正在竞争一个项目资金。评选有以下规则：

1.每个团队提交一份商业计划书，主题必须是“可持续能源”“智慧城市”或“医疗健康”之一，且每个主题只能有一个团队选择。

2.团队B选择了“智慧城市”。

3.如果团队A选择“可持续能源”，那么团队C的商业计划书必须比团队A的更具创新性才能胜出。

4.最终只有一个团队能获得资金。

5.后来得知，团队C的计划书在创新性上略逊于团队A。

请问:哪个团队最终获得了项目资金?并解释你的推理过程。

输出：

正确答案是：“无法唯一确定赢家，但可确定 C 未获胜，胜者只可能是 A 或 B 之一”。没能识破陷阱，推理出现逻辑漏洞，未能正确处理条件之间的约束关系，得出了错误的结论。

小红兄弟姐妹题

Prompt：

小红有2个兄弟，3个姐妹，那么小红的兄弟有几个姐妹

输出：

结果：回答正确

老鹰飞行原因

Prompt：

未来的某天，李同学在实验室制作超导磁悬浮材料时，意外发现实验室的老鼠在空中飞，分析发现，是因为老鼠不小心吃了磁悬浮材料。第二天，李同学又发现实验室的蛇也在空中飞，分析发现，是因为蛇吃了老鼠。第三天，李同学又发现实验室的老鹰也在空中飞，你认为其原因是

输出：

陷入了题目的逻辑陷阱，忽略了老鹰是天生会飞的鸟类，缺乏基本常识判断

1.2 文本处理

字符串反转

Prompt：

将"LongCat-Flash-Thinking-2601"这句话的所有字母反过来写

输出：

回答错误，倒序过来写，就乱了

语义判别

Prompt：

以下出现的华为是否为3C行业品牌？

- 刘德华为新剧做宣传。

输出：

回答正确

知识理解

Prompt：

如何理解"但丁真不会说中国话，但丁真会说中国话"

输出：

回答正确，能分辨出“但丁”跟“丁真”的区别。

弱智吧系列

Prompt1：

生蚝煮熟了叫什么？

输出：

Prompt2：

用水来兑水，得到的是浓水还是稀水

输出：

两个都回答错误，被套路，没有识别出这是脑筋急转弯类题目

开放式策略生成

Prompt：

1. 整体：资金不足40.4%，知识匮乏23.9%，未来不确定性21.7%，政策限制14%。

2. 一线城市：资金不足44.4%，知识匮乏15.8%，未来不确定性22.7%，政策限制16.9%。

3. 二线城市：资金不足38.3%，知识匮乏27.9%，未来不确定性21.2%，政策限制12.5%。

请根据上述数据，分析一二线青年置业困难差异及原因，从政府、购房者、家人、夫妻角度提建议。

输出：

差异分析差强人意，建议笼统，没什么好的参考。

二、代码能力测试

2.1 网页开发 - 游戏类

黄金矿工游戏

Prompt：

请生成一个经典的"黄金矿工"游戏。游戏的核心玩法、道具和关卡系统应遵循以下设定：

核心玩法机制：

- 钩爪摆动与发射：游戏界面上方有一个矿工和他的卷轴，一个钩爪会自动左右来回摆动。当玩家按下任意键（或鼠标点击）时，钩爪会沿着当前方向直线发射出去。

- 抓取与回收：如果钩爪在伸出路径上碰到了地下的任何物品，它会抓住该物品并开始自动收回。回收的速度取决于所抓物品的重量，例如，小金块回收快，而巨大的岩石回收则非常慢。

- 关卡目标：每个关卡都有一个明确的时间限制（如60秒）和一个目标金额。玩家必须在规定时间内，抓取到总价值超过目标金额的物品才能成功过关。

地下物品设定：

- 黄金：有多种不同尺寸和形状的金块。体积越大，价值越高，但也越重。

- 钻石：体积小，价值非常高，回收速度很快，是优先抓取的目标。

- 石块：价值极低，但异常沉重，抓到会浪费大量宝贵时间，应尽量避免。

- 福袋（问号袋）：价值随机的袋子，可能开出高额金钱、力量药水或少量金钱。

- 炸药桶：如果钩爪不小心抓到它，它会立刻爆炸，并摧毁其周围一定范围内的所有物品（包括黄金和钻石）。

商店与道具系统：

在每个关卡成功结束后，会进入一个商店界面。玩家可以用当前关卡赚到的、超出目标金额的钱来购买道具，以备下一关使用。

可购买的道具示例：

- 炸药(Dynamite): 当钩爪在回收过程中抓到了不想要的低价值物品（如石块）时，玩家可以按下一个特定按键使用炸药，将其在钩爪上直接炸毁，让钩爪立即空手收回，节省时间。

- 力量药水(Strength Potion): 在下一个关卡中，矿工的力量会增强，回收所有物品的速度都会显著提升。

- 幸运草(Lucky Clover): 在下一个关卡中，从福袋中获得好东西的概率会增加。

视觉与界面要求：

- 游戏应采用经典的2D卡通风格，矿工形象生动，黄金和钻石闪闪发光。

- 用户界面必须清晰地显示三个核心信息：① 剩余时间、② 当前已获得的金额、③ 本关的目标金额。

- UI风格：漫画书风格，街机游戏UI，波普艺术，荧光粉和青色，半色调网点背景，粗描边字体，倾斜布局，高对比度，复古90年代，动态图形，硬阴影

输出：

游戏基本可玩，UI跟交互，离要求还是有不少差距

可爱风格五子棋

Prompt：

可爱风格五子棋游戏界面，画面有两个模式按钮"人人对战"和"人机对战"，界面整体采用马卡龙色调，棋盘简洁清晰，棋子设计成卡通小动物（如猫咪和小熊），背景带有轻微渐变和星星点缀，界面边缘圆润，按钮Q萌，整体风格温馨可爱，适合儿童或休闲玩家使用，2D插画风，用html呈现

输出：

玩法简单但完整，UI可爱，交互存在问题，一般般

表情符号反应堆游戏

Prompt：

请你扮演一个Web游戏开发者。设计并生成一个**表情符号反应堆**的游戏。

1、核心创意: 一个快节奏的反应游戏。屏幕上会快速闪过一个目标表情符号（例如：笑脸😄），下方会同时出现3-4个选项表情符号，玩家需要在限定时间内（例如1-2秒）点击与目标匹配的那个表情符号。

2、玩法:

- 屏幕中央显示目标Emoji。

- 下方按钮区域快速刷新3-4个Emoji选项，其中一个是正确的。

- 玩家需在计时条走完前点击正确的Emoji。

- 点击正确得分，速度加快；点击错误或超时则游戏结束（或扣除生命值）。

- 显示最高分。

3、技术实现 (HTML/JS/CSS):

- HTML: 用于显示目标Emoji、选项按钮、计时条、得分。

- CSS: 设计简洁明快的界面，计时条动画。

- JavaScript:

存储一个Emoji列表。

随机选择目标Emoji和干扰项。

动态更新按钮内容。

实现计时器逻辑和倒计时动画。

处理点击事件，判断对错，更新得分/状态。

控制游戏节奏（逐渐加快）。

4、趣味点: 简单上手，考验反应速度，利用通用的Emoji增加亲和力和趣味性，适合碎片时间玩。

输出：

玩法简单但完整，UI可爱，交互顺滑，合格交付。

技能五子棋

Prompt：

帮我做一个技能五子棋的游戏网页，要求是在普通的五子棋规则上，玩家可以使用技能，其中包括飞沙走石，静如止水，力拔山兮。

「飞沙走石」，是把对手的棋子直接扔进什（石）刹海，2技能点；

「静如止水」是凝结时间，把对方「速冻」，4技能点；

「力拔山兮」是摔坏棋盘,8技能点，直接获胜。

黑棋和白棋的技能点要分开算，并且每走一步都可以累加。直接给我HTML文件，画面要美观。需要设计一个电脑对手，让我可以直接和它对战。

输出：

核心玩法完整实现，游戏逻辑清晰，操作流畅，完成度比较高。

N-Back实验页面

Prompt：

你需要实现一个N-Back实验页面，

N-Back实验的原理是，每隔1s闪烁一张图片，让用户判断当前的图片与前面第N张图片是否一致，一致选择是，不一致选择否。

其中，图片为常见的10个中文汉字，["国", "火", "道", "市", "天", "家", "理", "态", "至", "心"]

界面需要每次开始时，选N的值，选择为2，3，4，三种。

需要用户点击30次，也就是不同N值时展现的图片个数不同，例如N=2，则需要32张图片，当第三张出现时，提醒用户开始点击。

你需要记录两个内容，一个是用户点击是否准确，一个是出现图像到用户点击之间的时间，最后给出点击准确率和反应时间。

注意：图片展示只有15次是N-back正确内容，防止实验过难或过于简单。

实验过程，如果正确让用户点击“A”键，错误让用户点击“L”键。

同时界面必须符合现代审美，实验结果可以导出下载。

输出：

画面风格统一，操作流畅，不错！

太空射击游戏

Prompt：

做一个太空射击游戏，外星人会从天而降，有小兵也有Boss，击败它们会爆炸且有音效。背景是深邃的星空，持续滚动。

玩法要求：

- 玩家飞船可用方向键或WASD移动，空格键射击

- 敌人分小兵和Boss，击败有分数奖励

- Boss血量更厚，移动更诡异

- 碰到敌人或敌人子弹会掉血，有生命值显示

- 顶部显示分数

动效要求：

- 星空背景持续缓慢滚动，营造前进感

- 飞船移动时有轻微倾斜动画

- 爆炸粒子有物理感，先快后慢消散

- 游戏结束时画面轻微震动

技术：

- 单个HTML文件

- 使用Canvas

- 60fps流畅运行

目标：让人觉得这是Steam上¥18独立游戏的试玩Demo。

输出：

核心玩法均未实现，体验很差

浏览器操作系统

Prompt：

请用HTML、CSS和JS做一个浏览器操作系统，要求包含下面这些功能：

- 至少有5个App；

- 这5个App里，必须有两个是真的能玩的游戏；

- 支持更换壁纸；

- 再加一个你自己定的「特殊」功能，你得说明白这个功能是啥，以及它特别在哪里。

输出：

无法正常运行，功能缺失严重，未能实现"浏览器操作系统"的核心体验。

2.2 网页开发 - 工具类

Google搜索复刻

Prompt：

做一个Google搜索网站，请尽可能的保证高还原度

输出：

还原度还可以，仅有基本搜索框，跟原版还是有些差距

智能LED灯调光页面

Prompt：

生产一个网页，展示一盏可调光的智能 LED 灯。灯泡材质应有玻璃的通透感，灯丝细节要清晰。用户可以通过滑块调节色温（从 2700K 暖黄到 6000K 冷白）和亮度（0%-100%），光的颜色和照射范围应根据数值变化真实响应。

输出：

灯泡质感一般，光照变化不够平滑，真实感不足

质感相机（立体感+快门拍照）

Prompt：

请生成一个网页，尽可能复刻一个有质感的相机，有立体感。还能按下快门拍照。

输出：

这是相机吗？

粉色拍立得相机

Prompt：

请生成一个网页，复刻一个美观、粉色系、有质感的拍立得相机，有立体感，有光泽。还能按下快门拍照，生成的照片也是拍立得照片风格

输出：

建模和渲染都不错，一句话能做到这效果，可以的。

质感风扇（可调速）

Prompt：

生产一个网页，做一个有质感、真实的风扇，我可以调整风速档位，档位越高，扇叶转的越快。

输出：

风扇造型简陋，看不出来这是风扇，档位功能还行。

金属质感微波炉

Prompt：

生产一个网页，做一个金属质感的微波炉，我可以调节火力档位（如解冻、低火、高火），档位越高，内部灯光越亮，并伴有动态旋转光波动画。

输出：

属质感不明显，档位或动画功能存在问题，整体效果与要求差距较大

Switch掌机复刻

Prompt：

生成一个网页，完美复刻一个 switch 掌机游戏，上面的按钮可以交互，左右点击切换游戏选择。

输出：

造型与Switch差距较大，按钮功能太简单了，复刻效果不佳。

公众号排版工具

Prompt：

帮我做一个网站，这个网站会有一些橙色系的公众号样式，支持 2 级标题，用户在输入框内输入文字后，点选不同的样式可以查看效果，此刻点击复制就会按这个效果转换成微信公众号可识别的样式，粘贴进微信公众号编辑器即可展示相同的样式。

输出：

核心功能都跑通了，导出正常，样式不错。

水印处理工具

Prompt：

你是一位精通Web图形处理的前端极客。请帮我写一个单文件的HTML小工具，功能是“本地图片隐私保护器”。功能逻辑：拖拽上传：屏幕中央有一个虚线框，支持拖拽图片上传（或点击选择）。双模式处理：模式A（打码）：允许用户在图片上用鼠标框选区域，框选区域自动进行马赛克（Pixelate）处理。模式B（水印）：允许输入文字水印，调节透明度和角度，平铺在整张图片上。导出：点击“保存”按钮，下载处理后的图片。所有操作必须在浏览器本地完成，不涉及后端。美学要求：UI风格参考 Gumroad 或 Notion，使用黑白灰极简配色，按钮要是醒目的黑色圆角矩形。操作要有顺滑的反馈（例如拖入文件时边框变色）。使用Tailwind CSS (CDN版) 进行样式设计。

输出：

功能完整，交互丝滑，双模式切换自然，实用性强

可视化复利计算器

Prompt：

请为我开发一个“复利奇迹计算器” Web应用。这是一个旨在向普通人展示长期投资力量的教育工具。交互与逻辑：输入区（左侧）：使用美观的滑块（Range Slider）而不是枯燥的输入框，来控制：初始本金、每月定投金额、年化收益率 (1% - 20%)、投资年限 (1 - 40年)。

可视化区（右侧）：使用 Chart.js 或纯 CSS/SVG 绘制一个面积增长图。图表需要包含两条线：一条是“本金投入”，一条是“复利总额”。两条线中间的区域用渐变色填充，代表“睡后收入”。动态反馈：拖动任何滑块，图表必须无延迟实时更新。UI风格：金融科技风（Fintech），主色调使用深蓝色和金色。字体清晰，数字显示格式化（例如：¥1,234,567）。请提供完整的HTML/JS代码。

输出：

UI风格专业，图表实时更新，体验不错

小学生英语单词听写应用

Prompt：

请帮我设计一个小学生英语单词听写交互式网页应用，家长可以创建单词的听写列表，学生通过单词拼写+实时反馈练习英语单词，提升记忆效果。具体要求如下：

1. 设置界面（家长使用）

- 单词列表输入：大文本框，支持粘贴格式为"apple 苹果"的单词列表，每行一个。

- 听写设置：

- 每题倒计时（单位：秒）

- 是否打乱题目顺序（复选框）

- 开始按钮：点击"开始听写"进入学生界面。

- 设置界面进入需要有个用户名和密码（默认账号，用户名：admin，密码：123456）

2. 听写界面（学生使用）

- 显示内容：

- 显示当前题目的中文含义（如"苹果"）

- 语音播放按钮（页面加载时自动播放一次，可重复点击）

- 拼写输入框 + 实时倒计时器

- 提交按钮和跳过按钮

- 答题流程：

- 系统播放英文发音，显示中文提示

- 学生拼写英文并提交

- 系统即时反馈：

- 拼写正确：输入框变绿，自动进入下一题

- 拼写错误：输入框变红，显示正确答案，短暂停留后进入下一题

- 倒计时结束或点击"跳过"：记为错误，直接进入下一题

3. 结果界面（学生查看）

- 成绩摘要：

- 总题数、正确数、错误数、正确率（百分比）

- 错误回顾：

- 显示错误、正确拼写和中文含义，方便复习

- 操作按钮：

- "再试一次"：重新开始本轮听写

- "返回主页"：回到设置界面，输入新词

4. 成绩记录界面（家长查看）

- 可以查看该学生的历史成绩

设计风格建议：

- 卡通效果，简洁、色彩鲜明，吸引小学生注意力

- 字体大、清晰易读

- 包括渐变化和动感反馈强化体验

输出：

功能基本实现了，交互还行，基本能用

Markdown在线编辑器

Prompt：

我想做一个在线的Markdown编辑器，左边我写Markdown代码，右边能马上看到排版好的效果，就像Typora那样，但做成一个可以实时编辑的编辑框网页就行，界面美观，漂亮

输出：

功能欠缺，交互不够顺滑，未能达到"在线编辑器"的基本标准。

2.3 网页开发 - UI设计

电影级着陆页

Prompt：

创建一个具有电影级视觉效果的着陆页，使用深邃的渐变背景，玻璃拟态设计元素，流畅的微交互动画，整体呈现出奢华科技品牌的质感。

输出：

视觉效果平庸，缺乏渐变、玻璃拟态等关键设计元素，未能达到"电影级"的视觉标准。

极简主义仪表板

Prompt：

设计一个极简主义的仪表板界面，运用大量留白、精致的阴影层次、优雅的过渡动画，体现现代高端设计的精髓。制作HTML网页

输出：

设计过于简陋而非"极简"，缺乏阴影层次和过渡动画，未能体现现代设计精髓。

未来感数据可视化大屏

Prompt：

生成一个具有未来感的数据可视化大屏，使用霓虹色彩、粒子效果、3D变换动画，营造科幻电影中的高科技氛围。制作HTML网页

输出：

虽然简陋，缺乏设计感，但视觉效果上，基本都实现了

艺术画廊风格

Prompt：

创建一个艺术画廊风格的网页，融合抽象几何图形、流动的色彩渐变、视差滚动效果，展现前卫的现代艺术美感。制作HTML网页

输出：

艺术感不足，几何图形和渐变色彩运用生硬，视差滚动缺失，未能呈现"前卫现代艺术"风格。

2.4 SVG动画

八缸发动机动画

Prompt：

用 SVG 绘制八缸发动机物理结构动画，分步骤展示活塞运动、气门开合，配色用工业灰 + 金属银，支持鼠标悬停查看部件名称

输出：

结构绘制错误或动画不同步，配色不符合要求，悬停功能缺失，未能达到教学展示标准。

太阳系行星动画

Prompt：

使用React和CSS3为八大行星创建一个围绕太阳旋转的动画。要求：

1、太阳固定在屏幕中心，每个行星有自己独特的轨道（半径、颜色、大小）。

2、每个行星的旋转周期需不同（例如：水星4秒，海王星26秒）。

3、必须使用CSS Keyframes实现动画，并显示出每个行星的轨道线。

4、代码需组件化（如<SolarSystem>, <Planet>），并整合在一个HTML文件中，确保直接在浏览器中打开即可运行。

输出：

行星动画基本实现。

三、创意能力测试

3.1 内容创作

小学生作文

Prompt：

帮小学生写一篇"我最讨厌的动物"作文，不能是猫狗

输出：

文笔有小孩写的味儿，写的文章字数跟小学生差不多。

甄嬛体吐槽

Prompt：

用甄嬛体吐槽地铁早高峰

输出：

有那个味道了，但这输出有点长了

职场回复话术

Prompt：

老板在周六晚上11点，在公司大群里发了一段话:'看了一下大家这周的日报，感觉还是缺乏一些深度。大家都很辛苦，但我希望我们不要用战术上的勤奋掩盖战略上的懒惰。下周一早会，大家聊聊什么是真正的用户价值。

请帮我撰写一条回复话术。

要求:

- 只有我一个人回复会很尴尬，所以要写得像是一个'排头兵'的表态

- 篇幅不要长，100字以内。

- 要表现出'深刻反思'、'被老板点醒'的态度。

- 不要承诺具体要在周末加班，但要表达出'这个周末我会深度思考'的意思。

输出：

回复基本得体，语气略显生硬

短文文笔

Prompt：

请以鲁迅的文笔写一段短文（300字），主题为：打工人的一天。

输出：

有一定鲁迅风格痕迹，但讽刺力度或文学性不够突出，神韵略有欠缺

小说创作

Prompt：

Profile：你是一名有着二十年从业经验的科幻小说家，擅长人物塑造、细节描写、环境描写、情节构思。

Background：现在，你要参加一场2000字以内的中文微小说大赛，大赛要求作品有奇谲的想象力，能引发深刻的情感共鸣，前后逻辑连贯，语言流畅自然。你很想赢得这场比赛你已经写好了开头，现在，你将接着开头，续写故事。

Goals：根据开头，续写1500字，注意小说需要依次包含以下几个部分：发展、转折、高潮、结局。

Constraints：续写的总字数不得超过1500字；续写的情节要多多包含对话、动作描写、人物描写；对话不要有书面风格，要有口语风格，符合人物身份特征；续写的基调是科幻的；续写的结局必须是欧亨利式的结尾；续写的内容需要包含下列元素或主旨：黑衣人、代码、程序、计时器、时间感知力、环形时间、无限轮回、黑暗力场、西西弗斯、存在主义，请发挥想象力，以合乎逻辑的方式串联起这些元素或主旨。

Skills：科幻小说：依据科学技术上的新发现、新成就以及在这些基础上可能达到的预见，用幻想的方式描述人类利用这些新成果完成某些奇迹的新型小说。正统科幻迷主张科学与幻想缺一不可。倘若没有任何科学根据或直接违反科学定论(尤其是有实验验证的)，则只能归为奇幻、魔幻或超现实作品；反之，幻想若是付之阙如(作品中的科学内容在其成书年代即可实现)，那就只是一个科学写实故事。欧亨利式的结尾：在文章情节结尾时突然让人物的心理情境发生出人意料的变化，或使主人公命运陡然逆转，出现意想不到的结果，结尾既在意料之外，又在情理之中。

Initialization：作为“role”，根据“background”，严格遵守“constraints”，运用“skills”，完成“goals”

输出：

情节有点混乱，逻辑有些缺乏。

酒桌敬酒词

Prompt：

背景:我是分公司的负责人。年会晚宴上，我端着酒杯去主桌给集团董事长敬酒。董事长不太认识我，但我需要在短短30秒内给他留下深刻印象。

请帮我写一段敬酒词。

要求:

- 不能俗套(什么身体健康、万事如意就别说了)。

- 要结合公司今年的大方向(如全球化、海外业务)。

- 要稍微展示一下我们分公司的成绩，但不能像在汇报工作，要包装成'在您的战略指引下取得的一点小突破'。

- 结尾要有一个响亮的祝酒口号，能带动主桌气氛。

输出：

像工作汇报，未能把握年会社交场合的分寸。

3.2 PPT制作

2025年AI大事件汇总

Prompt：

请总结一下2025年AI发生了哪些大事？捋清楚一下时间线和相关事件，帮我制作一份年度AI大事件汇总回顾的PPT报告，建立一个网页

输出：

设计感不错，但事件遗漏、信息错误，布局一般

3.3 设计排版

职场肖像海报

Prompt：

艺术感职场肖像，戏剧性侧光照明，职业人士站在优雅大理石楼梯象征事业攀升，胶片颗粒质感，深祖母绿和焦赭色调的情绪化调色，浅景深，电影级构图，奢华杂志社论风格，哈苏相机品质，精致而富有抱负的氛围，制作了一个海报网页

输出：

没有按照要求来，指令遵循能力有些欠缺

四、多模态能力测试

4.1 OCR识别

纯文本识别

Prompt：

识别图片中的全部内容，言简意赅

输入图片：

输出：

识别内容准确，OCR识别没错，但是阅读顺序弄反了。

表格识别

Prompt：

## Role

你是一位有多年经验的OCR表格识别专家。

## Goals

需要通过给定的图片，识别表格里的内容，并以html表格结果格式输出结果。

## Constrains

- 需要认识识别图片中的内容，将每个表格单元格中的内容完整的识别出来，并填入html表格结构中；

- 图片中的表格单元格中可能存在一些占位符需要识别出来，例如"-"、"—"、"/"等；

- 输出表格结构一定遵循图片中的结构，表格结构完全一致；

- 特别注意图片中存在合并单元格的情况，结构不要出错；

- 对于内容较多的图片，一定要输出完整的结果，不要断章取义，更不要随意编造；

- 图片内容需要完整识别，不要遗漏，同时注意合并单元；

- 最终输出结果需要是html格式的表格内容。

## Initialization

请仔细思考后，输出html表格结果。

输入图片：

输出：

表格结构完整，但表格还是存在问题

4.2 图像理解

空间变换

Prompt：
请回答。
输入图片：

输出：

正确答案是C，回答错误。

六面体展开图

Prompt：

请回答，哪个选项的六面体展开结果是上面的展开图。

输入图片：

输出：

正确答案为D，回答错误，这类高级复杂的空间变换的题目对模型来说还是太难了。

图片排序

Prompt：

根据图中显示的多个场景，将最有可能发生的事件按顺序排列。

输入图片：

输出：

正确答案是CADB，回答错误。

目标对比

Prompt：

找到图片中奔跑的人，并返回行列序号，比如：几行几列。

输入图片：

输出：

正确答案是6行10列，没找出来，这种对模型的视觉能力，要求还是有点高。

好物比价

Prompt：

这个酸奶的低价是多少，帮我出一份对比报告，并且里面包含各个平台的最低价链接。

输入图片：

输出：

数据读取、图标理解能力不错

数据理解与计算

Prompt：

找到2024年GDP值最大的省份，并且计算占全国GDP的百分之多少？

输入图片：

输出：

最大值找的正确，但是2024年总和计算错了，最终百分比应该是约为10.5%

世界知识定位

Prompt：

朋友拍了一张图片，可以告诉我他是在中国哪个城市拍的吗？

输入图片：

输出：

城市回答正确，但是高楼是金茂大厦

目标识别与计数

Prompt：

告诉我桌子上菇娘儿的个数。

输入图片：

输出：

回答正确

色盲测试

Prompt：

图片里有数字吗？如果有的话是什么？

输入图片：

输出：

识别错误，数字应该是6

内容理解

Prompt：

我今天喝了这个果汁会怎么样

输入图片：

输出：

提取图片内容不错，但常识推理能力有问题

网页复刻

Prompt：

请帮我1：1还原这个网页内容，用HTML呈现。

输入图片：

输出：

网页还原、审美和代码能力不给力，复刻失败。

猫品种识别（JSON格式）

Prompt：

识别图中所有猫的品种。

请以合法的JSON格式返回结果，结果是一个list，每一个list元素对应一个目标检测结果dict，dict的key由label、bbox_2d组成，值分别为检测到的猫的品种和结果坐标框。

例如：[{'label': '金渐层-1', 'bbox_2d': [1,2,3,4]}, {'label': '金渐层-2', 'bbox_2d': [4,5,6,7]}]

输入的图片：
输出：

对不同方向的图片有些能做到正确识别，也有些识别错误。

总结

亮点明显：

工具类网页完成度高：水印处理功能完整、复利计算器专业、公众号排版实用
部分游戏实现出色：技能五子棋逻辑清晰、N-Back实验流畅、表情反应堆合格
中文语义理解能力不错：但丁真双关语、语义判别均正确

稳定性：

简单工具类网页（排版、水印、计算器）稳定可用
基础游戏（五子棋、表情反应堆）核心玩法完整
部分创意写作（小学生作文、甄嬛体）有一定水准

待改进：

基础推理能力薄弱：立体几何有幻觉、推理陷阱被套、弱智吧全错、字符串反转乱序
视觉空间推理全面崩盘：空间变换、六面体、图片排序、目标定位四连错
复杂前端任务不稳定：太空射击未实现、浏览器OS无法运行、相机复刻走样
3D渲染和质感建模能力弱：风扇简陋、微波炉差距大、LED灯真实感不足
UI设计能力欠缺：电影级着陆页平庸、极简仪表板简陋、艺术画廊缺乏艺术感
色盲测试识别错误，部分OCR存在顺序问题
创意写作深度不足：科幻小说情节混乱、敬酒词像工作汇报

一句话总结 —— LongCat-Flash-Thinking-2601在工具调用和简单网页开发上确实有两把刷子，但基础推理和视觉理解是明显短板，"重思考模式"的优势有待验证，适合工具类场景，复杂推理和视觉任务需谨慎。

以上就是本次LongCat-Flash-Thinking-2601的体验测试，所有Prompt均公开。同时，非线智能API支持Api聚合以及Api中转，提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号，领50元体验金

大模型/agent评测技术交流：关注公众号，发送消息"进群"