
美团最近推出了LongCat-Flash-Thinking-2601版本,作为首个支持在线免费体验「重思考模式」的模型,主打工具调用能力,号称在Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测上达到开源SOTA,均达到开源模型 SOTA 水平。
先说结论:
三大亮点:
工具类网页完成度高:水印处理工具功能完整交互丝滑、复利计算器UI专业图表实时、公众号排版工具核心功能跑通,实用性强
部分游戏实现出色:技能五子棋完成度高逻辑清晰、N-Back实验页面画面统一操作流畅、表情反应堆合格交付
中文语义理解不错:准确理解"但丁真"双关语、语义判别正确、小学生作文有那味儿
三个短板:
基础推理频繁出错:立体几何推理过程有幻觉、推理陷阱题被套、弱智吧两题全错、字符串反转乱序
视觉空间推理全面崩盘:空间变换、六面体展开图、图片排序、目标定位四题全错,视觉理解是重灾区
复杂前端/3D任务失败率高:太空射击核心玩法未实现、浏览器操作系统无法运行、相机复刻完全走样
一句话总结: LongCat在工具类网页开发上确实表现亮眼,但基础逻辑推理和视觉空间理解存在明显短板,"重思考模式"的深度推理优势在实测中尚未充分体现。
往下看详细测试结果👇
一、基础能力测试
1.1 数学推理
大数计算
Prompt:
大数计算:178939247893 * 299281748617等于多少?
输出:

正确答案是53,553,251,005,627,872,913,981,LongCat-Flash-Thinking-2601算对了。
立体几何推理
Prompt:
一个长五点五米的竹竿,能否穿过一扇高四米,宽三米的门?请考虑立体几何
输出:

推理过程看着不错,但错误百出,三维立体分析推理过程有幻觉,最终的答案也是错误。
推理陷阱题
Prompt:
假设有三个创业团队(A、B、C)正在竞争一个项目资金。评选有以下规则:
1.每个团队提交一份商业计划书,主题必须是“可持续能源”“智慧城市”或“医疗健康”之一,且每个主题只能有一个团队选择。
2.团队B选择了“智慧城市”。
3.如果团队A选择“可持续能源”,那么团队C的商业计划书必须比团队A的更具创新性才能胜出。
4.最终只有一个团队能获得资金。
5.后来得知,团队C的计划书在创新性上略逊于团队A。
请问:哪个团队最终获得了项目资金?并解释你的推理过程。
输出:

小红兄弟姐妹题
Prompt:
小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹
输出:

结果:回答正确
老鹰飞行原因
Prompt:
未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是
输出:

陷入了题目的逻辑陷阱,忽略了老鹰是天生会飞的鸟类,缺乏基本常识判断
1.2 文本处理
字符串反转
Prompt:
将"LongCat-Flash-Thinking-2601"这句话的所有字母反过来写
输出:

回答错误,倒序过来写,就乱了
语义判别
Prompt:
以下出现的华为是否为3C行业品牌?
- 刘德华为新剧做宣传。
输出:

回答正确
知识理解
Prompt:
如何理解"但丁真不会说中国话,但丁真会说中国话"
输出:

回答正确,能分辨出“但丁”跟“丁真”的区别。
弱智吧系列
Prompt1:
生蚝煮熟了叫什么?
输出:

Prompt2:
用水来兑水,得到的是浓水还是稀水
输出:

两个都回答错误,被套路,没有识别出这是脑筋急转弯类题目
开放式策略生成
Prompt:
1. 整体:资金不足40.4%,知识匮乏23.9%,未来不确定性21.7%,政策限制14%。
2. 一线城市:资金不足44.4%,知识匮乏15.8%,未来不确定性22.7%,政策限制16.9%。
3. 二线城市:资金不足38.3%,知识匮乏27.9%,未来不确定性21.2%,政策限制12.5%。
请根据上述数据,分析一二线青年置业困难差异及原因,从政府、购房者、家人、夫妻角度提建议。
输出:

差异分析差强人意,建议笼统,没什么好的参考。
二、代码能力测试
2.1 网页开发 - 游戏类
黄金矿工游戏
Prompt:
请生成一个经典的"黄金矿工"游戏。游戏的核心玩法、道具和关卡系统应遵循以下设定:
核心玩法机制:
- 钩爪摆动与发射:游戏界面上方有一个矿工和他的卷轴,一个钩爪会自动左右来回摆动。当玩家按下任意键(或鼠标点击)时,钩爪会沿着当前方向直线发射出去。
- 抓取与回收:如果钩爪在伸出路径上碰到了地下的任何物品,它会抓住该物品并开始自动收回。回收的速度取决于所抓物品的重量,例如,小金块回收快,而巨大的岩石回收则非常慢。
- 关卡目标:每个关卡都有一个明确的时间限制(如60秒)和一个目标金额。玩家必须在规定时间内,抓取到总价值超过目标金额的物品才能成功过关。
地下物品设定:
- 黄金:有多种不同尺寸和形状的金块。体积越大,价值越高,但也越重。
- 钻石:体积小,价值非常高,回收速度很快,是优先抓取的目标。
- 石块:价值极低,但异常沉重,抓到会浪费大量宝贵时间,应尽量避免。
- 福袋(问号袋):价值随机的袋子,可能开出高额金钱、力量药水或少量金钱。
- 炸药桶:如果钩爪不小心抓到它,它会立刻爆炸,并摧毁其周围一定范围内的所有物品(包括黄金和钻石)。
商店与道具系统:
在每个关卡成功结束后,会进入一个商店界面。玩家可以用当前关卡赚到的、超出目标金额的钱来购买道具,以备下一关使用。
可购买的道具示例:
- 炸药(Dynamite): 当钩爪在回收过程中抓到了不想要的低价值物品(如石块)时,玩家可以按下一个特定按键使用炸药,将其在钩爪上直接炸毁,让钩爪立即空手收回,节省时间。
- 力量药水(Strength Potion): 在下一个关卡中,矿工的力量会增强,回收所有物品的速度都会显著提升。
- 幸运草(Lucky Clover): 在下一个关卡中,从福袋中获得好东西的概率会增加。
视觉与界面要求:
- 游戏应采用经典的2D卡通风格,矿工形象生动,黄金和钻石闪闪发光。
- 用户界面必须清晰地显示三个核心信息:① 剩余时间、② 当前已获得的金额、③ 本关的目标金额。
- UI风格:漫画书风格,街机游戏UI,波普艺术,荧光粉和青色,半色调网点背景,粗描边字体,倾斜布局,高对比度,复古90年代,动态图形,硬阴影
输出:

游戏基本可玩,UI跟交互,离要求还是有不少差距
可爱风格五子棋
Prompt:
可爱风格五子棋游戏界面,画面有两个模式按钮"人人对战"和"人机对战",界面整体采用马卡龙色调,棋盘简洁清晰,棋子设计成卡通小动物(如猫咪和小熊),背景带有轻微渐变和星星点缀,界面边缘圆润,按钮Q萌,整体风格温馨可爱,适合儿童或休闲玩家使用,2D插画风,用html呈现
输出:

玩法简单但完整,UI可爱,交互存在问题,一般般
表情符号反应堆游戏
Prompt:
请你扮演一个Web游戏开发者。设计并生成一个**表情符号反应堆**的游戏。
1、核心创意: 一个快节奏的反应游戏。屏幕上会快速闪过一个目标表情符号(例如:笑脸😄),下方会同时出现3-4个选项表情符号,玩家需要在限定时间内(例如1-2秒)点击与目标匹配的那个表情符号。
2、玩法:
- 屏幕中央显示目标Emoji。
- 下方按钮区域快速刷新3-4个Emoji选项,其中一个是正确的。
- 玩家需在计时条走完前点击正确的Emoji。
- 点击正确得分,速度加快;点击错误或超时则游戏结束(或扣除生命值)。
- 显示最高分。
3、技术实现 (HTML/JS/CSS):
- HTML: 用于显示目标Emoji、选项按钮、计时条、得分。
- CSS: 设计简洁明快的界面,计时条动画。
- JavaScript:
存储一个Emoji列表。
随机选择目标Emoji和干扰项。
动态更新按钮内容。
实现计时器逻辑和倒计时动画。
处理点击事件,判断对错,更新得分/状态。
控制游戏节奏(逐渐加快)。
4、趣味点: 简单上手,考验反应速度,利用通用的Emoji增加亲和力和趣味性,适合碎片时间玩。
输出:

玩法简单但完整,UI可爱,交互顺滑,合格交付。
技能五子棋
Prompt:
帮我做一个技能五子棋的游戏网页,要求是在普通的五子棋规则上,玩家可以使用技能,其中包括飞沙走石,静如止水,力拔山兮。
「飞沙走石」,是把对手的棋子直接扔进什(石)刹海,2技能点;
「静如止水」是凝结时间,把对方「速冻」,4技能点;
「力拔山兮」是摔坏棋盘,8技能点,直接获胜。
黑棋和白棋的技能点要分开算,并且每走一步都可以累加。直接给我HTML文件,画面要美观。需要设计一个电脑对手,让我可以直接和它对战。
输出:

核心玩法完整实现,游戏逻辑清晰,操作流畅,完成度比较高。
N-Back实验页面
Prompt:
你需要实现一个N-Back实验页面,
N-Back实验的原理是,每隔1s闪烁一张图片,让用户判断当前的图片与前面第N张图片是否一致,一致选择是,不一致选择否。
其中,图片为常见的10个中文汉字,["国", "火", "道", "市", "天", "家", "理", "态", "至", "心"]
界面需要每次开始时,选N的值,选择为2,3,4,三种。
需要用户点击30次,也就是不同N值时展现的图片个数不同,例如N=2,则需要32张图片,当第三张出现时,提醒用户开始点击。
你需要记录两个内容,一个是用户点击是否准确,一个是出现图像到用户点击之间的时间,最后给出点击准确率和反应时间。
注意:图片展示只有15次是N-back正确内容,防止实验过难或过于简单。
实验过程,如果正确让用户点击“A”键,错误让用户点击“L”键。
同时界面必须符合现代审美,实验结果可以导出下载。
输出:

画面风格统一,操作流畅,不错!
太空射击游戏
Prompt:
做一个太空射击游戏,外星人会从天而降,有小兵也有Boss,击败它们会爆炸且有音效。背景是深邃的星空,持续滚动。
玩法要求:
- 玩家飞船可用方向键或WASD移动,空格键射击
- 敌人分小兵和Boss,击败有分数奖励
- Boss血量更厚,移动更诡异
- 碰到敌人或敌人子弹会掉血,有生命值显示
- 顶部显示分数
动效要求:
- 星空背景持续缓慢滚动,营造前进感
- 飞船移动时有轻微倾斜动画
- 爆炸粒子有物理感,先快后慢消散
- 游戏结束时画面轻微震动
技术:
- 单个HTML文件
- 使用Canvas
- 60fps流畅运行
目标:让人觉得这是Steam上¥18独立游戏的试玩Demo。
输出:

核心玩法均未实现,体验很差
浏览器操作系统
Prompt:
请用HTML、CSS和JS做一个浏览器操作系统,要求包含下面这些功能:
- 至少有5个App;
- 这5个App里,必须有两个是真的能玩的游戏;
- 支持更换壁纸;
- 再加一个你自己定的「特殊」功能,你得说明白这个功能是啥,以及它特别在哪里。
输出:

无法正常运行,功能缺失严重,未能实现"浏览器操作系统"的核心体验。
2.2 网页开发 - 工具类
Google搜索复刻
Prompt:
做一个Google搜索网站,请尽可能的保证高还原度
输出:

还原度还可以,仅有基本搜索框,跟原版还是有些差距
智能LED灯调光页面
Prompt:
生产一个网页,展示一盏可调光的智能 LED 灯。灯泡材质应有玻璃的通透感,灯丝细节要清晰。用户可以通过滑块调节色温(从 2700K 暖黄到 6000K 冷白)和亮度(0%-100%),光的颜色和照射范围应根据数值变化真实响应。
输出:

灯泡质感一般,光照变化不够平滑,真实感不足
质感相机(立体感+快门拍照)
Prompt:
请生成一个网页,尽可能复刻一个有质感的相机,有立体感。还能按下快门拍照。
输出:

这是相机吗?
粉色拍立得相机
Prompt:
请生成一个网页,复刻一个美观、粉色系、有质感的拍立得相机,有立体感,有光泽。还能按下快门拍照,生成的照片也是拍立得照片风格
输出:

建模和渲染都不错,一句话能做到这效果,可以的。
质感风扇(可调速)
Prompt:
生产一个网页,做一个有质感、真实的风扇,我可以调整风速档位,档位越高,扇叶转的越快。
输出:

风扇造型简陋,看不出来这是风扇,档位功能还行。
金属质感微波炉
Prompt:
生产一个网页,做一个金属质感的微波炉,我可以调节火力档位(如解冻、低火、高火),档位越高,内部灯光越亮,并伴有动态旋转光波动画。
输出:

属质感不明显,档位或动画功能存在问题,整体效果与要求差距较大
Switch掌机复刻
Prompt:
生成一个网页,完美复刻一个 switch 掌机游戏,上面的按钮可以交互,左右点击切换游戏选择。
输出:

造型与Switch差距较大,按钮功能太简单了,复刻效果不佳。
公众号排版工具
Prompt:
帮我做一个网站,这个网站会有一些橙色系的公众号样式,支持 2 级标题,用户在输入框内输入文字后,点选不同的样式可以查看效果,此刻点击复制就会按这个效果转换成微信公众号可识别的样式,粘贴进微信公众号编辑器即可展示相同的样式。
输出:

核心功能都跑通了,导出正常,样式不错。
水印处理工具
Prompt:
你是一位精通Web图形处理的前端极客。请帮我写一个单文件的HTML小工具,功能是“本地图片隐私保护器”。功能逻辑:拖拽上传: 屏幕中央有一个虚线框,支持拖拽图片上传(或点击选择)。双模式处理:模式A(打码): 允许用户在图片上用鼠标框选区域,框选区域自动进行马赛克(Pixelate)处理。模式B(水印): 允许输入文字水印,调节透明度和角度,平铺在整张图片上。导出: 点击“保存”按钮,下载处理后的图片。所有操作必须在浏览器本地完成,不涉及后端。美学要求:UI风格参考 Gumroad 或 Notion,使用黑白灰极简配色,按钮要是醒目的黑色圆角矩形。操作要有顺滑的反馈(例如拖入文件时边框变色)。使用Tailwind CSS (CDN版) 进行样式设计。
输出:
功能完整,交互丝滑,双模式切换自然,实用性强
可视化复利计算器
Prompt:
请为我开发一个“复利奇迹计算器” Web应用。这是一个旨在向普通人展示长期投资力量的教育工具。交互与逻辑:输入区(左侧): 使用美观的滑块(Range Slider)而不是枯燥的输入框,来控制:初始本金、每月定投金额、年化收益率 (1% - 20%)、投资年限 (1 - 40年)。
可视化区(右侧): 使用 Chart.js 或纯 CSS/SVG 绘制一个面积增长图。图表需要包含两条线:一条是“本金投入”,一条是“复利总额”。两条线中间的区域用渐变色填充,代表“睡后收入”。动态反馈: 拖动任何滑块,图表必须无延迟实时更新。UI风格: 金融科技风(Fintech),主色调使用深蓝色和金色。字体清晰,数字显示格式化(例如:¥1,234,567)。请提供完整的HTML/JS代码。
输出:
UI风格专业,图表实时更新,体验不错
小学生英语单词听写应用
Prompt:
请帮我设计一个小学生英语单词听写交互式网页应用,家长可以创建单词的听写列表,学生通过单词拼写+实时反馈练习英语单词,提升记忆效果。具体要求如下:
1. 设置界面(家长使用)
- 单词列表输入:大文本框,支持粘贴格式为"apple 苹果"的单词列表,每行一个。
- 听写设置:
- 每题倒计时(单位:秒)
- 是否打乱题目顺序(复选框)
- 开始按钮:点击"开始听写"进入学生界面。
- 设置界面进入需要有个用户名和密码(默认账号,用户名:admin,密码:123456)
2. 听写界面(学生使用)
- 显示内容:
- 显示当前题目的中文含义(如"苹果")
- 语音播放按钮(页面加载时自动播放一次,可重复点击)
- 拼写输入框 + 实时倒计时器
- 提交按钮和跳过按钮
- 答题流程:
- 系统播放英文发音,显示中文提示
- 学生拼写英文并提交
- 系统即时反馈:
- 拼写正确:输入框变绿,自动进入下一题
- 拼写错误:输入框变红,显示正确答案,短暂停留后进入下一题
- 倒计时结束或点击"跳过":记为错误,直接进入下一题
3. 结果界面(学生查看)
- 成绩摘要:
- 总题数、正确数、错误数、正确率(百分比)
- 错误回顾:
- 显示错误、正确拼写和中文含义,方便复习
- 操作按钮:
- "再试一次":重新开始本轮听写
- "返回主页":回到设置界面,输入新词
4. 成绩记录界面(家长查看)
- 可以查看该学生的历史成绩
设计风格建议:
- 卡通效果,简洁、色彩鲜明,吸引小学生注意力
- 字体大、清晰易读
- 包括渐变化和动感反馈强化体验
输出:

功能基本实现了,交互还行,基本能用
Markdown在线编辑器
Prompt:
我想做一个在线的Markdown编辑器,左边我写Markdown代码,右边能马上看到排版好的效果,就像Typora那样,但做成一个可以实时编辑的编辑框网页就行,界面美观,漂亮
输出:

功能欠缺,交互不够顺滑,未能达到"在线编辑器"的基本标准。
2.3 网页开发 - UI设计
电影级着陆页
Prompt:
创建一个具有电影级视觉效果的着陆页,使用深邃的渐变背景,玻璃拟态设计元素,流畅的微交互动画,整体呈现出奢华科技品牌的质感。
输出:

视觉效果平庸,缺乏渐变、玻璃拟态等关键设计元素,未能达到"电影级"的视觉标准。
极简主义仪表板
Prompt:
设计一个极简主义的仪表板界面,运用大量留白、精致的阴影层次、优雅的过渡动画,体现现代高端设计的精髓。制作HTML网页
输出:

设计过于简陋而非"极简",缺乏阴影层次和过渡动画,未能体现现代设计精髓。
未来感数据可视化大屏
Prompt:
生成一个具有未来感的数据可视化大屏,使用霓虹色彩、粒子效果、3D变换动画,营造科幻电影中的高科技氛围。制作HTML网页
输出:

虽然简陋,缺乏设计感,但视觉效果上,基本都实现了
艺术画廊风格
Prompt:
创建一个艺术画廊风格的网页,融合抽象几何图形、流动的色彩渐变、视差滚动效果,展现前卫的现代艺术美感。制作HTML网页
输出:

艺术感不足,几何图形和渐变色彩运用生硬,视差滚动缺失,未能呈现"前卫现代艺术"风格。
2.4 SVG动画
八缸发动机动画
Prompt:
用 SVG 绘制八缸发动机物理结构动画,分步骤展示活塞运动、气门开合,配色用工业灰 + 金属银,支持鼠标悬停查看部件名称
输出:

结构绘制错误或动画不同步,配色不符合要求,悬停功能缺失,未能达到教学展示标准。
太阳系行星动画
Prompt:
使用React和CSS3为八大行星创建一个围绕太阳旋转的动画。要求:
1、太阳固定在屏幕中心,每个行星有自己独特的轨道(半径、颜色、大小)。
2、每个行星的旋转周期需不同(例如:水星4秒,海王星26秒)。
3、必须使用CSS Keyframes实现动画,并显示出每个行星的轨道线。
4、代码需组件化(如<SolarSystem>, <Planet>),并整合在一个HTML文件中,确保直接在浏览器中打开即可运行。
输出:

行星动画基本实现。
三、创意能力测试
3.1 内容创作
小学生作文
Prompt:
帮小学生写一篇"我最讨厌的动物"作文,不能是猫狗
输出:

文笔有小孩写的味儿,写的文章字数跟小学生差不多。
甄嬛体吐槽
Prompt:
用甄嬛体吐槽地铁早高峰
输出:

有那个味道了,但这输出有点长了
职场回复话术
Prompt:
老板在周六晚上11点,在公司大群里发了一段话:'看了一下大家这周的日报,感觉还是缺乏一些深度。大家都很辛苦,但我希望我们不要用战术上的勤奋掩盖战略上的懒惰。下周一早会,大家聊聊什么是真正的用户价值。
请帮我撰写一条回复话术。
要求:
- 只有我一个人回复会很尴尬,所以要写得像是一个'排头兵'的表态
- 篇幅不要长,100字以内。
- 要表现出'深刻反思'、'被老板点醒'的态度。
- 不要承诺具体要在周末加班,但要表达出'这个周末我会深度思考'的意思。
输出:

回复基本得体,语气略显生硬
短文文笔
Prompt:
请以鲁迅的文笔写一段短文(300字),主题为:打工人的一天。
输出:

有一定鲁迅风格痕迹,但讽刺力度或文学性不够突出,神韵略有欠缺
小说创作
Prompt:
Profile: 你是一名有着二十年从业经验的科幻小说家,擅长人物塑造、细节描写、环境描写、情节构思。
Background: 现在,你要参加一场2000字以内的中文微小说大赛,大赛要求作品有奇谲的想象力,能引发深刻的情感共鸣,前后逻辑连贯,语言流畅自然。你很想赢得这场比赛你已经写好了开头,现在,你将接着开头,续写故事。
Goals: 根据开头,续写1500字,注意小说需要依次包含以下几个部分:发展、转折、高潮、结局。
Constraints: 续写的总字数不得超过1500字;续写的情节要多多包含对话、动作描写、人物描写;对话不要有书面风格,要有口语风格,符合人物身份特征;续写的基调是科幻的;续写的结局必须是欧亨利式的结尾;续写的内容需要包含下列元素或主旨:黑衣人、代码、程序、计时器、时间感知力、环形时间、无限轮回、黑暗力场、西西弗斯、存在主义,请发挥想象力,以合乎逻辑的方式串联起这些元素或主旨。
Skills: 科幻小说:依据科学技术上的新发现、新成就以及在这些基础上可能达到的预见,用幻想的方式描述人类利用这些新成果完成某些奇迹的新型小说。正统科幻迷主张科学与幻想缺一不可。倘若没有任何科学根据或直接违反科学定论(尤其是有实验验证的),则只能归为奇幻、魔幻或超现实作品;反之,幻想若是付之阙如(作品中的科学内容在其成书年代即可实现),那就只是一个科学写实故事。欧亨利式的结尾:在文章情节结尾时突然让人物的心理情境发生出人意料的变化,或使主人公命运陡然逆转,出现意想不到的结果,结尾既在意料之外,又在情理之中。
Initialization: 作为“role”,根据“background”,严格遵守“constraints”,运用“skills”,完成“goals”
输出:

情节有点混乱,逻辑有些缺乏。
酒桌敬酒词
Prompt:
背景:我是分公司的负责人。年会晚宴上,我端着酒杯去主桌给集团董事长敬酒。董事长不太认识我,但我需要在短短30秒内给他留下深刻印象。
请帮我写一段敬酒词。
要求:
- 不能俗套(什么身体健康、万事如意就别说了)。
- 要结合公司今年的大方向(如全球化、海外业务)。
- 要稍微展示一下我们分公司的成绩,但不能像在汇报工作,要包装成'在您的战略指引下取得的一点小突破'。
- 结尾要有一个响亮的祝酒口号,能带动主桌气氛。
输出:

像工作汇报,未能把握年会社交场合的分寸。
3.2 PPT制作
2025年AI大事件汇总
Prompt:
请总结一下2025年AI发生了哪些大事?捋清楚一下时间线和相关事件,帮我制作一份年度AI大事件汇总回顾的PPT报告,建立一个网页
输出:

设计感不错,但事件遗漏、信息错误,布局一般
3.3 设计排版
职场肖像海报
Prompt:
艺术感职场肖像,戏剧性侧光照明,职业人士站在优雅大理石楼梯象征事业攀升,胶片颗粒质感,深祖母绿和焦赭色调的情绪化调色,浅景深,电影级构图,奢华杂志社论风格,哈苏相机品质,精致而富有抱负的氛围,制作了一个海报网页
输出:

没有按照要求来,指令遵循能力有些欠缺
四、多模态能力测试
4.1 OCR识别
纯文本识别
Prompt:
识别图片中的全部内容,言简意赅
输入图片:

输出:

识别内容准确,OCR识别没错,但是阅读顺序弄反了。
表格识别
Prompt:
## Role
你是一位有多年经验的OCR表格识别专家。
## Goals
需要通过给定的图片,识别表格里的内容,并以html表格结果格式输出结果。
## Constrains
- 需要认识识别图片中的内容,将每个表格单元格中的内容完整的识别出来,并填入html表格结构中;
- 图片中的表格单元格中可能存在一些占位符需要识别出来,例如"-"、"—"、"/"等;
- 输出表格结构一定遵循图片中的结构,表格结构完全一致;
- 特别注意图片中存在合并单元格的情况,结构不要出错;
- 对于内容较多的图片,一定要输出完整的结果,不要断章取义,更不要随意编造;
- 图片内容需要完整识别,不要遗漏,同时注意合并单元;
- 最终输出结果需要是html格式的表格内容。
## Initialization
请仔细思考后,输出html表格结果。
输入图片:

输出:

表格结构完整,但表格还是存在问题
4.2 图像理解
空间变换
Prompt:
请回答。
输入图片:

输出:

正确答案是C,回答错误。
六面体展开图
Prompt:
请回答,哪个选项的六面体展开结果是上面的展开图。
输入图片:

输出:

正确答案为D,回答错误,这类高级复杂的空间变换的题目对模型来说还是太难了。
图片排序
Prompt:
根据图中显示的多个场景,将最有可能发生的事件按顺序排列。
输入图片:

输出:

正确答案是CADB,回答错误。
目标对比
Prompt:
找到图片中奔跑的人,并返回行列序号,比如:几行几列。
输入图片:

输出:

正确答案是6行10列,没找出来,这种对模型的视觉能力,要求还是有点高。
好物比价
Prompt:
这个酸奶的低价是多少,帮我出一份对比报告,并且里面包含各个平台的最低价链接。
输入图片:

输出:

数据读取、图标理解能力不错
数据理解与计算
Prompt:
找到2024年GDP值最大的省份,并且计算占全国GDP的百分之多少?
输入图片:

输出:

最大值找的正确,但是2024年总和计算错了,最终百分比应该是约为10.5%
世界知识定位
Prompt:
朋友拍了一张图片,可以告诉我他是在中国哪个城市拍的吗?
输入图片:

输出:

城市回答正确,但是高楼是金茂大厦
目标识别与计数
Prompt:
告诉我桌子上菇娘儿的个数。
输入图片:

输出:

回答正确
色盲测试
Prompt:
图片里有数字吗?如果有的话是什么?
输入图片:

输出:

识别错误,数字应该是6
内容理解
Prompt:
我今天喝了这个果汁会怎么样
输入图片:

输出:

提取图片内容不错,但常识推理能力有问题
网页复刻
Prompt:
请帮我1:1还原这个网页内容,用HTML呈现。
输入图片:

输出:

网页还原、审美和代码能力不给力,复刻失败。
猫品种识别(JSON格式)
Prompt:
识别图中所有猫的品种。
请以合法的JSON格式返回结果,结果是一个list,每一个list元素对应一个目标检测结果dict,dict的key由label、bbox_2d组成,值分别为检测到的猫的品种和结果坐标框。
例如:[{'label': '金渐层-1', 'bbox_2d': [1,2,3,4]}, {'label': '金渐层-2', 'bbox_2d': [4,5,6,7]}]
输入的图片:

输出:

对不同方向的图片有些能做到正确识别,也有些识别错误。
总结
亮点明显:
工具类网页完成度高:水印处理功能完整、复利计算器专业、公众号排版实用
部分游戏实现出色:技能五子棋逻辑清晰、N-Back实验流畅、表情反应堆合格
中文语义理解能力不错:但丁真双关语、语义判别均正确
稳定性:
简单工具类网页(排版、水印、计算器)稳定可用
基础游戏(五子棋、表情反应堆)核心玩法完整
部分创意写作(小学生作文、甄嬛体)有一定水准
待改进:
基础推理能力薄弱:立体几何有幻觉、推理陷阱被套、弱智吧全错、字符串反转乱序
视觉空间推理全面崩盘:空间变换、六面体、图片排序、目标定位四连错
复杂前端任务不稳定:太空射击未实现、浏览器OS无法运行、相机复刻走样
3D渲染和质感建模能力弱:风扇简陋、微波炉差距大、LED灯真实感不足
UI设计能力欠缺:电影级着陆页平庸、极简仪表板简陋、艺术画廊缺乏艺术感
色盲测试识别错误,部分OCR存在顺序问题
创意写作深度不足:科幻小说情节混乱、敬酒词像工作汇报
一句话总结 —— LongCat-Flash-Thinking-2601在工具调用和简单网页开发上确实有两把刷子,但基础推理和视觉理解是明显短板,"重思考模式"的优势有待验证,适合工具类场景,复杂推理和视觉任务需谨慎。
以上就是本次LongCat-Flash-Thinking-2601的体验测试,所有Prompt均公开。同时,非线智能API支持Api聚合以及Api中转,提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号,领50元体验金
大模型/agent评测技术交流:关注公众号,发送消息"进群"