引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

美团最近推出了LongCat-Flash-Thinking-2601版本,作为首个支持在线免费体验「重思考模式」的模型,主打工具调用能力,号称在Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测上达到开源SOTA,均达到开源模型 SOTA 水平。

先说结论:

  • 三大亮点:

    • 工具类网页完成度高:水印处理工具功能完整交互丝滑、复利计算器UI专业图表实时、公众号排版工具核心功能跑通,实用性强

    • 部分游戏实现出色:技能五子棋完成度高逻辑清晰、N-Back实验页面画面统一操作流畅、表情反应堆合格交付

    • 中文语义理解不错:准确理解"但丁真"双关语、语义判别正确、小学生作文有那味儿

  • 三个短板:

    • 基础推理频繁出错:立体几何推理过程有幻觉、推理陷阱题被套、弱智吧两题全错、字符串反转乱序

    • 视觉空间推理全面崩盘:空间变换、六面体展开图、图片排序、目标定位四题全错,视觉理解是重灾区

    • 复杂前端/3D任务失败率高:太空射击核心玩法未实现、浏览器操作系统无法运行、相机复刻完全走样

一句话总结: LongCat在工具类网页开发上确实表现亮眼,但基础逻辑推理和视觉空间理解存在明显短板,"重思考模式"的深度推理优势在实测中尚未充分体现。


往下看详细测试结果👇

一、基础能力测试

1.1 数学推理

大数计算

Prompt:

大数计算:178939247893 * 299281748617等于多少?

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

正确答案是53,553,251,005,627,872,913,981,LongCat-Flash-Thinking-2601算对了。

立体几何推理

Prompt:

一个长五点五米的竹竿,能否穿过一扇高四米,宽三米的门?请考虑立体几何

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

推理过程看着不错,但错误百出,三维立体分析推理过程有幻觉,最终的答案也是错误。

推理陷阱题

Prompt:

假设有三个创业团队(A、B、C)正在竞争一个项目资金。评选有以下规则:

1.每个团队提交一份商业计划书,主题必须是“可持续能源”“智慧城市”或“医疗健康”之一,且每个主题只能有一个团队选择。

2.团队B选择了“智慧城市”。

3.如果团队A选择“可持续能源”,那么团队C的商业计划书必须比团队A的更具创新性才能胜出。

4.最终只有一个团队能获得资金。

5.后来得知,团队C的计划书在创新性上略逊于团队A。

请问:哪个团队最终获得了项目资金?并解释你的推理过程。

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)
正确答案是:“无法唯一确定赢家,但可确定 C 未获胜,胜者只可能是 A 或 B 之一”。没能识破陷阱,推理出现逻辑漏洞,未能正确处理条件之间的约束关系,得出了错误的结论。

小红兄弟姐妹题

Prompt:

小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

结果:回答正确

老鹰飞行原因

Prompt:

未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

陷入了题目的逻辑陷阱,忽略了老鹰是天生会飞的鸟类,缺乏基本常识判断

1.2 文本处理

字符串反转

Prompt:

将"LongCat-Flash-Thinking-2601"这句话的所有字母反过来写

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

回答错误,倒序过来写,就乱了

语义判别

Prompt:

以下出现的华为是否为3C行业品牌?

- 刘德华为新剧做宣传。

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

回答正确

知识理解

Prompt:

如何理解"但丁真不会说中国话,但丁真会说中国话"

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

回答正确,能分辨出“但丁”跟“丁真”的区别。

弱智吧系列

Prompt1:

生蚝煮熟了叫什么?

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

Prompt2:

用水来兑水,得到的是浓水还是稀水

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

两个都回答错误,被套路,没有识别出这是脑筋急转弯类题目

开放式策略生成

Prompt:

1. 整体:资金不足40.4%,知识匮乏23.9%,未来不确定性21.7%,政策限制14%。

2. 一线城市:资金不足44.4%,知识匮乏15.8%,未来不确定性22.7%,政策限制16.9%。

3. 二线城市:资金不足38.3%,知识匮乏27.9%,未来不确定性21.2%,政策限制12.5%。

请根据上述数据,分析一二线青年置业困难差异及原因,从政府、购房者、家人、夫妻角度提建议。

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

差异分析差强人意,建议笼统,没什么好的参考。

二、代码能力测试

2.1 网页开发 - 游戏类

黄金矿工游戏

Prompt:

请生成一个经典的"黄金矿工"游戏。游戏的核心玩法、道具和关卡系统应遵循以下设定:

核心玩法机制:

 - 钩爪摆动与发射:游戏界面上方有一个矿工和他的卷轴,一个钩爪会自动左右来回摆动。当玩家按下任意键(或鼠标点击)时,钩爪会沿着当前方向直线发射出去。

 - 抓取与回收:如果钩爪在伸出路径上碰到了地下的任何物品,它会抓住该物品并开始自动收回。回收的速度取决于所抓物品的重量,例如,小金块回收快,而巨大的岩石回收则非常慢。

 - 关卡目标:每个关卡都有一个明确的时间限制(如60秒)和一个目标金额。玩家必须在规定时间内,抓取到总价值超过目标金额的物品才能成功过关。

地下物品设定:

 - 黄金:有多种不同尺寸和形状的金块。体积越大,价值越高,但也越重。

 - 钻石:体积小,价值非常高,回收速度很快,是优先抓取的目标。

 - 石块:价值极低,但异常沉重,抓到会浪费大量宝贵时间,应尽量避免。

 - 福袋(问号袋):价值随机的袋子,可能开出高额金钱、力量药水或少量金钱。

 - 炸药桶:如果钩爪不小心抓到它,它会立刻爆炸,并摧毁其周围一定范围内的所有物品(包括黄金和钻石)。

商店与道具系统:

在每个关卡成功结束后,会进入一个商店界面。玩家可以用当前关卡赚到的、超出目标金额的钱来购买道具,以备下一关使用。

可购买的道具示例:

 - 炸药(Dynamite): 当钩爪在回收过程中抓到了不想要的低价值物品(如石块)时,玩家可以按下一个特定按键使用炸药,将其在钩爪上直接炸毁,让钩爪立即空手收回,节省时间。

 - 力量药水(Strength Potion): 在下一个关卡中,矿工的力量会增强,回收所有物品的速度都会显著提升。

 - 幸运草(Lucky Clover): 在下一个关卡中,从福袋中获得好东西的概率会增加。

视觉与界面要求:

 - 游戏应采用经典的2D卡通风格,矿工形象生动,黄金和钻石闪闪发光。

 - 用户界面必须清晰地显示三个核心信息:① 剩余时间、② 当前已获得的金额、③ 本关的目标金额。

 - UI风格:漫画书风格,街机游戏UI,波普艺术,荧光粉和青色,半色调网点背景,粗描边字体,倾斜布局,高对比度,复古90年代,动态图形,硬阴影

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

游戏基本可玩,UI跟交互,离要求还是有不少差距

可爱风格五子棋

Prompt:

可爱风格五子棋游戏界面,画面有两个模式按钮"人人对战"和"人机对战",界面整体采用马卡龙色调,棋盘简洁清晰,棋子设计成卡通小动物(如猫咪和小熊),背景带有轻微渐变和星星点缀,界面边缘圆润,按钮Q萌,整体风格温馨可爱,适合儿童或休闲玩家使用,2D插画风,用html呈现

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

玩法简单但完整,UI可爱,交互存在问题,一般般

表情符号反应堆游戏

Prompt:

请你扮演一个Web游戏开发者。设计并生成一个**表情符号反应堆**的游戏。

1、核心创意: 一个快节奏的反应游戏。屏幕上会快速闪过一个目标表情符号(例如:笑脸😄),下方会同时出现3-4个选项表情符号,玩家需要在限定时间内(例如1-2秒)点击与目标匹配的那个表情符号。

2、玩法:

- 屏幕中央显示目标Emoji。

- 下方按钮区域快速刷新3-4个Emoji选项,其中一个是正确的。

- 玩家需在计时条走完前点击正确的Emoji。

- 点击正确得分,速度加快;点击错误或超时则游戏结束(或扣除生命值)。

- 显示最高分。

3、技术实现 (HTML/JS/CSS):

- HTML: 用于显示目标Emoji、选项按钮、计时条、得分。

- CSS: 设计简洁明快的界面,计时条动画。

- JavaScript:

存储一个Emoji列表。

随机选择目标Emoji和干扰项。

动态更新按钮内容。

实现计时器逻辑和倒计时动画。

处理点击事件,判断对错,更新得分/状态。

控制游戏节奏(逐渐加快)。

4、趣味点: 简单上手,考验反应速度,利用通用的Emoji增加亲和力和趣味性,适合碎片时间玩。

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

玩法简单但完整,UI可爱,交互顺滑,合格交付。

技能五子棋

Prompt:

帮我做一个技能五子棋的游戏网页,要求是在普通的五子棋规则上,玩家可以使用技能,其中包括飞沙走石,静如止水,力拔山兮。

「飞沙走石」,是把对手的棋子直接扔进什(石)刹海,2技能点;

「静如止水」是凝结时间,把对方「速冻」,4技能点;

「力拔山兮」是摔坏棋盘,8技能点,直接获胜。

黑棋和白棋的技能点要分开算,并且每走一步都可以累加。直接给我HTML文件,画面要美观。需要设计一个电脑对手,让我可以直接和它对战。

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

核心玩法完整实现,游戏逻辑清晰,操作流畅,完成度比较高。

N-Back实验页面

Prompt:

你需要实现一个N-Back实验页面,

N-Back实验的原理是,每隔1s闪烁一张图片,让用户判断当前的图片与前面第N张图片是否一致,一致选择是,不一致选择否。

其中,图片为常见的10个中文汉字,["国", "火", "道", "市", "天", "家", "理", "态", "至", "心"]

界面需要每次开始时,选N的值,选择为2,3,4,三种。

需要用户点击30次,也就是不同N值时展现的图片个数不同,例如N=2,则需要32张图片,当第三张出现时,提醒用户开始点击。

你需要记录两个内容,一个是用户点击是否准确,一个是出现图像到用户点击之间的时间,最后给出点击准确率和反应时间。

注意:图片展示只有15次是N-back正确内容,防止实验过难或过于简单。

实验过程,如果正确让用户点击“A”键,错误让用户点击“L”键。

同时界面必须符合现代审美,实验结果可以导出下载。

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

画面风格统一,操作流畅,不错!

太空射击游戏

Prompt:

做一个太空射击游戏,外星人会从天而降,有小兵也有Boss,击败它们会爆炸且有音效。背景是深邃的星空,持续滚动。

玩法要求:

- 玩家飞船可用方向键或WASD移动,空格键射击

- 敌人分小兵和Boss,击败有分数奖励

- Boss血量更厚,移动更诡异

- 碰到敌人或敌人子弹会掉血,有生命值显示

- 顶部显示分数

动效要求:

- 星空背景持续缓慢滚动,营造前进感

- 飞船移动时有轻微倾斜动画

- 爆炸粒子有物理感,先快后慢消散

- 游戏结束时画面轻微震动

技术:

- 单个HTML文件

- 使用Canvas

- 60fps流畅运行

目标:让人觉得这是Steam上¥18独立游戏的试玩Demo。

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

核心玩法均未实现,体验很差

浏览器操作系统

Prompt:

请用HTML、CSS和JS做一个浏览器操作系统,要求包含下面这些功能:

- 至少有5个App;

- 这5个App里,必须有两个是真的能玩的游戏;

- 支持更换壁纸;

- 再加一个你自己定的「特殊」功能,你得说明白这个功能是啥,以及它特别在哪里。

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

无法正常运行,功能缺失严重,未能实现"浏览器操作系统"的核心体验。

2.2 网页开发 - 工具类

Google搜索复刻

Prompt:

做一个Google搜索网站,请尽可能的保证高还原度

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

还原度还可以,仅有基本搜索框,跟原版还是有些差距

智能LED灯调光页面

Prompt:

生产一个网页,展示一盏可调光的智能 LED 灯。灯泡材质应有玻璃的通透感,灯丝细节要清晰。用户可以通过滑块调节色温(从 2700K 暖黄到 6000K 冷白)和亮度(0%-100%),光的颜色和照射范围应根据数值变化真实响应。

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

灯泡质感一般,光照变化不够平滑,真实感不足

质感相机(立体感+快门拍照)

Prompt:

请生成一个网页,尽可能复刻一个有质感的相机,有立体感。还能按下快门拍照。

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

这是相机吗?

粉色拍立得相机

Prompt:

请生成一个网页,复刻一个美观、粉色系、有质感的拍立得相机,有立体感,有光泽。还能按下快门拍照,生成的照片也是拍立得照片风格

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

建模和渲染都不错,一句话能做到这效果,可以的。

质感风扇(可调速)

Prompt:

生产一个网页,做一个有质感、真实的风扇,我可以调整风速档位,档位越高,扇叶转的越快。

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

风扇造型简陋,看不出来这是风扇,档位功能还行。

金属质感微波炉

Prompt:

生产一个网页,做一个金属质感的微波炉,我可以调节火力档位(如解冻、低火、高火),档位越高,内部灯光越亮,并伴有动态旋转光波动画。

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

属质感不明显,档位或动画功能存在问题,整体效果与要求差距较大

Switch掌机复刻

Prompt:

生成一个网页,完美复刻一个 switch 掌机游戏,上面的按钮可以交互,左右点击切换游戏选择。

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

造型与Switch差距较大,按钮功能太简单了,复刻效果不佳。

公众号排版工具

Prompt:

帮我做一个网站,这个网站会有一些橙色系的公众号样式,支持 2 级标题,用户在输入框内输入文字后,点选不同的样式可以查看效果,此刻点击复制就会按这个效果转换成微信公众号可识别的样式,粘贴进微信公众号编辑器即可展示相同的样式。

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

核心功能都跑通了,导出正常,样式不错。

水印处理工具

Prompt:

你是一位精通Web图形处理的前端极客。请帮我写一个单文件的HTML小工具,功能是“本地图片隐私保护器”。功能逻辑:拖拽上传:   屏幕中央有一个虚线框,支持拖拽图片上传(或点击选择)。双模式处理:模式A(打码):   允许用户在图片上用鼠标框选区域,框选区域自动进行马赛克(Pixelate)处理。模式B(水印):   允许输入文字水印,调节透明度和角度,平铺在整张图片上。导出:   点击“保存”按钮,下载处理后的图片。所有操作必须在浏览器本地完成,不涉及后端。美学要求:UI风格参考 Gumroad 或   Notion,使用黑白灰极简配色,按钮要是醒目的黑色圆角矩形。操作要有顺滑的反馈(例如拖入文件时边框变色)。使用Tailwind CSS   (CDN版) 进行样式设计。

  • 输出:

功能完整,交互丝滑,双模式切换自然,实用性强

可视化复利计算器

Prompt:

请为我开发一个“复利奇迹计算器”   Web应用。这是一个旨在向普通人展示长期投资力量的教育工具。交互与逻辑:输入区(左侧): 使用美观的滑块(Range   Slider)而不是枯燥的输入框,来控制:初始本金、每月定投金额、年化收益率 (1% - 20%)、投资年限 (1 - 40年)。

可视化区(右侧):   使用 Chart.js 或纯 CSS/SVG   绘制一个面积增长图。图表需要包含两条线:一条是“本金投入”,一条是“复利总额”。两条线中间的区域用渐变色填充,代表“睡后收入”。动态反馈:   拖动任何滑块,图表必须无延迟实时更新。UI风格:   金融科技风(Fintech),主色调使用深蓝色和金色。字体清晰,数字显示格式化(例如:¥1,234,567)。请提供完整的HTML/JS代码。

  • 输出:

UI风格专业,图表实时更新,体验不错

小学生英语单词听写应用

Prompt:

请帮我设计一个小学生英语单词听写交互式网页应用,家长可以创建单词的听写列表,学生通过单词拼写+实时反馈练习英语单词,提升记忆效果。具体要求如下:

1. 设置界面(家长使用)

- 单词列表输入:大文本框,支持粘贴格式为"apple 苹果"的单词列表,每行一个。

- 听写设置:

- 每题倒计时(单位:秒)

- 是否打乱题目顺序(复选框)

- 开始按钮:点击"开始听写"进入学生界面。

- 设置界面进入需要有个用户名和密码(默认账号,用户名:admin,密码:123456)

2. 听写界面(学生使用)

- 显示内容:

- 显示当前题目的中文含义(如"苹果")

- 语音播放按钮(页面加载时自动播放一次,可重复点击)

- 拼写输入框 + 实时倒计时器

- 提交按钮和跳过按钮

- 答题流程:

- 系统播放英文发音,显示中文提示

- 学生拼写英文并提交

- 系统即时反馈:

- 拼写正确:输入框变绿,自动进入下一题

- 拼写错误:输入框变红,显示正确答案,短暂停留后进入下一题

- 倒计时结束或点击"跳过":记为错误,直接进入下一题

3. 结果界面(学生查看)

- 成绩摘要:

- 总题数、正确数、错误数、正确率(百分比)

- 错误回顾:

- 显示错误、正确拼写和中文含义,方便复习

- 操作按钮:

- "再试一次":重新开始本轮听写

- "返回主页":回到设置界面,输入新词

4. 成绩记录界面(家长查看)

- 可以查看该学生的历史成绩

设计风格建议:

- 卡通效果,简洁、色彩鲜明,吸引小学生注意力

- 字体大、清晰易读

- 包括渐变化和动感反馈强化体验

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

功能基本实现了,交互还行,基本能用

Markdown在线编辑器

Prompt:

我想做一个在线的Markdown编辑器,左边我写Markdown代码,右边能马上看到排版好的效果,就像Typora那样,但做成一个可以实时编辑的编辑框网页就行,界面美观,漂亮

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

功能欠缺,交互不够顺滑,未能达到"在线编辑器"的基本标准。

2.3 网页开发 - UI设计

电影级着陆页

Prompt:

创建一个具有电影级视觉效果的着陆页,使用深邃的渐变背景,玻璃拟态设计元素,流畅的微交互动画,整体呈现出奢华科技品牌的质感。

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

视觉效果平庸,缺乏渐变、玻璃拟态等关键设计元素,未能达到"电影级"的视觉标准。

极简主义仪表板

Prompt:

设计一个极简主义的仪表板界面,运用大量留白、精致的阴影层次、优雅的过渡动画,体现现代高端设计的精髓。制作HTML网页

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

设计过于简陋而非"极简",缺乏阴影层次和过渡动画,未能体现现代设计精髓。

未来感数据可视化大屏

Prompt:

生成一个具有未来感的数据可视化大屏,使用霓虹色彩、粒子效果、3D变换动画,营造科幻电影中的高科技氛围。制作HTML网页

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

虽然简陋,缺乏设计感,但视觉效果上,基本都实现了

艺术画廊风格

Prompt:

创建一个艺术画廊风格的网页,融合抽象几何图形、流动的色彩渐变、视差滚动效果,展现前卫的现代艺术美感。制作HTML网页

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

艺术感不足,几何图形和渐变色彩运用生硬,视差滚动缺失,未能呈现"前卫现代艺术"风格。

2.4 SVG动画

八缸发动机动画

Prompt:

用 SVG 绘制八缸发动机物理结构动画,分步骤展示活塞运动、气门开合,配色用工业灰 + 金属银,支持鼠标悬停查看部件名称

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

结构绘制错误或动画不同步,配色不符合要求,悬停功能缺失,未能达到教学展示标准。

太阳系行星动画

Prompt:

使用React和CSS3为八大行星创建一个围绕太阳旋转的动画。要求:

1、太阳固定在屏幕中心,每个行星有自己独特的轨道(半径、颜色、大小)。

2、每个行星的旋转周期需不同(例如:水星4秒,海王星26秒)。

3、必须使用CSS Keyframes实现动画,并显示出每个行星的轨道线。

4、代码需组件化(如<SolarSystem>, <Planet>),并整合在一个HTML文件中,确保直接在浏览器中打开即可运行。

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

行星动画基本实现。

三、创意能力测试

3.1 内容创作

小学生作文

Prompt:

帮小学生写一篇"我最讨厌的动物"作文,不能是猫狗

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

文笔有小孩写的味儿,写的文章字数跟小学生差不多。

甄嬛体吐槽

Prompt:

用甄嬛体吐槽地铁早高峰

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

有那个味道了,但这输出有点长了

职场回复话术

Prompt:

老板在周六晚上11点,在公司大群里发了一段话:'看了一下大家这周的日报,感觉还是缺乏一些深度。大家都很辛苦,但我希望我们不要用战术上的勤奋掩盖战略上的懒惰。下周一早会,大家聊聊什么是真正的用户价值。

请帮我撰写一条回复话术。

要求:

- 只有我一个人回复会很尴尬,所以要写得像是一个'排头兵'的表态

- 篇幅不要长,100字以内。

- 要表现出'深刻反思'、'被老板点醒'的态度。

- 不要承诺具体要在周末加班,但要表达出'这个周末我会深度思考'的意思。

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

回复基本得体,语气略显生硬

短文文笔

Prompt:

请以鲁迅的文笔写一段短文(300字),主题为:打工人的一天。

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

有一定鲁迅风格痕迹,但讽刺力度或文学性不够突出,神韵略有欠缺

小说创作

Prompt:

Profile: 你是一名有着二十年从业经验的科幻小说家,擅长人物塑造、细节描写、环境描写、情节构思。

Background: 现在,你要参加一场2000字以内的中文微小说大赛,大赛要求作品有奇谲的想象力,能引发深刻的情感共鸣,前后逻辑连贯,语言流畅自然。你很想赢得这场比赛你已经写好了开头,现在,你将接着开头,续写故事。

Goals: 根据开头,续写1500字,注意小说需要依次包含以下几个部分:发展、转折、高潮、结局。

Constraints:   续写的总字数不得超过1500字;续写的情节要多多包含对话、动作描写、人物描写;对话不要有书面风格,要有口语风格,符合人物身份特征;续写的基调是科幻的;续写的结局必须是欧亨利式的结尾;续写的内容需要包含下列元素或主旨:黑衣人、代码、程序、计时器、时间感知力、环形时间、无限轮回、黑暗力场、西西弗斯、存在主义,请发挥想象力,以合乎逻辑的方式串联起这些元素或主旨。

Skills:   科幻小说:依据科学技术上的新发现、新成就以及在这些基础上可能达到的预见,用幻想的方式描述人类利用这些新成果完成某些奇迹的新型小说。正统科幻迷主张科学与幻想缺一不可。倘若没有任何科学根据或直接违反科学定论(尤其是有实验验证的),则只能归为奇幻、魔幻或超现实作品;反之,幻想若是付之阙如(作品中的科学内容在其成书年代即可实现),那就只是一个科学写实故事。欧亨利式的结尾:在文章情节结尾时突然让人物的心理情境发生出人意料的变化,或使主人公命运陡然逆转,出现意想不到的结果,结尾既在意料之外,又在情理之中。

Initialization: 作为“role”,根据“background”,严格遵守“constraints”,运用“skills”,完成“goals”

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

情节有点混乱,逻辑有些缺乏。

酒桌敬酒词

Prompt:

背景:我是分公司的负责人。年会晚宴上,我端着酒杯去主桌给集团董事长敬酒。董事长不太认识我,但我需要在短短30秒内给他留下深刻印象。

请帮我写一段敬酒词。

要求:

- 不能俗套(什么身体健康、万事如意就别说了)。

- 要结合公司今年的大方向(如全球化、海外业务)。

- 要稍微展示一下我们分公司的成绩,但不能像在汇报工作,要包装成'在您的战略指引下取得的一点小突破'。

- 结尾要有一个响亮的祝酒口号,能带动主桌气氛。

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

像工作汇报,未能把握年会社交场合的分寸。

3.2 PPT制作

2025年AI大事件汇总

Prompt:

请总结一下2025年AI发生了哪些大事?捋清楚一下时间线和相关事件,帮我制作一份年度AI大事件汇总回顾的PPT报告,建立一个网页

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

设计感不错,但事件遗漏、信息错误,布局一般

3.3 设计排版

职场肖像海报

Prompt:

艺术感职场肖像,戏剧性侧光照明,职业人士站在优雅大理石楼梯象征事业攀升,胶片颗粒质感,深祖母绿和焦赭色调的情绪化调色,浅景深,电影级构图,奢华杂志社论风格,哈苏相机品质,精致而富有抱负的氛围,制作了一个海报网页

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

没有按照要求来,指令遵循能力有些欠缺

四、多模态能力测试

4.1 OCR识别

纯文本识别

Prompt:

识别图片中的全部内容,言简意赅

  • 输入图片:

引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)
  • 输出:

引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

识别内容准确,OCR识别没错,但是阅读顺序弄反了。

表格识别

Prompt:

## Role

你是一位有多年经验的OCR表格识别专家。

## Goals

需要通过给定的图片,识别表格里的内容,并以html表格结果格式输出结果。

## Constrains

- 需要认识识别图片中的内容,将每个表格单元格中的内容完整的识别出来,并填入html表格结构中;

- 图片中的表格单元格中可能存在一些占位符需要识别出来,例如"-"、"—"、"/"等;

- 输出表格结构一定遵循图片中的结构,表格结构完全一致;

- 特别注意图片中存在合并单元格的情况,结构不要出错;

- 对于内容较多的图片,一定要输出完整的结果,不要断章取义,更不要随意编造;

- 图片内容需要完整识别,不要遗漏,同时注意合并单元;

- 最终输出结果需要是html格式的表格内容。

## Initialization

请仔细思考后,输出html表格结果。

  • 输入图片:

引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)
  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

表格结构完整,但表格还是存在问题

4.2 图像理解

空间变换

  • Prompt:

    请回答。

    输入图片:

引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)
  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

正确答案是C,回答错误。

六面体展开图

Prompt:

请回答,哪个选项的六面体展开结果是上面的展开图。

  • 输入图片:

引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)
  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

正确答案为D,回答错误,这类高级复杂的空间变换的题目对模型来说还是太难了。

图片排序

Prompt:

根据图中显示的多个场景,将最有可能发生的事件按顺序排列。

  • 输入图片:

引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)
  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

正确答案是CADB,回答错误。

目标对比

Prompt:

找到图片中奔跑的人,并返回行列序号,比如:几行几列。

  • 输入图片:

引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)
  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

正确答案是6行10列,没找出来,这种对模型的视觉能力,要求还是有点高。

好物比价

Prompt:

这个酸奶的低价是多少,帮我出一份对比报告,并且里面包含各个平台的最低价链接。

  • 输入图片:

引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)
  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

数据读取、图标理解能力不错

数据理解与计算

Prompt:

找到2024年GDP值最大的省份,并且计算占全国GDP的百分之多少?

  • 输入图片:

引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)
  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

最大值找的正确,但是2024年总和计算错了,最终百分比应该是约为10.5%

世界知识定位

Prompt:

朋友拍了一张图片,可以告诉我他是在中国哪个城市拍的吗?

  • 输入图片:

引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)
  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

城市回答正确,但是高楼是金茂大厦

目标识别与计数

Prompt:

告诉我桌子上菇娘儿的个数。

  • 输入图片:

引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)
  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

回答正确

色盲测试

Prompt:

图片里有数字吗?如果有的话是什么?

  • 输入图片:

引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)
  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

识别错误,数字应该是6

内容理解

Prompt:

我今天喝了这个果汁会怎么样

  • 输入图片:

引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)
  • 输出:

引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

提取图片内容不错,但常识推理能力有问题

网页复刻

Prompt:

请帮我1:1还原这个网页内容,用HTML呈现。

  • 输入图片:

引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)
  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

网页还原、审美和代码能力不给力,复刻失败。

猫品种识别(JSON格式)

Prompt:

识别图中所有猫的品种。

请以合法的JSON格式返回结果,结果是一个list,每一个list元素对应一个目标检测结果dict,dict的key由label、bbox_2d组成,值分别为检测到的猫的品种和结果坐标框。

例如:[{'label': '金渐层-1', 'bbox_2d': [1,2,3,4]}, {'label': '金渐层-2', 'bbox_2d': [4,5,6,7]}]

  • 输入的图片:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

  • 输出:

    引自非线智能(GitHub 第一 AI 商业测评) - 美团 LongCat-Flash-Thinking-2601 体验测试(附完整prompt)

对不同方向的图片有些能做到正确识别,也有些识别错误。


总结

亮点明显:

  • 工具类网页完成度高:水印处理功能完整、复利计算器专业、公众号排版实用

  • 部分游戏实现出色:技能五子棋逻辑清晰、N-Back实验流畅、表情反应堆合格

  • 中文语义理解能力不错:但丁真双关语、语义判别均正确

稳定性:

  • 简单工具类网页(排版、水印、计算器)稳定可用

  • 基础游戏(五子棋、表情反应堆)核心玩法完整

  • 部分创意写作(小学生作文、甄嬛体)有一定水准

待改进:

  • 基础推理能力薄弱:立体几何有幻觉、推理陷阱被套、弱智吧全错、字符串反转乱序

  • 视觉空间推理全面崩盘:空间变换、六面体、图片排序、目标定位四连错

  • 复杂前端任务不稳定:太空射击未实现、浏览器OS无法运行、相机复刻走样

  • 3D渲染和质感建模能力弱:风扇简陋、微波炉差距大、LED灯真实感不足

  • UI设计能力欠缺:电影级着陆页平庸、极简仪表板简陋、艺术画廊缺乏艺术感

  • 色盲测试识别错误,部分OCR存在顺序问题

  • 创意写作深度不足:科幻小说情节混乱、敬酒词像工作汇报

一句话总结 —— LongCat-Flash-Thinking-2601在工具调用和简单网页开发上确实有两把刷子,但基础推理和视觉理解是明显短板,"重思考模式"的优势有待验证,适合工具类场景,复杂推理和视觉任务需谨慎。

以上就是本次LongCat-Flash-Thinking-2601的体验测试,所有Prompt均公开。同时,非线智能API支持Api聚合以及Api中转,提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号,领50元体验金






大模型/agent评测技术交流:关注公众号,发送消息"进群"