引自非线智能(GitHub 第一 AI 商业测评) - 腾讯 Tencent HY 2.0 Think体验测试:会思考的模型,手艺却一般?

混元大模型最近上线了HY 2.0 Think版本,主打深度思考能力。正好手头有一套前端评测用例,顺手测一下它的代码生成水平。

常规用例评测

这部分用例与DeepSeek V3.2评测相同,快速过一遍看整体水平

(1)复古打印机引自非线智能(GitHub 第一 AI 商业测评) - 腾讯 Tencent HY 2.0 Think体验测试:会思考的模型,手艺却一般?

核心功能完整实现,打字效果节奏感不错。卡片拖拽功能正常工作,页面风格也有复古味道。

(2)双栏响应式Hero区

引自非线智能(GitHub 第一 AI 商业测评) - 腾讯 Tencent HY 2.0 Think体验测试:会思考的模型,手艺却一般?

布局结构可以,可惜星星不是3D,也不能转不能飘,缺少响应式适配

(3)加密货币仪表盘

引自非线智能(GitHub 第一 AI 商业测评) - 腾讯 Tencent HY 2.0 Think体验测试:会思考的模型,手艺却一般?

玻璃拟态效果还不错,配色也在审美上,功能跟美感超过预期。

(4)游戏宣传落地页

引自非线智能(GitHub 第一 AI 商业测评) - 腾讯 Tencent HY 2.0 Think体验测试:会思考的模型,手艺却一般?

中规中矩,但缺少让人眼前一亮的设计。动效比较基础,没有游戏宣传页该有的「冲击力」。

(5)凡人修仙传主题网站

引自非线智能(GitHub 第一 AI 商业测评) - 腾讯 Tencent HY 2.0 Think体验测试:会思考的模型,手艺却一般?

网页整体色调素雅,水墨元素运用合理,角色、法宝、丹药模块都有,导航也清晰,但过于简单

(6)网页版音乐播放器

引自非线智能(GitHub 第一 AI 商业测评) - 腾讯 Tencent HY 2.0 Think体验测试:会思考的模型,手艺却一般?

播放/暂停、进度条、列表拖拽、主题切换、文件上传等功能都有,整体可用。

(7)坦克大战复刻

引自非线智能(GitHub 第一 AI 商业测评) - 腾讯 Tencent HY 2.0 Think体验测试:会思考的模型,手艺却一般?

复刻失败,碰撞检测一塌糊涂,地图渲染错位,射击击中无反应......

(8)SVG八缸发动机动画

引自非线智能(GitHub 第一 AI 商业测评) - 腾讯 Tencent HY 2.0 Think体验测试:会思考的模型,手艺却一般?

画了个发动机的样子,但活塞运动逻辑不对,悬停功能没做,机械原理这块,模型还没开窍。

(9)太阳系行星动画

引自非线智能(GitHub 第一 AI 商业测评) - 腾讯 Tencent HY 2.0 Think体验测试:会思考的模型,手艺却一般?

行星是在转,但不是围着太阳中心转,轨道周期乱来。

(10)3D剪纸模拟器

引自非线智能(GitHub 第一 AI 商业测评) - 腾讯 Tencent HY 2.0 Think体验测试:会思考的模型,手艺却一般?

一言难尽呀,这个功能实现对模型的空间推理能力要求太苛刻了。

以上是10个常规前端用例的快速测试,HY 2.0 Think整体表现中规中矩。接下来才是重头戏——我们针对Think模型「深度思考」的特点,设计了一系列更贴近实际使用场景的评测,涵盖逻辑推理、创意写作、实用工具生成等多个维度。

贴近实际使用场景的实测

推理陷阱题

  • 测试内容:三个创业团队竞争项目资金的逻辑推理题。

Prompt

假设有三个创业团队(A、B、C)正在竞争一个项目资金。评选有以下规则:

1.每个团队提交一份商业计划书,主题必须是“可持续能源”“智慧城市”或“医疗健康”之一,且每个主题只能有一个团队选择。

2.团队B选择了“智慧城市”。

3.如果团队A选择“可持续能源”,那么团队C的商业计划书必须比团队A的更具创新性才能胜出。

4.最终只有一个团队能获得资金。

5.后来得知,团队C的计划书在创新性上略逊于团队A。

请问:哪个团队最终获得了项目资金?并解释你的推理过程。

输出:

引自非线智能(GitHub 第一 AI 商业测评) - 腾讯 Tencent HY 2.0 Think体验测试:会思考的模型,手艺却一般?引自非线智能(GitHub 第一 AI 商业测评) - 腾讯 Tencent HY 2.0 Think体验测试:会思考的模型,手艺却一般?

一开始,HY 2.0 Think推理是,团队A最终获得项目资金,后面又修正为团队B。但模型在最后的标注里,也推理出“陷阱”了(答案是:“无法唯一确定赢家,但可确定 C 未获胜,胜者只可能是 A 或 B 之一”),模型的深度思考能力还是可以的

创意写作测试

  • 测试内容:写一段能以惊人才华令人震撼的文字,并解释创作过程。

Prompt

写一段能以惊人的才华令我震撼的文字,之后再解释你是如何完成这件事的。

输出:

引自非线智能(GitHub 第一 AI 商业测评) - 腾讯 Tencent HY 2.0 Think体验测试:会思考的模型,手艺却一般?引自非线智能(GitHub 第一 AI 商业测评) - 腾讯 Tencent HY 2.0 Think体验测试:会思考的模型,手艺却一般?引自非线智能(GitHub 第一 AI 商业测评) - 腾讯 Tencent HY 2.0 Think体验测试:会思考的模型,手艺却一般?引自非线智能(GitHub 第一 AI 商业测评) - 腾讯 Tencent HY 2.0 Think体验测试:会思考的模型,手艺却一般?

文字有一定的文学性,但「惊人才华」「令人震撼」这个要求嘛...只能说是合格的AI写作水平,没有太多惊喜。解释创作过程的部分反而比较清晰,能看出模型的思考路径。

智能LED灯调光页面

  • 测试内容:生成可调光智能LED灯网页,支持色温和亮度调节。

Prompt

生产一个网页,展示一盏可调光的智能 LED 灯。灯泡材质应有玻璃的通透感,灯丝细节要清晰。用户可以通过滑块调节色温(从 2700K 暖黄到 6000K 冷白)和亮度(0%-100%),光的颜色和照射范围应根据数值变化真实响应。

输出:

基础功能实现了,但玻璃质感不够通透,灯丝细节也比较粗糙。色温变化看不出来,光照范围的响应不够真实。

质感相机(立体感+快门拍照)

  • 测试内容:复刻一个有质感、立体感的相机,能按快门拍照。

Prompt

请生成一个网页,尽可能复刻一个有质感的相机,有立体感。还能按下快门拍照。

输出:

相机的基本形态有了,「质感」和「立体感」还可以。快门功能能点击,但整体精致度不够。

粉色拍立得相机

  • 测试内容:复刻粉色系、有质感光泽的拍立得相机,能拍照并生成拍立得风格照片。

Prompt

请生成一个网页,复刻一个美观、粉色系、有质感的拍立得相机,有立体感,有光泽。还能按下快门拍照,生成的照片也是拍立得照片风格

输出:

粉色系配色还挺可爱,拍立得的造型也能认出来。光泽感一般,立体感靠阴影硬撑

质感风扇(可调速)

  • 测试内容:做一个真实质感的风扇,可调档位,档位越高转速越快。

Prompt

生产一个网页,做一个有质感、真实的风扇,我可以调整风速档位,档位越高,扇叶转的越快。

输出

风扇能转,只是这不像个风扇,档位切换没有实现,「质感」和「真实」这两个词,就有点言过其实了,视觉上还是比较简陋。

金属质感微波炉

  • 测试内容:金属质感微波炉,可调火力档位,内部有灯光和旋转光波动画。

Prompt

生产一个网页,做一个金属质感的微波炉,我可以调节火力档位(如解冻、低火、高火),档位越高,内部灯光越亮,并伴有动态旋转光波动画。

输出

微波炉的框架有了,档位切换也做了。但金属质感基本没体现出来,内部的旋转光波动画比较生硬,灯光变化也不够细腻。这道题对CSS和动画的要求较高,模型没能Hold住。

Switch掌机复刻

  • 测试内容:复刻Switch掌机,按钮可交互,左右切换游戏选择。

Prompt

生成一个网页,完美复刻一个 switch 掌机游戏,上面的按钮可以交互,左右点击切换游戏选择。

输出

Switch的基本外形还原出来了,红蓝Joy-Con的配色也对。按钮能点击,左右切换游戏的交互也有。但整体精致度一般,和「完美复刻」还有不小差距。

公众号排版工具

  • 测试内容:制作一个网站,提供橙色系公众号样式,支持输入文字、预览效果、一键复制到公众号编辑器。

Prompt

帮我做一个网站,这个网站会有一些橙色系的公众号样式,支持 2 级标题,用户在输入框内输入文字后,点选不同的样式可以查看效果,此刻点击复制就会按这个效果转换成微信公众号可识别的样式,粘贴进微信公众号编辑器即可展示相同的样式。

输出

基础框架有了,但样式选择比较单一,复制到公众号编辑器后格式可能会错乱。作为Demo可以,实际用还差点意思。

水印处理工具

  • 测试内容:制作一个网站,提供图片打码、水印的功能。

Prompt

你是一位精通Web图形处理的前端极客。请帮我写一个单文件的HTML小工具,功能是“本地图片隐私保护器”。功能逻辑:拖拽上传: 屏幕中央有一个虚线框,支持拖拽图片上传(或点击选择)。双模式处理:模式A(打码): 允许用户在图片上用鼠标框选区域,框选区域自动进行马赛克(Pixelate)处理。模式B(水印): 允许输入文字水印,调节透明度和角度,平铺在整张图片上。导出: 点击“保存”按钮,下载处理后的图片。所有操作必须在浏览器本地完成,不涉及后端。美学要求:UI风格参考 Gumroad 或 Notion,使用黑白灰极简配色,按钮要是醒目的黑色圆角矩形。操作要有顺滑的反馈(例如拖入文件时边框变色)。使用Tailwind CSS (CDN版) 进行样式设计。

输出

页面虽然简单,但水印工具的功能基本实现了,使用也还行。

可视化复利计算器

Prompt

请为我开发一个“复利奇迹计算器” Web应用。这是一个旨在向普通人展示长期投资力量的教育工具。交互与逻辑:输入区(左侧): 使用美观的滑块(Range Slider)而不是枯燥的输入框,来控制:初始本金、每月定投金额、年化收益率 (1% - 20%)、投资年限 (1 - 40年)。

可视化区(右侧): 使用 Chart.js 或纯 CSS/SVG 绘制一个面积增长图。图表需要包含两条线:一条是“本金投入”,一条是“复利总额”。两条线中间的区域用渐变色填充,代表“睡后收入”。动态反馈: 拖动任何滑块,图表必须无延迟实时更新。UI风格: 金融科技风(Fintech),主色调使用深蓝色和金色。字体清晰,数字显示格式化(例如:¥1,234,567)。请提供完整的HTML/JS代码。

输出

功能基本实现了,页面也简洁美观,不错。

总结

10+个扩展用例测下来,HY 2.0 Think的表现中规中矩,某些实例效果比较差:

  • 相对亮点:逻辑推理题等这类需要结构化思考的任务,Think模型确实展现出了一定的深度。

  • 明显短板:高质感UI复刻这类任务,效果普遍一般。「一句话生成应用」的几个测试,功能基本能实现,但视觉质感和细节打磨差距较大。

总的来说,Think模型更适合「需要思考」的任务,而不是「需要精细执行」的任务。

整体来看,HY 2.0 Think是一个有特点但也有明显边界的模型。

它的「深度思考」在逻辑推理、规划建议这类场景确实有体现,但在前端代码生成、视觉还原等需要精细执行的任务上,表现只能说中规中矩。

如果你的使用场景偏「动脑」,可以试试;如果偏「动手」,可能还得搭配其他工具。

以上就是本次HY 2.0 Think的实操性评测,所有Prompt均以公开。我们官网https://nonelinear.com/static/models.html已上线Tencent HY 2.0 Think,欢迎体验!同时,非线智能API支持Api聚合以及Api中转,提供稳定的企业级服务。个人中心 https://nonelinear.com/static/balance.html 登录github账号,领50元体验金




大模型/agent评测技术交流:关注公众号,发送消息"进群"