Qwen3真香！通义App满血接入，一手实测在此

人脑网 • 2025年4月30日下午3:26 • 智能 • 阅读 15

开源大模型新王者，正在受到空前关注。

Qwen3预告一出，直接开启不眠夜模式。

△来自编辑部本部

等到深夜正式上线并宣布登顶全球最强开源模型，更是瞬间引爆全网热议。

网友们的反应在meme中尽数体现（doge）。

毕竟，单看纸面参数，Qwen3就是个妥妥的大工程：

8款混合推理模型全部开源，参数量从0.6B235B全面覆盖；
32B模型就有超越OpenAI o1、DeepSeek R1的性能表现，在编程基准测评中还超过了风头正盛的Gemini 2.5 Pro；
支持思考和非思考模式，支持119种语言和方言、加强对MCP支持……

还有网友认为，这是“又一个DeepSeek时刻”。

这一次模型开源，通义App和网页版也赶在第一时间满血上线Qwen3，并且有专属智能体体验。

新王究竟表现如何，我们第一时间深度实测，以见真章。

Qwen3住进App，还能这样玩儿

打开通义App/通义网页版首页，目前有两种方式可以体验到Qwen3模型：

直接用输入框对话（代码/数学/翻译类问题默认调用Qwen3-235B，其它问题不调用Qwen3）
选用“千问大模型”智能体（默认使用旗舰版Qwen3-235B-A22B）

BTW，通义网页版近期上线了新域名tongyi.com，不要走错。

OK，接下来进入正题。

官方强调了新模型在Agent、编码方面的能力提升，还增强了对MCP的支持。具体表现如何，我们直接在通义App里全方位实测。

第一关：代码生成

先来个新模型“入门挑战”——空间内弹小球。

这个经典测试在考验模型代码能力的同时，还重点关注了它对物理世界的理解，几乎每一个新模型都会被拉出来遛一遛。

提示词如下（p5.js脚本、25个粒子、圆柱形容器）：

而第一次接受挑战的旗舰版Qwen3模型，用时1分钟，唰唰唰就生成了一百多行代码：

将上述代码实际运行一下，结果be like：

虽然一眼看去没有“小球直接冲出圆圈”这样明显的错误，但也确实缺少3D空间感。

作为对比，我们拉出官方测评图中，和满血Qwen3代码实力最相近的Grok 3模型。

重复相同操作，让Grok 3基于同一提示词生成代码，并实际运行：

二者的区别相当明显，后者（Grok 3）的空间感肉眼可见更强。

为了进一步探究两段代码的差别，我们又直接让Qwen3“自己找找差距”（doge）。

结果，它真的很认真地进行了全方位对比，包括渲染模式、容器结构、粒子运动与碰撞测试等等。

最终结论也用表格进行了呈现，一目了然：

甚至，基于它提出的改进意见，我们继续让它出了一个新版本。

实际运行后，这次的结果已经非常符合我们的要求了。

事实上，深扒Qwen3的思考过程，我们才发现原来第一版的2D效果是它“深思熟虑”后的选择。

这里主要考虑到了兼容性问题，所以简化成了俯视图来呈现。

从上面这个简单测试，我们已经能够窥见Qwen3的程序员素养确实不错。

接下来难度升级，直接让它帮打工人设计一个提醒喝水的电脑端App。

注意，为了能快速在浏览器端预览生成效果，这里我们采用了“极简模式”，仅保留最基础的功能，不涉及使用任何第三方库。

结果生成的App有模有样，还能真实点击交互。

一旦让具备工程能力的童鞋们上手，估计能实现更多复杂效果。

第二关：逻辑推理

接下来我们考查一下Qwen3的逻辑推理能力。

老规矩，先上一道经典逻辑陷阱题：

在故意关闭联网模式后，Qwen3经过一步步推理最终给出了正确答案。

而且从Qwen3的思考过程能够看到，其思维方式和人类一样，是通过不断推翻各种方案来找出可行路径。

再来一道超高难度专业数学题。

原题来自今年的普特南数学竞赛，该竞赛号称最难本科数学考试，人类要考6小时，并且所选取的题目据称前500名选手均未能完整作答。

而扔给Qwen3后，可以看到整体的思考时间确实明显变长，最终用时5分38秒给出了正确答案。

p.s. 千问智能体无法直接上传图片，最终选择从App首页上传图片，提取文字后继续使用千问智能体作答。

更有趣的是，扒一扒其思考过程，还能看到模型在线表演“崩溃”：

当然，虽然AI的解读速度和正确率明显胜于人类，但还是要和同类来比。

在国外网友的测试中，同一道题Grok 3（Think）在约8分钟内找到了解决方案。

所以对比下来，这一局算Qwen3略胜一筹。

第三关：多语言能力

另外据介绍，Qwen3的一大亮点是支持119种语言和方言，被网友戏称“AI届多邻国”（doge）。

别的不说，直接让它来挑战一把国内专业译者的地位试试。

将莎士比亚《哈姆雷特》的经典选段丢给它，让它按照“信达雅”翻译成中文。

它还知道参考优秀译本，并且注意避免直接抄袭造成侵权。

最终生成的结果如下（左侧），对比我们熟知的朱生豪经典译本（右侧），你觉得AI味儿浓度如何？

第四关：赛博闺蜜、shopping比价、写歌一网打尽

除了以上更侧重模型基础能力的考查，当Qwen3被塞进App后，我们还解锁了更多玩法。

做旅游规划这种就不必多说了，关键还能充当“赛博闺蜜”，帮忙选择更适合发朋友圈的游客照。

日常也能用来购物比价，比如分析出当下最值得入手的3000元预算内平板。

不仅用表格清晰列出了各品牌的核心参数，还按照不同需求进行了推荐，一整个造福伸手党。

此外，最近火上热搜的“AI写歌”，我们也用Qwen3尝试了一把。

五一版·大张伟嗨歌这就新鲜出炉，光看歌词确实有内味儿了：

Okk，以上为我们的全部实测。

小结一下，通过在通义App使用Qwen3专属智能体，我们能明显感受到以下几点：

Qwen3旗舰模型的生成速度非常快，体验很丝滑；
模型擅长推理，能够解决经典逻辑陷阱和复杂数学题；
代码能力方面，已经能够快速实现一些简单需求；
由于载体是App，可拓展的玩法很多。

而且，通义App自上个月页面改版后，整体设计更简洁，交互也更加完善了。

更多网友实测

与此同时，随着Qwen3模型的爆火，更多网友也第一时间进行了试玩。

有和“空间内弹小球”类似效果的页面设计：

还有用阿拉伯语、法语和印地语解释爱因斯坦相对论的玩法，该博主声称：

当然，大家一直尤为钟爱的小游戏开发也安排上了：

开源界的新王者

Qwen3引发热议背后，可以看到的是，在开源影响力上，以Qwen为代表的国产大模型，已经有超越Llama之势。

这一点，从reddit LocalLLaMA等开发者聚集的板块的最新话题中，亦可见一斑。

不仅是基准评测数据的纸面超越，实测越多，模型实力究竟几何就越能被客观公允地认知。

而如今的开源格局之变，并非一蹴而就。前有DeepSeek，今有Qwen3，背后体现的是来自中国的开源力量一以贯之的努力，和一如既往的“中国速度”。

以Qwen为例：

2024年11月底，开源推理模型QwQ；

2025年春节档，连发Qwen2.5百万上下文版本、视觉理解模型Qwen2.5-VL，还有超大规模MoE模型Qwen-2.5 Max；

2025年3月，QwQ-32B以1/10成本比肩DeepSeek-R1；

多模态方面，还有万相Wan的持续开源和迭代……

这还只是短短5个月内的进展。

再加上更加开放和商用友好的Apache 2.0协议，开发者们的转向，自然在情理之中。

作为普通用户，一方面，可以在通义App这样的官方应用上更快感知到满血模型的能力。

另一方面，也可以期待开源，带来更多衍生应用的可能性。

那么，再次打开传送门：

tongyi.com

如果你探索到了什么新鲜玩法，也欢迎在评论区跟大家分享~

主题测试文章，只做测试使用。发布者：人脑网，转转请注明出处：https://www.rennao.com.cn/9908.html

赞 (0)

0 0

杭州机器人外网被刷爆！背灭火器冲火场、沙漠山地狂奔，浙大教授打造

上一篇 2025年4月30日下午3:26

10秒生成官网，WeaveFox重塑前端研发生产力 | 蚂蚁徐达峰

下一篇 2025年4月30日下午3:27

智能

搜索SEO被AI重塑，专业内容社区价值凸显 | 量子位智库报告

大模型颠覆传统搜索的风，已经吹到了商业化策略的层面。量子位智库最新报告发现： AI智能助手替代搜索的过程中，传统SEO也正在被重构。 SEO（Search Engine Optimization），即搜索引擎优化，是指通过优化网站和内容，来提高其在搜索引擎中自然排名，从而吸引更多流量的方法和策略。可以说，在互联网时代，SEO是搜索商业化环节中最基础、最重…

人脑网
2025年5月21日
7000
智能

支付宝推出“支付MCP Server”，魔搭、百宝箱等平台首发上线

随着大模型加速落地应用，打通AI系统与现有数字商业链的连接，成为行业关键命题。 4月15日，支付宝联合魔搭社区率先在国内推出“支付MCP Server”服务，让AI智能体一键接入支付能力，打通从AI服务到AI商业化的“最后一公里”。据测试，AI开发者可以使用自然语言接入支付宝支付服务，快速实现AI智能体内的支付。目前该产品在魔搭社区MCP广场、支付宝百宝箱…

人脑网
2025年4月15日
46000
智能

全球首个Linux开发本：50TOPS算力，DeepSeek已配好，可随地开发

不是你以为的AI PC，全球首个算力本——AIBOOK，它来了！要说跟AI PC最大的区别，那就是AIBOOK它内嵌的系统，就是程序员们搞开发最爱的Linux。而也因如此，它同时还解锁了“全球首个基于Linux的开发本”的头衔。当然，若是想用Windows搞开发，也可以一键切换云桌面，甚至可以通过Android容器支持安卓开发哦~ 最重要的是，在它50…

人脑网
2025年4月12日
50000
智能

AI连电路图都看不懂？SeePhys新基准暴击多模态短板，正确率仅55%

当前顶尖AI模型是否真能“看懂”物理图像？全谱系多模态物理推理新基准来了，结果SOTA级模型准确率都不足55% 新基准名为SeePhys，强调了图形感知对于模型认识和理解物理世界的重要性。内容涵盖经典与现代物理的各个知识等级和领域，包括从初中到博士资格考试的全谱系多模态物理问题它由中山大学、苏黎世联邦理工学院、华为诺亚方舟实验室和香港大学的研究团队联合…

人脑网
2025年5月29日
10000
智能

新版Claude曝光：“极限推理”成最大亮点

O家（OpenAI）刚免费上线GPT-4.1，A家（Anthropic）这边也被曝出新消息—— 新版Claude SonnetClaude Opus，已经在路上了！这一消息来自The Information，根据它的说法，新版模型最大的亮点，就是“极限推理”（Extreme reasoning）。简单来说，这个新功能是通过在推理和工具使用之间建立动态循环…

人脑网
2025年5月15日
9000

发表回复

联系我们

400-800-8888

在线咨询： QQ交谈

邮件：admin@example.com

工作时间：周一至周五，9:30-18:30，节假日休息

关注微信