挤爆字节服务器的Agent到底啥水平?一手实测来了

“字节版Manus”有多能打?量子位实测在此。

挤爆字节服务器的Agent到底啥水平?一手实测来了

△扣子智能体生成的活动介绍网页

我们用光了一天的对话额度,考验了扣子空间(Coze Space)的信息整理、任务执行、工具调用等多项技能。

结果,仍处在早期测试中的扣子空间整体表现已经相当惊艳,在自主任务规划和资料搜集方面表现不错,已经具备解决很多真实任务的潜力。

不过在指令遵循方面,还是比较“有自己的想法”。

挤爆字节服务器的Agent到底啥水平?一手实测来了

简单介绍一下,扣子空间是字节在刚刚过去的周末推出的智能体协作系统,官方主打“你和AI Agent协同办公的最佳场所”。

由于放出来的demo效果惊艳,过去几天里还出现了挤爆服务器的场面。

挤爆字节服务器的Agent到底啥水平?一手实测来了

而第一波拿到邀请码的幸运儿,在体验后也第一时间分享了使用感受:

挤爆字节服务器的Agent到底啥水平?一手实测来了

挤爆字节服务器的Agent到底啥水平?一手实测来了

当然,作为幸运儿之一,我们也赶紧进行了一波实测。

有脑有手的通用智能体

扣子平台的通用智能体,分成了探索和规划两种模式,官方的介绍是这样的:

挤爆字节服务器的Agent到底啥水平?一手实测来了

实际用下来的话,探索模式更注重效率,而规划模式则会对任务进行详细拆分,条理更加清晰。

自动整理搜集信息,一句话制作网页/PPT

先来看探索模式,我们让它整理了一下波音747系列飞机的发展历程。

可以看到,智能体根据给出的话题自行扩展延伸了许多搜索词并执行了检索,最后形成了一份文字报告。

挤爆字节服务器的Agent到底啥水平?一手实测来了

利用整理好的资料,可以直接制作出一个网页(或者PPT也可以),页面包含了比较丰富的内容,排布简洁,美观性也说得过去。

挤爆字节服务器的Agent到底啥水平?一手实测来了

并且除了文字内容,生成网页时智能体还补充了产量统计图和关键时间线。

挤爆字节服务器的Agent到底啥水平?一手实测来了

有脑还有手,自主规划执行任务

在规划模式下,扣子智能体不仅会整理资料,还支持在虚拟沙盒环境中操纵电脑、浏览网页,执行订票等操作。

比如我们让它帮忙订一张明天(23日)下午从北京到上海的高铁票。

比较有意思的是,智能体一开始的动作是搜索高铁票该怎么订,不清楚是模型自己真的不知道,还是这里强制设定了检索过程,但总之,如果真遇到不会的技能,通过检索来弥补也不失为一种策略。

挤爆字节服务器的Agent到底啥水平?一手实测来了

12306平台需要登录才能进行订票,智能体能够准确识别到这种状况,并提示我们手动接管。

挤爆字节服务器的Agent到底啥水平?一手实测来了

不过,可能是沙盒环境受到了限制,在执行检索之后页面并未显示结果,因此整个流程未能顺利完成。

挤爆字节服务器的Agent到底啥水平?一手实测来了

但从智能体的操作过程来看,网页信息识别和规划执行能力已经很不错了。

接入MCP,智能体不再“孤军奋战”

除此之外,扣子也支持MCP协议,并接入了飞书文档、GitHub、MySQL数据库、天气、地图等一系列MCP应用。

挤爆字节服务器的Agent到底啥水平?一手实测来了

于是结合MCP,我们来整个大活。

上周,量子位中国AIGC产业峰会2025成功举行,我们将其会议流程和嘉宾信息整理到了一份文档当中,要求智能体将这些材料整理出一份网页版会议指南。

并且还调用了地图、天气和语音合成三个MCP插件,在网页中加入天气预报、交通指南和嘉宾介绍语音播报。

挤爆字节服务器的Agent到底啥水平?一手实测来了

可以看到,智能体首先利用工具从文档中提取出文本,然后通过MCP协议调取了天气、地图等信息。

挤爆字节服务器的Agent到底啥水平?一手实测来了

由于任务比较复杂,制作耗时也比较长,第一版成品长这样:

挤爆字节服务器的Agent到底啥水平?一手实测来了

这个版本,要求的内容都有呈现,但是活动流程没有遵循要求的格式,天气预报的日期也不对。

所以我们针对这两点要求智能体进行修改,修改的过程没有一步到位,而是经过了多轮调整。

以及到后面修改的过程才发现,扣子智能体一开始偷懒并没有合成嘉宾介绍的语音,只是在网页里放了按钮,单独指出之后才开始合成。

不过最终还是得到了符合期待的页面,该有的内容都正常展现,滑动和点击查看详情的功能都成功实现,合成的音频也能正常播放。

挤爆字节服务器的Agent到底啥水平?一手实测来了

虽然整体经历了不短的时间,但对于一个完全不懂网页制作的用户而言,扣子智能体已经很好地解决了工具有无的问题。

在时间上,一个可以改进的方向是让可以并行进行的任务同时进行,比如这个任务当中的语音合成实际上是独立于网页设计的,而智能体目前采用的是串行方式,带来了不少的额外耗时。

总结一下,作为一个通用智能体,扣子智能体的任务规划比较合理,资料搜集能力也表现不错,不过在指令遵循方面,还是比较“有自己的想法”。

当然作为通用智能体,优先考量是提升技能的丰富度,尽可能覆盖更多的任务,所以在具体任务细节上,也还有不少提升空间。

更懂行的专家智能体

所以,在通用Agent之外,扣子空间还提供了「专家模式」

Beta测试版首页,目前有两个专家Agent:

  • 用户研究专家:模型学习了字节资深用研专家、产品经理等分享的用研工作技巧;
  • 华泰A股观察助手:扣子团队与华泰证券联合孵化的Agent,让模型学习了如何分析上市公司和发展潜力等专业知识。

挤爆字节服务器的Agent到底啥水平?一手实测来了

我们实测下来发现,吸收了更多私人数据和第三方数据的专家Agent,在实用性方面确实大有提升,尤其在面对复杂任务过程中易出错的问题,它总是能自主发现错误并不断尝试更正。

不过由于涉及的领域确实比较专业,任务耗时也大大增加,类似股票分析的任务往往需要运行几十分钟。

以下为具体实测过程。

0产品经验也能做出完整用户调研

假如有一个新入行的产品经理,想要设计一个北京地区的户外活动APP,需要对用户需求进行调研。

尽管没有工作经验,也可以使用简单描述来生成一份用户访谈提纲。

挤爆字节服务器的Agent到底啥水平?一手实测来了

实测不到1分钟,这个Agent就生成了一份可下载的Markdown文档,10个问题基本覆盖了我们想要调研的需求。

挤爆字节服务器的Agent到底啥水平?一手实测来了

然后我们又继续在输入框中下达新指令:

从思考过程可以看到,面对一个比较模糊的需求,它能通过自主规划(设计约30个问题的调研问卷)进一步明确任务。

挤爆字节服务器的Agent到底啥水平?一手实测来了

而且评估其生成效果,从一名资深户外运动爱好者的角度来看,这份调研报告可谓非常完整——

7个大类、30个小问题,从用户基本信息到户外运动参与情况、活动信息与获取等等,均考虑到了。

挤爆字节服务器的Agent到底啥水平?一手实测来了

接下来,鉴于我们目前缺少真实问卷结果,所以又给它扔了个“麻烦”:

大约几分钟后,这个Agent自己生成了一份虚拟用户数据:

挤爆字节服务器的Agent到底啥水平?一手实测来了

横向标准项需要长时间拖动才能看完整,竖向共有100条数据:

挤爆字节服务器的Agent到底啥水平?一手实测来了

当然,过程中Agent也自己发现了错误,并多次尝试更正。

挤爆字节服务器的Agent到底啥水平?一手实测来了

挤爆字节服务器的Agent到底啥水平?一手实测来了

最终,基于虚拟数据,Agent确实生成了一份可下载的完整用户画像报告。

挤爆字节服务器的Agent到底啥水平?一手实测来了

整体而言,这个用户研究Agent具备问卷数据分析、访谈纪要总结、调研问卷生成、访谈提纲生成这四大能力,即使零产品经验也能通过持续对话实现自己的调研需求。

挤爆字节服务器的Agent到底啥水平?一手实测来了

每天都能收到专属股票早报

而另一个股票专家Agent,由于涉及的领域比较复杂,官网显示平均任务耗时为42分钟

挤爆字节服务器的Agent到底啥水平?一手实测来了

能做的事儿包括下面这些:

挤爆字节服务器的Agent到底啥水平?一手实测来了

这里我们简单测试了其早报生成功能。

支持选定3支关注的股票(这里就不具体展示选了哪些了),以及三个关注的板块,然后给出当日A股早报。

挤爆字节服务器的Agent到底啥水平?一手实测来了

有意思的是,相比之前的用户调研Agent,这个智能体则更加谨慎了,过程中还需要用户手动确认其阶段性完成情况,然后才继续执行。

挤爆字节服务器的Agent到底啥水平?一手实测来了

而且整个过程搜集了大量数据:

挤爆字节服务器的Agent到底啥水平?一手实测来了

不过比较遗憾的是,截至发稿前(已经跑了一个多小时),可能由于服务器资源问题,暂时没有跑出最终结果。

挤爆字节服务器的Agent到底啥水平?一手实测来了

挤爆字节服务器的Agent到底啥水平?一手实测来了

然而,从其他网友对该智能体的测试来看,据称效果惊艳。

挤爆字节服务器的Agent到底啥水平?一手实测来了

小结一下,相比通用Agent,专家Agent在实用性方面确实更胜一筹。

就产品的初步设计来看,和“扣子空间”这个名字相呼应,扣子团队希望打造一个“通用Agent和专家Agent协作的系统”。

不过按照扣子团队的长期设想,最终目标则还是打造一个开放的Agent系统——

当用户提出需求时,系统能自动调度最合适的一位或多位专家Agent协同完成任务。

而抛开长远不谈,仅就当下这个测试版扣子空间而言,得益于它在自主规划和任务驱动方面的加强,对于绝大多数实际情况,它已经是一个可以上手、能用的Agent系统了。

One More Thing

这一次,字节在扣子空间上还搞了一波“裂变玩法”。

我们实测过程中发现,在执行完第一个任务之后,还可以得到五个邀请码。

挤爆字节服务器的Agent到底啥水平?一手实测来了

并且当五个邀请码全部用完后,还能获得更多邀请资格。

所以相比其他家那种完全封闭的测试,扣子空间的体验资格也更容易获得。

挤爆字节服务器的Agent到底啥水平?一手实测来了

最后,有获得邀请码的童鞋来说说你的使用体验吗?

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/7488.html

(0)
人脑网的头像人脑网
上一篇 2025年4月23日 下午3:28
下一篇 2025年4月23日 下午3:30

相关推荐

  • 树莓派上流畅运行大模型!让终端具备自主学习与记忆能力

    2022年初,彼时OpenAI还未发布ChatGPT,RockAI就已经选择押注非Transformer路线。 这一在当时看来非主流的选择,如今正逐渐显现出前瞻性。 他们打造的端侧大模型已经可以在树莓派这样的微型设备上流畅运行,首批搭载Yan架构大模型的具身智能机器人也已经面世。 当下AI算力竞赛愈演愈烈之际,他们的“低算力”“群体智能”之路正在获得更多关注…

    2025年4月27日
    600
  • 整整157页,比尔盖茨亲自公开微软起家的源代码:Altair Basic

    一段时隔整整50年的源代码,更是让微软这家科技巨头起家的源代码,正式被公开了—— Altair Basic,整整157页,由比尔盖茨亲自撰文发布。 在文章的开头,比尔盖茨对于这段代码做了这样的高度总结: 毕竟涉及Basic这门古早编程语言,以及个人计算机的发展源头,网友们在看到比尔盖茨的分享之后,也是感慨不已。 有人这样点评到: 也有与现在AI大模型结合的感…

    2025年4月6日
    2000
  • 宝马秀起汽车科技来,哪有其他汽车什么事…

    这届上海车展,黑科技浓度爆表。 有人,有机器人 不光有地上跑的,也有天上飞的 还有“不归牛顿管”的:BMW新世代驾趣概念车。 科技正在改善出行,从内到外重塑出行工具,甚至改变了产品的展出方式。 电动车时代的出行应该是怎样的,舒适取向的车型扎堆上市,电动车时代如何获得驾驶乐趣,上海车展给出了最新答案。 上海车展的性能怪兽 上海车展越来越有想象力了,连展台都能如…

    2025年4月26日
    800
  • 医疗界迎来重磅大模型,还有10多个场景的智能体!

    在人工智能技术重塑全球产业格局的浪潮中,医疗健康领域正迎来一场深刻的变革。4月9日,在2025中国国际医疗器械展览会(CMEF)同期,由联影举办的uAInnovation2025创新大会圆满落幕,来自产学研医各界嘉宾代表齐聚一堂,围绕数智涌现的未来医疗生态蓝图共话时代新篇。复旦大学附属中山医院副院长、党委书记顾建英,河南省人民医院副院长王梅云,中山大学肿瘤防…

    2025年4月11日
    1400
  • 普通人也能用上超级智能体!实测100+MCP工具随便

    Agent赛道热闹非凡,周鸿祎力推的纳米AI搜索,体验上能有什么不一样? 首先,依然很“挤”,一不小心就会挤爆服务器。 但更进一步实测了一波之后,我们还是发现纳米AI搜索,不管从打开方式还是产品特点,其实都很“老周”…… 直接说结论—— 首先,它把MCP的使用门槛给打下来了。作为首个真正面向toC市场的MCP平台,普通人也能够真正体验到基于MCP的高阶智能体…

    2025年4月30日
    600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信