新版DeepSeek-R1深夜整大活!编程能力暴涨,实测直逼Claude 4,网友玩疯直呼太强了

新版DeepSeek-R1深夜整大活!编程能力暴涨,实测直逼Claude 4,网友玩疯直呼太强了
人脑网
作者 李水青
编辑 云鹏

人脑网5月29日报道,今天凌晨,DeepSeek-R1-0528在Hugging Face上开源。

新版DeepSeek-R1深夜整大活!编程能力暴涨,实测直逼Claude 4,网友玩疯直呼太强了

地址:
https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main

此前昨日晚间,DeepSeek官方推送通知,R1模型已经完成小版本试升级,可在官方网站、APP、小程序测试(打开深度思考)体验。

新版DeepSeek-R1深夜整大活!编程能力暴涨,实测直逼Claude 4,网友玩疯直呼太强了

针对DeepSeek-R1-0528,DeepSeek尚未放出模型卡介绍更多功能。但多方用户体验后提到,DeepSeek-R1-0528在编程、逻辑推理、交互能力等方面均有显着提升。

已有开发者对DeepSeek-R1-0528进行了基准测试,称这是开源领域的重大胜利。代码测试平台Live CodeBench显示,其性能接近OpenAI在4月中旬发布的o4 mini和o3模型高版本

新版DeepSeek-R1深夜整大活!编程能力暴涨,实测直逼Claude 4,网友玩疯直呼太强了

▲DeepSeek-R1-0528性能接近o3模型高版本

测试地址:
https://livecodebench.github.io/leaderboard.html

同时有文本召回测试结果显示,32k以内文本DeepSeek-R1-0528比之前的R1要好不少,但是60k下降了不少。这意味着在32k以内针对给定的材料使用新R1提问让它回答的话,准确度会好不少。

新版DeepSeek-R1深夜整大活!编程能力暴涨,实测直逼Claude 4,网友玩疯直呼太强了

▲DeepSeek-R1-0528基于材料回复更准确

测试地址:
https://fiction.live/stories/Fiction-liveBench-May-22-2025/oQdzQvKHw8JyXbN87

多位开发者通过案例体验称,DeepSeek-R1-0528效果基本追平Claude 4,有些情况下表现更好。

“直接看效果, 我就提两点, 注意平面的橙色漫反射, 以及控制面板的美观程度。这俩是用同一个提示词一次性生成的,Claude 4 sonnet生成了542行, DeepSeek-R1-0528生成了728行。帧率和运动角度细节也值得关注。”一位开发者在X平台上称。

新版DeepSeek-R1深夜整大活!编程能力暴涨,实测直逼Claude 4,网友玩疯直呼太强了

▲DeepSeek-R1-0528与Claude 4 sonnet进行效果比较

有开发者让DeepSeek-R1-0528、Claude 4和DeepSeek-V3-0324在飞机大战游戏生成对比效果。新版R1在之前的基础上,自己新增了很多道具,画面也比之前更好了。

新版DeepSeek-R1深夜整大活!编程能力暴涨,实测直逼Claude 4,网友玩疯直呼太强了

▲开发者放出DeepSeek-R1-0528在飞机大战游戏程序的表现

此外,根据测试者反馈,DeepSeek-R1-0528能够一次性生成超千行无Bug代码,且在HTML/CSS/JS动态交互实现(如天气卡片动画、数据可视化)中更加精准。

DeepSeek-R1-0528在风格上更接近OpenAI o3,是目前开源大模型中性能顶尖的版本之一。有测试者认为,该版本的性能可能原本计划作为R2发布,但因竞争压力而以R1升级版形式推出。

来源:Hugging Face、X平台

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/17706.html

(0)
人脑网的头像人脑网
上一篇 2025年5月29日 下午3:29
下一篇 2025年5月29日 下午3:31

相关推荐

  • WWDC在即,苹果如何顶住AI压力?

    人脑网编译 ZeR0编辑 漠影 人脑网5月26日消息,即将于北京时间6月10日开幕的苹果年度全球开发者大会WWDC 2025,预计将发布全新iOS 19、macOS 16、iPadOS 19、watchOS 12、tvOS 19、visionOS 3六大操作系统,但据外媒报道,本届大会可能不会有太多重大AI新闻公布。 知名苹果爆料记者马克·古尔曼认为,在苹果…

    2025年5月26日
    500
  • 全球首次!拿下马拉松冠军的人形机器人,来自北京

    机器人前瞻(公众号:robot_pro)作者许丽思编辑漠影 机器人前瞻4月20日报道,昨天,备受瞩目的全球首场人形机器人半程马拉松在北京亦庄鸣枪开跑,由全国多家企业、高校和科研机构组成的20支人形机器人赛队需要完成了21.0975公里的赛程。 名为“小巨人队”但却是参赛队伍中最矮的人形机器人,在跑步时还不忘一边挥手回应观众。 有的人形机器人松弛地踱步前行,慢…

    2025年4月21日
    2500
  • 马斯克承认Optimus供应链遇挑战,竞争对手全部来自中国

    机器人前瞻(公众号:robot_pro)作者江宇编辑 漠影 机器人前瞻4月23日消息,特斯拉CEO埃隆·马斯克在4月22日财报电话会议上宣布,人形机器人Optimus项目将实现前所未有的规模化速度,目标直指年产数百万台。 具体规划显示,2025年底前将有数千台Optimus在特斯拉工厂投入生产作业,而2029至2030年间将达成年产100万台的里程碑。 目前…

    2025年4月23日
    1700
  • 全球首个人形机器人马拉松!宇树和众擎组队,参赛阵容太炸了

    机器人前瞻(公众号:robot_pro)编译 江宇编辑 漠影 机器人前瞻4月18日消息,2025年4月19日清晨,北京亦庄泡桐大道的紫桐花海下,一场跨越生物与机械界限的赛事即将启幕——全球首届“人机共跑半程马拉松”​。 这场赛事不仅是人类与机器人首次同赛道竞技的历史性时刻,更是全球顶尖机器人技术的“全景秀场”。来自中国、美国、日本等国的20余支人形机器人战队…

    2025年4月21日
    2400
  • 美国最新报告!DeepSeek成全球第二大AI实验室,OpenAI谷歌坐不住了

    人脑网作者 李水青编辑 云鹏 人脑网5月30日消息,今日,知名独立AI基准测试和分析机构Artificial Analysis发布报告并提到,DeepSeek凭借新版R1超越xAI、Meta和Anthropic,成为(与谷歌)并列的全球第二大AI实验室。报告一经分享,就在社交平台X上获得了超30万的浏览量以及大量网友讨论和转发。 在该机构提出的AI分析指数中…

    2025年5月30日
    100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信