新版DeepSeek-R1深夜整大活！编程能力暴涨，实测直逼Claude 4，网友玩疯直呼太强了

人脑网 • 2025年5月29日下午3:30 • 业界 • 阅读 7

人脑网
作者李水青
编辑云鹏

人脑网5月29日报道，今天凌晨，DeepSeek-R1-0528在Hugging Face上开源。

地址：
https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main

此前昨日晚间，DeepSeek官方推送通知，R1模型已经完成小版本试升级，可在官方网站、APP、小程序测试（打开深度思考）体验。

针对DeepSeek-R1-0528，DeepSeek尚未放出模型卡介绍更多功能。但多方用户体验后提到，DeepSeek-R1-0528在编程、逻辑推理、交互能力等方面均有显着提升。

已有开发者对DeepSeek-R1-0528进行了基准测试，称这是开源领域的重大胜利。代码测试平台Live CodeBench显示，其性能接近OpenAI在4月中旬发布的o4 mini和o3模型高版本。

▲DeepSeek-R1-0528性能接近o3模型高版本

测试地址：
https://livecodebench.github.io/leaderboard.html

同时有文本召回测试结果显示，32k以内文本DeepSeek-R1-0528比之前的R1要好不少，但是60k下降了不少。这意味着在32k以内针对给定的材料使用新R1提问让它回答的话，准确度会好不少。

▲DeepSeek-R1-0528基于材料回复更准确

测试地址：
https://fiction.live/stories/Fiction-liveBench-May-22-2025/oQdzQvKHw8JyXbN87

多位开发者通过案例体验称，DeepSeek-R1-0528效果基本追平Claude 4，有些情况下表现更好。

“直接看效果, 我就提两点, 注意平面的橙色漫反射, 以及控制面板的美观程度。这俩是用同一个提示词一次性生成的，Claude 4 sonnet生成了542行, DeepSeek-R1-0528生成了728行。帧率和运动角度细节也值得关注。”一位开发者在X平台上称。

▲DeepSeek-R1-0528与Claude 4 sonnet进行效果比较

有开发者让DeepSeek-R1-0528、Claude 4和DeepSeek-V3-0324在飞机大战游戏生成对比效果。新版R1在之前的基础上，自己新增了很多道具，画面也比之前更好了。

▲开发者放出DeepSeek-R1-0528在飞机大战游戏程序的表现

此外，根据测试者反馈，DeepSeek-R1-0528能够一次性生成超千行无Bug代码，且在HTML/CSS/JS动态交互实现（如天气卡片动画、数据可视化）中更加精准。

DeepSeek-R1-0528在风格上更接近OpenAI o3，是目前开源大模型中性能顶尖的版本之一。有测试者认为，该版本的性能可能原本计划作为R2发布，但因竞争压力而以R1升级版形式推出。

来源：Hugging Face、X平台

主题测试文章，只做测试使用。发布者：人脑网，转转请注明出处：https://www.rennao.com.cn/17706.html