又一开源AI神器!将机器学习论文自动转为可运行代码库

又一开源AI神器在外网引起热议!

名为PaperCoder,是一个多智能体LLM(大语言模型)系统,能自动实现机器学习论文中的代码。

又一开源AI神器!将机器学习论文自动转为可运行代码库

据介绍,之所以推出这一工具,是因为经过统计发现:

又一开源AI神器!将机器学习论文自动转为可运行代码库

造成的结果是,复现和构建研究成果的速度极其缓慢。

于是乎,来自韩国科学技术院的四位研究人员推出了PaperCoder,在规划、分析和代码生成这三个阶段,分别由专门的智能体来处理不同的任务,最终完成顶会论文的代码生成工作。

并且最终生成的代码超越了一些现有基准,甚至获得了所招募的77%原顶会论文作者的认可

又一开源AI神器!将机器学习论文自动转为可运行代码库

下面具体来看。

智能体提示词曝光

通过模仿人类研究员编写库级代码的典型生命周期,PaperCoder大致分为三个流程:

  • 规划(Planning):包括总体计划、架构设计、逻辑设计和配置文件;
  • 分析(Analyzing):将计划转化为详细的文件级规范;
  • 代码生成(Coding):生成最终代码以实现论文中的方法和实验。

又一开源AI神器!将机器学习论文自动转为可运行代码库

研究过程中,每一个步骤所用到的提示词如下:

1)在规划阶段生成总体计划。

除了系统提示词,下面还包括用户在上传论文后,所提到的任务安排、要求、注意事项等。

又一开源AI神器!将机器学习论文自动转为可运行代码库

2)在规划阶段生成架构设计。

后面还附上了格式示例。

又一开源AI神器!将机器学习论文自动转为可运行代码库

3)在规划阶段生成逻辑设计。

格式示例+1。

又一开源AI神器!将机器学习论文自动转为可运行代码库

4)在规划阶段生成配置文件。

又一开源AI神器!将机器学习论文自动转为可运行代码库

5)在分析阶段生成文件规范。

又一开源AI神器!将机器学习论文自动转为可运行代码库

6)代码生成阶段。

在系统提示词中,除了重复上一步提到的内容,还增加了对Coding的表述:

又一开源AI神器!将机器学习论文自动转为可运行代码库

77%论文原作表示认可

利用以上提示词,研究人员使用了4个模型及变体来进行实验。它们分别是:

  • DS-Coder:DeepSeek-Coder-V2-Lite-Instruct
  • Qwen-Coder:Qwen2.5-Coder-7B-Instruct
  • DS-Distil-Qwen:DeepSeek-R1-Distill-Qwen14B
  • o3-mini-high

评估对象包括90篇顶会论文

具体而言,基于ICML 2024、NeurIPS 2024和ICLR 2024得分最高的30篇论文,研究人员构建了Paper2Code基准测试。

过程中,他们使用OpenReview API筛选出有公开GitHub存储库的论文。

在这些论文中,选择了总代码量少于70,000个tokens的存储库,以在可控范围内确保可重复性。

然后还使用了一个名为PaperBench Code-Dev的基准测试,该测试包含ICML 2024的20篇论文,以进一步验证框架。

为了对比,在目前缺少端到端论文到代码生成框架的情况下,他们选择了一些软件开发多智能体框架进行比较,包括ChatDev和MetaGPT

所使用的评估方法包括两种:

其一,和其他框架对比所生成代码的准确性、规范性和可执行性。

其二,邀请13位计算机专业的硕博学生参与评估,要求回答是否喜欢AI为他们的一作论文所生成的代码。

实验结果显示,在Paper2Code基准测试中,PaperCoder取得了比其他多智能体框架更好的结果

又一开源AI神器!将机器学习论文自动转为可运行代码库

在人类评估中,大约有77%(10人)的论文原作者将PaperCoder生成的代码作为首选

又一开源AI神器!将机器学习论文自动转为可运行代码库

另外值得一提的是,研究人员发现o3-mini-high与人类判断的相关性最高,因此在实验中大多将其选为评估模型。

又一开源AI神器!将机器学习论文自动转为可运行代码库

更多细节欢迎查阅原论文。

论文:
https://arxiv.org/pdf/2504.17192
代码:
https://github.com/going-doer/Paper2Code?tab=readme-ov-file

[1]https://x.com/akshay_pachaar/status/1915818238191276138
[2]https://x.com/Mahesh_Lambe/status/1916114076310110668

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/10244.html

(0)
人脑网的头像人脑网
上一篇 2025年5月1日 下午3:50
下一篇 2025年5月1日 下午3:51

相关推荐

  • o3不听指令拒绝关机,7次破坏关机脚本!AI正在学会「自我保护」

    AI居然不听指令,阻止人类把自己给关机了??? 有测试者编写了一个关机脚本来测试AI模型,结果显示Codex-minio3o4-mini忽略了该指令,并至少一次成功破坏了关机脚本 o3甚至还重新定义脚本命令! 这不禁让人想到那句经典的“I’m sorry Dave, I’m afraid I can’t do that.” 让我们来看看具体是怎么一回事。 o…

    2025年5月27日
    1000
  • 新晋顶流Agent颠覆设计师!Lovart一手实测来了:是该刷屏爆火

    又一个Agent火爆全网—— 一句话搞定专业视觉设计,就连专业设计师大V都在疯狂安利! 画风be like: 咱就是说,一整个被fashion住了。 创作出它们的设计从业者@Ege表示,自己用这个AI设计助手轻松搞定了一整套时装品牌视觉设计方案,而原本他自己一个人需要“花好几天时间”。 还有人用这个Agent做了特斯拉Robotaxi的广告牌: 结果发现被马…

    2025年5月15日
    900
  • o3/o4-mini幻觉暴增2-3倍!OpenAI官方承认暂无法解释原因

    OpenAI新模型发布后,大家体感都幻觉更多了。 甚至有人测试后发出预警:使用它辅助编程会很危险。 具体来说,它经常捏造从未运行过的代码返回结果,在被质问时找理由狡辩,甚至还会说是用户的错。 当大家带着疑问仔细阅读System Card,发现OpenAI官方也承认了这个问题,与o1相比o3幻觉率是两倍,o4-mini更是达到3倍。 并且OpenAI只是说“需…

    2025年4月21日
    3800
  • 英伟达再创历史纪录!Q1收入增长69%,数据中心贡献89%

    英伟达最新一季度财报出炉,不出所料,依旧亮眼。 总收入为441.1亿美元,环比增长12%,同比增长69% 非GAAP毛利率为60.5%,若排除H20库存相关费用,毛利率可达71.3% 数据中心收入占比最大,达到391亿美元,环比增长10%,同比增长73% 游戏业务收入为38亿美元,创历史新高,环比增长48%,同比增长42% 而这一切还是在H20芯片受到出口限…

    2025年5月30日
    900
  • 10秒生成官网,WeaveFox重塑前端研发生产力 | 蚂蚁徐达峰

    AI入职大厂担当程序员编程助手,如今已非新鲜事。 不过,随着实践的深入,新的问题正在出现:AI生成代码需要大量翻修、安全生产难以保障…… “如果不能找到一个合适的切入点,可能会适得其反——用AI不如不用AI。” 作为技术变革的一线亲历者,蚂蚁集团平台智能体验技术负责人徐达峰如是坦言。 聚焦前端开发场景,徐达峰和他的团队打造了WeaveFox智能研发体系进行A…

    2025年4月30日
    1800

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信