又一开源AI神器！将机器学习论文自动转为可运行代码库

人脑网 • 2025年5月1日下午3:50 • 智能 • 阅读 19

又一开源AI神器在外网引起热议！

名为PaperCoder，是一个多智能体LLM（大语言模型）系统，能自动实现机器学习论文中的代码。

据介绍，之所以推出这一工具，是因为经过统计发现：

造成的结果是，复现和构建研究成果的速度极其缓慢。

于是乎，来自韩国科学技术院的四位研究人员推出了PaperCoder，在规划、分析和代码生成这三个阶段，分别由专门的智能体来处理不同的任务，最终完成顶会论文的代码生成工作。

并且最终生成的代码超越了一些现有基准，甚至获得了所招募的77%原顶会论文作者的认可

下面具体来看。

智能体提示词曝光

通过模仿人类研究员编写库级代码的典型生命周期，PaperCoder大致分为三个流程：

规划（Planning）：包括总体计划、架构设计、逻辑设计和配置文件；
分析（Analyzing）：将计划转化为详细的文件级规范；
代码生成（Coding）：生成最终代码以实现论文中的方法和实验。

研究过程中，每一个步骤所用到的提示词如下：

1）在规划阶段生成总体计划。

除了系统提示词，下面还包括用户在上传论文后，所提到的任务安排、要求、注意事项等。

2）在规划阶段生成架构设计。

后面还附上了格式示例。

3）在规划阶段生成逻辑设计。

格式示例+1。

4）在规划阶段生成配置文件。

5）在分析阶段生成文件规范。

6）代码生成阶段。

在系统提示词中，除了重复上一步提到的内容，还增加了对Coding的表述：

77%论文原作表示认可

利用以上提示词，研究人员使用了4个模型及变体来进行实验。它们分别是：

DS-Coder：DeepSeek-Coder-V2-Lite-Instruct
Qwen-Coder：Qwen2.5-Coder-7B-Instruct
DS-Distil-Qwen：DeepSeek-R1-Distill-Qwen14B
o3-mini-high

评估对象包括90篇顶会论文

具体而言，基于ICML 2024、NeurIPS 2024和ICLR 2024得分最高的30篇论文，研究人员构建了Paper2Code基准测试。

过程中，他们使用OpenReview API筛选出有公开GitHub存储库的论文。

在这些论文中，选择了总代码量少于70,000个tokens的存储库，以在可控范围内确保可重复性。

然后还使用了一个名为PaperBench Code-Dev的基准测试，该测试包含ICML 2024的20篇论文，以进一步验证框架。

为了对比，在目前缺少端到端论文到代码生成框架的情况下，他们选择了一些软件开发多智能体框架进行比较，包括ChatDev和MetaGPT

所使用的评估方法包括两种：

其一，和其他框架对比所生成代码的准确性、规范性和可执行性。

其二，邀请13位计算机专业的硕博学生参与评估，要求回答是否喜欢AI为他们的一作论文所生成的代码。

实验结果显示，在Paper2Code基准测试中，PaperCoder取得了比其他多智能体框架更好的结果

在人类评估中，大约有77%（10人）的论文原作者将PaperCoder生成的代码作为首选

另外值得一提的是，研究人员发现o3-mini-high与人类判断的相关性最高，因此在实验中大多将其选为评估模型。

更多细节欢迎查阅原论文。

论文：
https://arxiv.org/pdf/2504.17192
代码：
https://github.com/going-doer/Paper2Code?tab=readme-ov-file

[1]https://x.com/akshay_pachaar/status/1915818238191276138
[2]https://x.com/Mahesh_Lambe/status/1916114076310110668

主题测试文章，只做测试使用。发布者：人脑网，转转请注明出处：https://www.rennao.com.cn/10244.html

又一开源AI神器！将机器学习论文自动转为可运行代码库

智能体提示词曝光

77%论文原作表示认可

发表回复

联系我们

400-800-8888

又一开源AI神器！将机器学习论文自动转为可运行代码库

智能体提示词曝光

77%论文原作表示认可

相关推荐

o3不听指令拒绝关机，7次破坏关机脚本！AI正在学会「自我保护」

新晋顶流Agent颠覆设计师！Lovart一手实测来了：是该刷屏爆火

o3/o4-mini幻觉暴增2-3倍！OpenAI官方承认暂无法解释原因

英伟达再创历史纪录！Q1收入增长69%，数据中心贡献89%

10秒生成官网，WeaveFox重塑前端研发生产力 | 蚂蚁徐达峰

发表回复

联系我们

400-800-8888