我们正在开源 CoderForge-Preview — 258K 测试验证的编码代理轨迹(155K 通过 | 103K 失败)。 在通过子集上微调 Qwen3-32B 提高了 SWE-bench 验证:23.0% → 59.4% pass@1,并且在参数 ≤32B 的开放数据模型中排名第一。 关于数据生成管道的讨论 🧵
我们结合并筛选了三个开放任务来源 → 51K 任务,来自 1,655 个仓库: - R2E-Gym: 4,216 任务 (9 个仓库) - SWE-Smith: 37,221 任务 (124 个仓库) - SWE-Rebench: 9,764 任务 (1,577 个仓库)
轨迹生成设置: - 教师:Qwen3-Coder-480B - 脚手架:OpenHands v0.52.1 - 工具:bash 执行、文件编辑、推理、完成 - 采样:温度 0.7,top_p 0.8,最大令牌 32,768 - 每个任务多个轨迹(R2E‑Gym/SWE‑Rebench 8 个,SWE‑Smith 4 个) - 过滤:对于我们的 SFT 实验,我们只保留通过测试的轨迹
(过滤 + “测试验证”): 过滤:我们保留最终补丁通过仓库测试的轨迹。这产生了258,134个总轨迹,其中155,144个通过测试用于SFT。 我们还排除与SWE-bench重叠的任务,这些任务由(仓库,提交)或问题描述验证,以进行去污染。
规模 + 效率: 15.6M API 完成 452B 提示令牌 2.9B 输出令牌 90% 缓存命中率 预计成本:≈$130K
训练基础设施: 基础:Qwen3-32B 64个H100(8个节点) FSDP2 + Ulysses序列并行 Flash Attention 2 + 梯度检查点 序列打包
SWE-bench 验证结果(500 个问题): CoderForge-Preview-32B: 59.4% pass@1, 78.56% pass@16 CoderForge-Preview-4B: 43.0% pass@1
限制:所有轨迹均来自一个支架/工具堆栈,主要是错误修复任务,没有中途用户协作,因此转移到其他支架/工具或互动设置时可能会下降。 接下来:扩大数据生成(生成更多任务和轨迹),使用多个支架/工具/提示排列,并超越SFT进行自主强化学习。
我们发布了数据集和评估轨迹: - 数据: - 轨迹: - 博客: 恭喜 @AlpayAriyak, @QingyangWu1, 和 @ZhongzhuZhou!!
97