热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我们正在开源 CoderForge-Preview — 258K 测试验证的编码代理轨迹(155K 通过 | 103K 失败)。
在通过子集上微调 Qwen3-32B 提高了 SWE-bench 验证:23.0% → 59.4% pass@1,并且在参数 ≤32B 的开放数据模型中排名第一。
关于数据生成管道的讨论 🧵

我们结合并筛选了三个开放任务来源 → 51K 任务,来自 1,655 个仓库:
- R2E-Gym: 4,216 任务 (9 个仓库)
- SWE-Smith: 37,221 任务 (124 个仓库)
- SWE-Rebench: 9,764 任务 (1,577 个仓库)
轨迹生成设置:
- 教师:Qwen3-Coder-480B
- 脚手架:OpenHands v0.52.1
- 工具:bash 执行、文件编辑、推理、完成
- 采样:温度 0.7,top_p 0.8,最大令牌 32,768
- 每个任务多个轨迹(R2E‑Gym/SWE‑Rebench 8 个,SWE‑Smith 4 个)
- 过滤:对于我们的 SFT 实验,我们只保留通过测试的轨迹
(过滤 + “测试验证”):
过滤:我们保留最终补丁通过仓库测试的轨迹。这产生了258,134个总轨迹,其中155,144个通过测试用于SFT。
我们还排除与SWE-bench重叠的任务,这些任务由(仓库,提交)或问题描述验证,以进行去污染。
规模 + 效率:
15.6M API 完成
452B 提示令牌
2.9B 输出令牌
90% 缓存命中率
预计成本:≈$130K
训练基础设施:
基础:Qwen3-32B
64个H100(8个节点)
FSDP2 + Ulysses序列并行
Flash Attention 2 + 梯度检查点
序列打包
SWE-bench 验证结果(500 个问题):
CoderForge-Preview-32B: 59.4% pass@1, 78.56% pass@16
CoderForge-Preview-4B: 43.0% pass@1
限制:所有轨迹均来自一个支架/工具堆栈,主要是错误修复任务,没有中途用户协作,因此转移到其他支架/工具或互动设置时可能会下降。
接下来:扩大数据生成(生成更多任务和轨迹),使用多个支架/工具/提示排列,并超越SFT进行自主强化学习。
我们发布了数据集和评估轨迹:
- 数据:
- 轨迹:
- 博客:
恭喜 @AlpayAriyak, @QingyangWu1, 和 @ZhongzhuZhou!!
97
热门
排行
收藏
