我們正在開源 CoderForge-Preview — 258K 測試驗證的編碼代理軌跡(155K 通過 | 103K 失敗)。 在通過的子集上微調 Qwen3-32B 提升了 SWE-bench 驗證:23.0% → 59.4% pass@1,並且在開放數據模型中排名第 #1,參數 ≤32B。 數據生成管道的討論 🧵
我們結合並過濾了三個開放任務來源 → 51K 任務來自 1,655 個倉庫: - R2E-Gym: 4,216 任務 (9 個倉庫) - SWE-Smith: 37,221 任務 (124 個倉庫) - SWE-Rebench: 9,764 任務 (1,577 個倉庫)
軌跡生成設置: - 教師:Qwen3-Coder-480B - 支架:OpenHands v0.52.1 - 工具:bash 執行、文件編輯、推理、完成 - 取樣:溫度 0.7,top_p 0.8,最大標記 32,768 - 每個任務的多條軌跡(R2E‑Gym/SWE‑Rebench 8 條,SWE‑Smith 4 條) - 過濾:對於我們的 SFT 實驗,我們僅保留通過測試的軌跡
(過濾 + “測試驗證”): 過濾:我們保留最終補丁通過 repo 測試的軌跡。這樣總共產生 258,134 條軌跡,其中 155,144 條通過測試用於 SFT。 我們還排除與 SWE-bench 驗證的 (repo, commit) 或問題描述重疊的任務,以進行去污染。
規模 + 效率: 15.6M API 完成次數 452B 提示令牌 2.9B 輸出令牌 90% 快取命中率 預估成本:≈$130K
訓練基礎設施: 基礎:Qwen3-32B 64x H100(8個節點) FSDP2 + Ulysses序列並行 Flash Attention 2 + 梯度檢查點 序列打包
SWE-bench 驗證結果 (500 個問題): CoderForge-Preview-32B: 59.4% pass@1, 78.56% pass@16 CoderForge-Preview-4B: 43.0% pass@1
限制:所有軌跡來自同一個支架/工具堆疊,主要是錯誤修正任務,且沒有中途用戶協作,因此轉移到其他支架/工具或互動設置的可能性可能會下降。 接下來:擴大數據生成(生成更多任務和軌跡),使用多個支架/工具/提示變體,並超越SFT進行自主強化學習。
我們發布了數據集和評估痕跡: - 數據: - 痕跡: - 博客: 恭喜 @AlpayAriyak, @QingyangWu1, 和 @ZhongzhuZhou!!
119