熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我們正在開源 CoderForge-Preview — 258K 測試驗證的編碼代理軌跡(155K 通過 | 103K 失敗)。
在通過的子集上微調 Qwen3-32B 提升了 SWE-bench 驗證:23.0% → 59.4% pass@1,並且在開放數據模型中排名第 #1,參數 ≤32B。
數據生成管道的討論 🧵

我們結合並過濾了三個開放任務來源 → 51K 任務來自 1,655 個倉庫:
- R2E-Gym: 4,216 任務 (9 個倉庫)
- SWE-Smith: 37,221 任務 (124 個倉庫)
- SWE-Rebench: 9,764 任務 (1,577 個倉庫)
軌跡生成設置:
- 教師:Qwen3-Coder-480B
- 支架:OpenHands v0.52.1
- 工具:bash 執行、文件編輯、推理、完成
- 取樣:溫度 0.7,top_p 0.8,最大標記 32,768
- 每個任務的多條軌跡(R2E‑Gym/SWE‑Rebench 8 條,SWE‑Smith 4 條)
- 過濾:對於我們的 SFT 實驗,我們僅保留通過測試的軌跡
(過濾 + “測試驗證”):
過濾:我們保留最終補丁通過 repo 測試的軌跡。這樣總共產生 258,134 條軌跡,其中 155,144 條通過測試用於 SFT。
我們還排除與 SWE-bench 驗證的 (repo, commit) 或問題描述重疊的任務,以進行去污染。
規模 + 效率:
15.6M API 完成次數
452B 提示令牌
2.9B 輸出令牌
90% 快取命中率
預估成本:≈$130K
訓練基礎設施:
基礎:Qwen3-32B
64x H100(8個節點)
FSDP2 + Ulysses序列並行
Flash Attention 2 + 梯度檢查點
序列打包
SWE-bench 驗證結果 (500 個問題):
CoderForge-Preview-32B: 59.4% pass@1, 78.56% pass@16
CoderForge-Preview-4B: 43.0% pass@1
限制:所有軌跡來自同一個支架/工具堆疊,主要是錯誤修正任務,且沒有中途用戶協作,因此轉移到其他支架/工具或互動設置的可能性可能會下降。
接下來:擴大數據生成(生成更多任務和軌跡),使用多個支架/工具/提示變體,並超越SFT進行自主強化學習。
我們發布了數據集和評估痕跡:
- 數據:
- 痕跡:
- 博客:
恭喜 @AlpayAriyak, @QingyangWu1, 和 @ZhongzhuZhou!!
119
熱門
排行
收藏
