一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

我們正在開源 CoderForge-Preview — 258K 測試驗證的編碼代理軌跡（155K 通過 | 103K 失敗）。在通過的子集上微調 Qwen3-32B 提升了 SWE-bench 驗證：23.0% → 59.4% pass@1，並且在開放數據模型中排名第 #1，參數 ≤32B。數據生成管道的討論 🧵

我們結合並過濾了三個開放任務來源 → 51K 任務來自 1,655 個倉庫： - R2E-Gym: 4,216 任務 (9 個倉庫) - SWE-Smith: 37,221 任務 (124 個倉庫) - SWE-Rebench: 9,764 任務 (1,577 個倉庫)

軌跡生成設置： - 教師：Qwen3-Coder-480B - 支架：OpenHands v0.52.1 - 工具：bash 執行、文件編輯、推理、完成 - 取樣：溫度 0.7，top_p 0.8，最大標記 32,768 - 每個任務的多條軌跡（R2E‑Gym/SWE‑Rebench 8 條，SWE‑Smith 4 條） - 過濾：對於我們的 SFT 實驗，我們僅保留通過測試的軌跡

(過濾 + “測試驗證”): 過濾：我們保留最終補丁通過 repo 測試的軌跡。這樣總共產生 258,134 條軌跡，其中 155,144 條通過測試用於 SFT。我們還排除與 SWE-bench 驗證的 (repo, commit) 或問題描述重疊的任務，以進行去污染。

規模 + 效率： 15.6M API 完成次數 452B 提示令牌 2.9B 輸出令牌 90% 快取命中率預估成本：≈$130K

訓練基礎設施：基礎：Qwen3-32B 64x H100（8個節點） FSDP2 + Ulysses序列並行 Flash Attention 2 + 梯度檢查點序列打包

SWE-bench 驗證結果 (500 個問題)： CoderForge-Preview-32B: 59.4% pass@1, 78.56% pass@16 CoderForge-Preview-4B: 43.0% pass@1

限制：所有軌跡來自同一個支架/工具堆疊，主要是錯誤修正任務，且沒有中途用戶協作，因此轉移到其他支架/工具或互動設置的可能性可能會下降。接下來：擴大數據生成（生成更多任務和軌跡），使用多個支架/工具/提示變體，並超越SFT進行自主強化學習。

我們發布了數據集和評估痕跡： - 數據： - 痕跡： - 博客：恭喜 @AlpayAriyak, @QingyangWu1, 和 @ZhongzhuZhou!!

119