私たちはOpen-sourcing CoderForge-Preview — 258K test-verified coding-agent trajectories (155K pass | 103K fail). 通過部分集合でQwen3-32Bを微調整するとSWEベンチが強化されます。検証済み:23.0%→59.4%のpass@1、オープンデータモデル≤32Bパラメータで#1位にランクされています。 データ生成パイプライン🧵上のスレッド
私たちは、1,655リポジトリから51,000件のタスク→3つのオープンタスクソースを統合・フィルタリングしました。 - R2E-ジム:4,216タスク(9レポ) - SWE-Smith:37,221タスク(124リポジトリ) - SWE-Rebench:9,764タスク(1,577リポジトリ)
軌道生成セットアップ: - 教師:Qwen3-Coder-480B - スキャフォールド:OpenHands v0.52.1 - ツール:bash実行、ファイル編集、推論、完了 - サンプリング:温度0.7、top_p 0.8、max_tokens 32,768 - タスクごとに複数の軌道(R2E-ジム/SWE-リベンチ用8条、SWE-Smith用4条) - フィルタリング:SFT実験では、テストに合格した軌跡のみを保持します
(フィルタリング+「テスト検証済み」): フィルタリング:最終パッチがリポジトリテストに合格した軌跡を保持します。これにより合計258,134回の軌道が得られ、そのうち155,144回がSFTにテストパスが使用されました。 また、SWE-benchの重複作業は除外しています。(リポジトリ、コミット、または除染のための説明文で検証)。
スケール+効率: 1,560万件のAPI完了件数 452Bプロンプトトークン 2.9億出力トークン キャッシュヒット率90% 推定費用:≈$130,000
トレーニングインフラ: 基地:Qwen3-32B 64台のH100(8ノード) FSDP2 + ユリシーズ列並列性 フラッシュ・アティショナル2+グラデーションチェックポイント シーケンスパッキング
SWE-bench Verified(500発行)の結果: CoderForge-Preview-32B:59.4%pass@1、78.56%pass@16 CoderForge-Preview-4B: 43.0% pass@1
制限点:すべての軌道は一つの足場/ツールスタックから生まれ、主にバグ修正作業が行われ、途中のユーザー協力がないため、他の足場やツール、インタラクティブな設定への移行が途切れることがあります。 次に、データ生成を拡大(より多くのタスクや軌跡を生成)、複数の足場やツール、プロンプトの組み合わせを使い、エージェント型強化学習(Agentic RL)でSFTを超えて進めましょう。
データセットと評価のトレースを公開します: - データ: - トレース: - ブログ: @AlpayAriyak、@QingyangWu1、そして@ZhongzhuZhouさん、おめでとうございます!!
87