トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
私たちはOpen-sourcing CoderForge-Preview — 258K test-verified coding-agent trajectories (155K pass | 103K fail).
通過部分集合でQwen3-32Bを微調整するとSWEベンチが強化されます。検証済み:23.0%→59.4%のpass@1、オープンデータモデル≤32Bパラメータで#1位にランクされています。
データ生成パイプライン🧵上のスレッド

私たちは、1,655リポジトリから51,000件のタスク→3つのオープンタスクソースを統合・フィルタリングしました。
- R2E-ジム:4,216タスク(9レポ)
- SWE-Smith:37,221タスク(124リポジトリ)
- SWE-Rebench:9,764タスク(1,577リポジトリ)
軌道生成セットアップ:
- 教師:Qwen3-Coder-480B
- スキャフォールド:OpenHands v0.52.1
- ツール:bash実行、ファイル編集、推論、完了
- サンプリング:温度0.7、top_p 0.8、max_tokens 32,768
- タスクごとに複数の軌道(R2E-ジム/SWE-リベンチ用8条、SWE-Smith用4条)
- フィルタリング:SFT実験では、テストに合格した軌跡のみを保持します
(フィルタリング+「テスト検証済み」):
フィルタリング:最終パッチがリポジトリテストに合格した軌跡を保持します。これにより合計258,134回の軌道が得られ、そのうち155,144回がSFTにテストパスが使用されました。
また、SWE-benchの重複作業は除外しています。(リポジトリ、コミット、または除染のための説明文で検証)。
スケール+効率:
1,560万件のAPI完了件数
452Bプロンプトトークン
2.9億出力トークン
キャッシュヒット率90%
推定費用:≈$130,000
トレーニングインフラ:
基地:Qwen3-32B
64台のH100(8ノード)
FSDP2 + ユリシーズ列並列性
フラッシュ・アティショナル2+グラデーションチェックポイント
シーケンスパッキング
SWE-bench Verified(500発行)の結果:
CoderForge-Preview-32B:59.4%pass@1、78.56%pass@16
CoderForge-Preview-4B: 43.0% pass@1
制限点:すべての軌道は一つの足場/ツールスタックから生まれ、主にバグ修正作業が行われ、途中のユーザー協力がないため、他の足場やツール、インタラクティブな設定への移行が途切れることがあります。
次に、データ生成を拡大(より多くのタスクや軌跡を生成)、複数の足場やツール、プロンプトの組み合わせを使い、エージェント型強化学習(Agentic RL)でSFTを超えて進めましょう。
データセットと評価のトレースを公開します:
- データ:
- トレース:
- ブログ:
@AlpayAriyak、@QingyangWu1、そして@ZhongzhuZhouさん、おめでとうございます!!
87
トップ
ランキング
お気に入り
