一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我们正在开源 CoderForge-Preview — 258K 测试验证的编码代理轨迹（155K 通过 | 103K 失败）。在通过子集上微调 Qwen3-32B 提高了 SWE-bench 验证：23.0% → 59.4% pass@1，并且在参数 ≤32B 的开放数据模型中排名第一。关于数据生成管道的讨论 🧵

我们结合并筛选了三个开放任务来源 → 51K 任务，来自 1,655 个仓库： - R2E-Gym: 4,216 任务 (9 个仓库) - SWE-Smith: 37,221 任务 (124 个仓库) - SWE-Rebench: 9,764 任务 (1,577 个仓库)

轨迹生成设置： - 教师：Qwen3-Coder-480B - 脚手架：OpenHands v0.52.1 - 工具：bash 执行、文件编辑、推理、完成 - 采样：温度 0.7，top_p 0.8，最大令牌 32,768 - 每个任务多个轨迹（R2E‑Gym/SWE‑Rebench 8 个，SWE‑Smith 4 个） - 过滤：对于我们的 SFT 实验，我们只保留通过测试的轨迹

（过滤 + “测试验证”）：过滤：我们保留最终补丁通过仓库测试的轨迹。这产生了258,134个总轨迹，其中155,144个通过测试用于SFT。我们还排除与SWE-bench重叠的任务，这些任务由（仓库，提交）或问题描述验证，以进行去污染。

规模 + 效率： 15.6M API 完成 452B 提示令牌 2.9B 输出令牌 90% 缓存命中率预计成本：≈$130K

训练基础设施：基础：Qwen3-32B 64个H100（8个节点） FSDP2 + Ulysses序列并行 Flash Attention 2 + 梯度检查点序列打包

SWE-bench 验证结果（500 个问题）： CoderForge-Preview-32B: 59.4% pass@1, 78.56% pass@16 CoderForge-Preview-4B: 43.0% pass@1

限制：所有轨迹均来自一个支架/工具堆栈，主要是错误修复任务，没有中途用户协作，因此转移到其他支架/工具或互动设置时可能会下降。接下来：扩大数据生成（生成更多任务和轨迹），使用多个支架/工具/提示排列，并超越SFT进行自主强化学习。

我们发布了数据集和评估轨迹： - 数据： - 轨迹： - 博客：恭喜 @AlpayAriyak, @QingyangWu1, 和 @ZhongzhuZhou!!