Мы открываем исходный код CoderForge-Preview — 258K тестируемых траекторий кодирующих агентов (155K успешных | 103K неуспешных). Тонкая настройка Qwen3-32B на успешном подмножестве увеличивает SWE-bench Verified: 23.0% → 59.4% pass@1, и он занимает 1-е место среди моделей с открытыми данными ≤32B параметров. Тред о процессе генерации данных 🧵
Мы объединили и отфильтровали три открытых источника задач → 51K задач из 1,655 репозиториев: - R2E-Gym: 4,216 задач (9 репозиториев) - SWE-Smith: 37,221 задач (124 репозитория) - SWE-Rebench: 9,764 задач (1,577 репозиториев)
Настройка генерации траекторий: - Учитель: Qwen3-Coder-480B - Структура: OpenHands v0.52.1 - Инструменты: выполнение bash, редактирование файлов, рассуждение, завершение - Выборка: температура 0.7, top_p 0.8, max_tokens 32,768 - Несколько траекторий на задачу (8 для R2E‑Gym/SWE‑Rebench, 4 для SWE‑Smith) - Фильтрация: для наших экспериментов SFT мы оставляем только траектории, которые проходят тесты
(фильтрация + "test-verified"): Фильтрация: мы сохраняем траектории, финальный патч которых проходит тесты репозитория. Это дает в итоге 258,134 общих траекторий, из которых 155,144 прошли тесты и использованы для SFT. Мы также исключаем задачи, пересекающиеся с SWE-bench Verified по (репозиторию, коммиту) или описанию проблемы, чтобы избежать загрязнения.
Масштаб + эффективность: 15.6M завершений API 452B токенов запроса 2.9B токенов вывода 90% коэффициент попадания в кэш Оценочная стоимость: ≈$130K
Инфраструктура обучения: База: Qwen3-32B 64x H100 (8 узлов) FSDP2 + последовательный параллелизм Улисса Flash Attention 2 + контроль градиента Упаковка последовательностей
Результаты на SWE-bench Verified (500 проблем): CoderForge-Preview-32B: 59.4% pass@1, 78.56% pass@16 CoderForge-Preview-4B: 43.0% pass@1
Ограничения: все траектории исходят из одного каркаса/инструментального стека и в основном связаны с исправлением ошибок, без сотрудничества пользователей в процессе, поэтому перенос на другие каркасы/инструменты или интерактивные настройки может снизиться. Следующее: увеличить объем генерации данных (создать больше задач и траекторий), использовать несколько каркасов/инструментов/пермутаций подсказок и выйти за рамки SFT с агентным RL.
Мы публикуем набор данных и следы оценки: - Данные: - Следы: - Блог: Поздравляем @AlpayAriyak, @QingyangWu1 и @ZhongzhuZhou!!
83