Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Мы открываем исходный код CoderForge-Preview — 258K тестируемых траекторий кодирующих агентов (155K успешных | 103K неуспешных).
Тонкая настройка Qwen3-32B на успешном подмножестве увеличивает SWE-bench Verified: 23.0% → 59.4% pass@1, и он занимает 1-е место среди моделей с открытыми данными ≤32B параметров.
Тред о процессе генерации данных 🧵

Мы объединили и отфильтровали три открытых источника задач → 51K задач из 1,655 репозиториев:
- R2E-Gym: 4,216 задач (9 репозиториев)
- SWE-Smith: 37,221 задач (124 репозитория)
- SWE-Rebench: 9,764 задач (1,577 репозиториев)
Настройка генерации траекторий:
- Учитель: Qwen3-Coder-480B
- Структура: OpenHands v0.52.1
- Инструменты: выполнение bash, редактирование файлов, рассуждение, завершение
- Выборка: температура 0.7, top_p 0.8, max_tokens 32,768
- Несколько траекторий на задачу (8 для R2E‑Gym/SWE‑Rebench, 4 для SWE‑Smith)
- Фильтрация: для наших экспериментов SFT мы оставляем только траектории, которые проходят тесты
(фильтрация + "test-verified"):
Фильтрация: мы сохраняем траектории, финальный патч которых проходит тесты репозитория. Это дает в итоге 258,134 общих траекторий, из которых 155,144 прошли тесты и использованы для SFT.
Мы также исключаем задачи, пересекающиеся с SWE-bench Verified по (репозиторию, коммиту) или описанию проблемы, чтобы избежать загрязнения.
Масштаб + эффективность:
15.6M завершений API
452B токенов запроса
2.9B токенов вывода
90% коэффициент попадания в кэш
Оценочная стоимость: ≈$130K
Инфраструктура обучения:
База: Qwen3-32B
64x H100 (8 узлов)
FSDP2 + последовательный параллелизм Улисса
Flash Attention 2 + контроль градиента
Упаковка последовательностей
Результаты на SWE-bench Verified (500 проблем):
CoderForge-Preview-32B: 59.4% pass@1, 78.56% pass@16
CoderForge-Preview-4B: 43.0% pass@1
Ограничения: все траектории исходят из одного каркаса/инструментального стека и в основном связаны с исправлением ошибок, без сотрудничества пользователей в процессе, поэтому перенос на другие каркасы/инструменты или интерактивные настройки может снизиться.
Следующее: увеличить объем генерации данных (создать больше задач и траекторий), использовать несколько каркасов/инструментов/пермутаций подсказок и выйти за рамки SFT с агентным RL.
Мы публикуем набор данных и следы оценки:
- Данные:
- Следы:
- Блог:
Поздравляем @AlpayAriyak, @QingyangWu1 и @ZhongzhuZhou!!
83
Топ
Рейтинг
Избранное
