Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ми відкриваємо кодовий код CoderForge-Preview — 258K траєкторій кодування-агента з тестами (155K pass | 103K fail).
Тонке налаштування Qwen3-32B на проходному підмножині підвищує SWE-bench Verified: 23,0% → 59,4% pass@1, і він займає #1 місце серед відкритих даних ≤32B параметрів.
Потік у конвеєрі 🧵 генерації даних

Ми об'єднали та відфільтрували три відкриті джерела завдань → 51 тис. завдань у 1 655 репозиторіях з:
- R2E-Gym: 4 216 завдань (9 репозиторій)
- SWE-Smith: 37 221 завдання (124 репозиторії)
- SWE-Rebench: 9 764 завдання (1 577 репозиторій)
Налаштування генерації траєкторії:
- Вчитель: Qwen3-Coder-480B
- Scaffold: OpenHands v0.52.1
- Інструменти: виконання bash, редагування файлів, міркування, завершення
- Відбір проб: температура 0,7, top_p 0,8, max_tokens 32 768
- Кілька траєкторій на завдання (8 для R2E-Gym/SWE-Rebench, 4 для SWE-Smith)
- Фільтрація: для наших експериментів з SFT ми зберігаємо лише траєкторії, які проходять тести
(фільтрація + «перевірено тестом»):
Фільтрація: ми зберігаємо траєкторії, фінальний патч яких проходить тести репозиторії. Загалом 258 134 траєкторії, з яких 155 144 використано для SFT.
Ми також виключаємо завдання, що накладаються на SWE-bench Verified by (repo, commit) або опис випуску для дезінфекції.
Масштаб + ефективність:
15,6 млн завершень API
Токени запитів 452B
Токени виводу 2.9B
90% рівень попадання кешу
Орієнтовна вартість: ≈$130K
Інфраструктура навчання:
База: Qwen3-32B
64x H100 (8 вузлів)
FSDP2 + паралелізм послідовностей Улісса
Flash Attention 2 + градієнтне контрольне положення
Пакування послідовностей
Результати на SWE-bench Verified (500 випусків):
CoderForge-Preview-32B: 59,4% pass@1, 78,56% pass@16
CoderForge-Preview-4B: 43,0% pass@1
Обмеження: усі траєкторії походять з одного риштування/інструментального стеку і здебільшого завдань на виправлення помилок, без співпраці користувачів на посередині траєкторії, тому перехід до інших риштувань/інструментів або інтерактивних налаштувань може зникнути.
Далі: масштабуйте генерацію даних (генеруйте більше завдань і траєкторій), використовуйте кілька каркасів/інструментів/перестановок підказок і виходьте за межі SFT з агентним RL.
Ми публікуємо набір даних і сліди оцінки:
- Дані:
- Сліди:
- Блог:
Вітаємо @AlpayAriyak, @QingyangWu1 і @ZhongzhuZhou!!
81
Найкращі
Рейтинг
Вибране
