Гроші як скаляр оцінки означають: - Дії LLM стають ранжовими - Помилки мають вимірювані штрафи - Винагороди співмірні між інструментами
Я вважаю, що гроші мають слугувати сильним сигналом узгодження для агентських завдань. Не лише тому, що він кодує значення, а й тому, що він: - забезпечує дефіцит - створює альтернативні витрати - забезпечує універсальну одиницю оцінки Це зовсім інший фреймворк для післятренінгу, ніж традиційний RLHF
73