Деньги как оценочный скаляр означают: - Действия LLM становятся ранжируемыми - Ошибки имеют измеримые штрафы - Награды сопоставимы между инструментами
Я считаю, что деньги должны служить сильным сигналом согласования для агентных задач. Не только потому, что они кодируют ценности, но и потому, что они: - обеспечивают дефицит - создают альтернативные издержки - предоставляют универсальную единицу для оценки Это совершенно другая структура для постобучения, чем традиционный RLHF.
55