O dinheiro como um escalar de avaliação significa: - As ações do LLM tornam-se classificáveis - Os erros têm penalidades mensuráveis - As recompensas são comparáveis entre ferramentas
O meu pensamento é que o dinheiro deve funcionar como um forte sinal de alinhamento para tarefas agentivas. Não apenas porque codifica valores, mas mais ainda porque: - impõe escassez - cria custo de oportunidade - fornece uma unidade universal para avaliação Esta é uma estrutura muito diferente para pós-treinamento em comparação com o RLHF tradicional.
53