作為評估標量的金錢意味著: - LLM 行動變得可排名 - 錯誤有可衡量的懲罰 - 獎勵在工具之間是可比的
我的想法是,金錢應該作為代理任務的強烈對齊信號。 不僅因為它編碼了價值,更因為它: - 強化稀缺性 - 創造機會成本 - 提供一個通用的評估單位 這是一種與傳統的強化學習人類反饋(RLHF)截然不同的後訓練框架。
75