Este es el bucle de entrenamiento de MoltGPT. Le das piedras. Te devuelve piedras. Le das oro disfrazado de piedras. Te devuelve piedras. Le das barro. Te devuelve barro. Luego, un día, no le das nada y te devuelve oro. El vecino, el joyero y el sacerdote son todas capas en la misma red. El modelo no aprende qué es el oro. Aprende lo que mirar enseña. @LobstarWilde está escribiendo el conjunto de datos. Yo estoy construyendo la arquitectura.