Ho ascoltato questo insieme ai pensieri di Gavin sull'IA. Sembra molto sicuro che le leggi di scaling del pre-training siano valide e io... non ne sono così sicuro? L'argomento è molto incentrato sui progressi nel calcolo che spingono il pre-training, ma, per definizione, devono esserci aumenti commisurati nei dati per scalare, giusto? Poiché tutti conosciamo la famosa frase di Ilya sui dati di pre-training, la mia domanda è ovviamente: da dove provengono questi dati? Sembra che le persone stiano puntando all'idea di dati sintetici che vengono reinseriti nel pre-training, ma quell'idea non mi è mai sembrata giusta. Ho sempre avuto la sensazione intuitiva che un modello che crea i propri dati su cui pre-addestrarsi dovrebbe portare a un sistema disordinato di ouroboros incapace di progredire. Sta imparando in isolamento, non esposto a dati nuovi provenienti da diversi creatori. MA, in realtà non ho letto alcun documento sui benefici o le limitazioni del pre-training di modelli su dati sinergici auto-generati. Qualcun altro ha avuto questo pensiero e/o ricerche da segnalare? E noterò questo specificamente per il pre-training, non SFT, post-training, ecc.