Il mio articolo preferito del 2026 finora 🔥 Hanno preso la Distillazione On-Policy (cioè il post del blog Thinking Machines), ma poi hanno dimostrato che la politica può essere sia il modello insegnante che quello studente. L'idea è di condizionare l'insegnante su una traiettoria d'oro, e poi addestrarsi sui logprobs condizionati dello stesso modello. La parte folle è che puoi letteralmente condizionare l'insegnante su qualsiasi cosa!! Questo apre un intero vaso di Pandora di ottimizzazione dei prompt di bridging/ICL + ottimizzazione dei pesi che mi entusiasma molto per l'apprendimento continuo. Autori: @IdanShenfeld @MehulDamani2 Jonas Hübotter @pulkitology