Smooth DiLoCo: ( @aaron_defazio e outros) Alternativa não distribuída, com menos sobrecarga de memória (apenas um buffer extra) e uma atualização contínua em vez da atualização externa periódica (bastante violenta) do DiLoCo clássico Curioso para ver expandido para distribuído!