Log Penelitian Hari 0: Hari DiLoCo Saya memutuskan untuk membuat tesis seputar pelatihan komunikasi rendah yang terdistribusi. Pada dasarnya, bagaimana kita bisa melatih model besar secara efisien di seluruh node terdistribusi dan tidak benar-benar hancur oleh latensi dan bandwidth jaringan? (1/n)