saya melakukan 71 eksperimen cepat untuk 500 dari 13.000 langkah untuk tantangan OpenAI 1. Campuran Ahli adalah WINNER mutlak (sangat mengejutkan karena seharusnya tidak untuk LLM kecil) > Hitungan ahli paling penting. 4 (terbaik) > 3 >> 2. 2. TIDAK TERIKAT Penyematan bekerja, terikat adalah bencana 3. Konvolvi Kedalaman - JALAN BUNTU Wawasan: 1. 4-ahli MOE + ReLU bocor -> -0,048 BPB, pemenang yang jelas 2. Penyematan faktorkan yang tidak terikat (bn128) -> -0,031 BPB, layak digabungkan dengan MOE 3. Kombo MOE + QAT -> mempertahankan kualitas terkuantisasi untuk pengajuan jalan buntu 1. Konvolusi kedalaman -> setiap varian sakit, kernel yang lebih besar lebih sakit 2. Penyematan faktor terikat -> bencana, terutama pada kemacetan kecil 3. Pembagian berat -> tidak kompetitif dengan MOE untuk kualitas 4. Kombo Conv + apa pun — memperparah kerusakan Langkah Berikutnya 1. Validasi MOE 4e + bocor pada 2000-5000 langkah, beberapa benih 2. Uji MOE 4e + bocor + tidak terikat bn128 — dua kemenangan terbesar mungkin menumpuk 3. Full run (13780 langkah) kombo terbaik untuk melihat apakah mengalahkan papan peringkat 1.2244 BPB 71 eksperimen, 3 GPU, masing-masing ~500 langkah. Vuk Rosić...