Am făcut rapid 71 de experimente pentru 500 din 13.000 de pași pentru provocarea OpenAI 1. Amestecul de experți este absolut CÂȘTIGĂTOR (foarte surprinzător, pentru că nu ar trebui să fie pentru LLM-uri mici) > Numărul experților contează cel mai mult. 4 (cel mai bun) > 3 >> 2. 2. Încorporarea DEZLEGATĂ funcționează, legăturile sunt dezastruoase 3. Convoluție în adâncime - CAPĂT ÎNFUNDAT Perspective: 1. 4-expert MOE + ReLU cu scurgeri -> -0,048 BPB, câștigător clar 2. Încorporații factori nelegati (bn128) -> -0,031 BPB, merită combinate cu MOE 3. Combinația MOE + QAT -> păstrează calitatea cuantificată pentru trimiterea Drumuri fără ieșire 1. Convoluție pe adâncime - > fiecare variantă doare, boabele mai mari dor mai tare 2. Încorporarea cu factori egali - > catastrofală, mai ales la blocaje mici 3. Împărțirea greutății - > nu este competitivă cu MOE la calitate 4. Conv + orice combinații — amplifică daunele Pașii următori 1. Validarea MOE 4e + leaky la 2000-5000 de pași, mai multe seed-uri 2. Test MOE 4e + leaky + bn128 neegalat — cele două cele mai mari victorii se pot cumula 3. Run complet (13780 pași) cu cea mai bună combinație pentru a vedea dacă depășește clasamentul BPB 1.2244 71 de experimente, 3 GPU-uri, ~500 de pași fiecare. Vuk Rosić...