DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

ho fatto 71 esperimenti rapidi per 500 su 13.000 passi per la sfida di OpenAI 1. Mixture of Experts è un VINCITORE assoluto (molto sorprendente poiché non dovrebbe esserlo per piccoli LLM) > Il numero di esperti conta di più. 4 (migliore) > 3 >> 2. 2. Gli Embeddings NON LEGATI funzionano, quelli legati sono un disastro 3. Convoluzione Depthwise - STRADA CHIUSA Osservazioni: 1. MOE a 4 esperti + leaky ReLU -> -0.048 BPB, chiaro vincitore 2. Embeddings fattorizzati non legati (bn128) -> -0.031 BPB, vale la pena combinarli con MOE 3. Combinazione MOE + QAT -> preserva la qualità quantizzata per la sottomissione strade chiuse 1. Convoluzione depthwise -> ogni variante fa male, i kernel più grandi fanno più male 2. Embeddings fattorizzati legati -> catastrofici, specialmente in piccoli colli di bottiglia 3. Condivisione dei pesi -> non competitiva con MOE per qualità 4. Combinazioni Conv + qualsiasi cosa — complica il danno Prossimi Passi 1. Validare MOE 4e + leaky a 2000-5000 passi, più semi 2. Testare MOE 4e + leaky + bn128 non legato — i due maggiori successi potrebbero sovrapporsi 3. Esecuzione completa (13780 passi) della migliore combinazione per vedere se supera 1.2244 BPB in classifica 71 esperimenti, 3 GPU, ~500 passi ciascuno. Vuk Rosić...

Principali

Ranking

Preferiti