Transformer ja sekoitus asiantuntijoita LLM:issä, selitetty visuaalisesti! Asiantuntijoiden sekoitus (MoE) on suosittu arkkitehtuuri, joka käyttää eri asiantuntijoita parantamaan muuntajamalleja. Transformer ja MoE eroavat dekooderilohkossa: - Muuntaja käyttää syöttöverkkoa. - MoE käyttää asiantuntijoita, jotka ovat eteenpäin suuntautuvia verkkoja, mutta pienempiä kuin Transformerit. Päättelyssä valitaan asiantuntijaryhmä. Tämä nopeuttaa päättelyä MoE:ssä. Koska verkossa on useita dekooderikerroksia: - Teksti kulkee eri asiantuntijoiden läpi kerrosten yli. - Valitut asiantuntijat eroavat myös tokenien välillä. Mutta miten malli päättää, mitkä asiantuntijat ovat ihanteellisia? Reititin tekee niin. Se on moniluokkainen luokittelija, joka tuottaa softmax-pisteet asiantuntijoiden yläpuolella valitakseen parhaat K-asiantuntijat. Reititin koulutetaan verkon kanssa ja oppii valitsemaan parhaat asiantuntijat. Mutta se ei ole yksinkertaista. Haasteita on! Haaste 1) Huomaa tämä kaava koulutuksen alussa: ...