TransformerとLLMの専門家の混合、視覚的に解説! Mixture of Experts(MoE)は、異なる専門家を活用してトランスフォーマーモデルを改善する人気のあるアーキテクチャです。 トランスフォーマーとMoEはデコーダブロックで異なります: - トランスはフィードフォワードネットワークを使用します。 - MoEはエキスポーターを使用しますが、これはフィードフォワードネットワークですが、トランスフォーマーに比べて小さいものです。 推論の際には、専門家の一部が選ばれます。これにより、MoEでは推論が速くなります。 また、ネットワークには複数のデコーダ層があるため: - テキストは層を越えて異なる専門家を経由します。 - 選ばれた専門家はトークンごとに異なります。 しかし、モデルはどのようにしてどの専門家が理想的なべきかを決めるのでしょうか? ルーターがそれをやっています。 これはマルチクラス分類器で、エキスパートに対してソフトマックススコアを算出し、トップKのエキスパートを選出します。 ルーターはネットワークと共に訓練され、最適な専門家を選ぶことを学びます。 しかし、それは単純ではありません。 挑戦もあります! チャレンジ1) トレーニング開始時にこのパターンに気づく: ...