Google DeepMind baru saja merilis arsitektur model LLM baru yang disebut Mixture-of-Recursions. Ini mendapatkan kecepatan inferensi 2x, FLOP pelatihan yang dikurangi, dan memori cache KV yang dikurangi ~50%. Bacaan yang sangat menarik. Memiliki potensi untuk menjadi pembunuh Transformers.
Sumber:
190,23K