Náš @LiquidAI_ model LFM2-350M jsme vyškolili 1400x nad rámec "výpočetně optimálního"
> Zákony o škálování činčily: ~20 tokenů na parametr
> LFM2-350M: ~28 000 tokenů na parametr (1400x více)
Proč?
Protože Chinchilla se týká pouze trénovacích výpočetních prostředků, zatímco nás zajímají náklady na odvozování