Vi tränade vår @LiquidAI_ LFM2-350M-modell 1400x bortom "beräkningsoptimal"
> Chinchilla-skalningslagar: ~20 tokens per param
> LFM2-350M: ~28 000 tokens per param (1400x mer)
Varför?
Eftersom Chinchilla bara handlar om träningsberäkning, medan vi bryr oss om inferenskostnader