Vi trente vår @LiquidAI_ LFM2-350M modell 1400x utover "compute optimal"
> Chinchilla-skaleringslover: ~20 tokens per param
> LFM2-350M: ~28 000 tokens per parameter (1400 ganger mer)
Hvorfor?
Fordi Chinchilla bare handler om treningsberegning, mens vi bryr oss om slutningskostnader