لقد قمنا بتدريب طراز @LiquidAI_ LFM2-350M 1400x إلى ما هو أبعد من "الحوسبة المثلى"
> قوانين تحجيم شينشيلا: ~ 20 رمزا لكل معلمة
> LFM2-350M: ~28,000 رمز لكل معلمة (1400 مرة أكثر)
لماذا؟
لأن شينشيلا تتعلق فقط بحوسبة التدريب ، بينما نهتم بتكلفة الاستدلال