Ești într-un interviu ML la Meta, iar intervievatorul întreabă: "Cum deservim Llama-3 pentru 1.000 de utilizatori simultani? De ce rămânem fără memorie chiar dacă modelul încape pe GPU?" Iată cum răspunzi pentru a obține acel dolar: