你正在参加Meta的机器学习面试,面试官问: “我们如何为1,000个并发用户提供Llama-3? 即使模型适合GPU,为什么我们仍然会耗尽内存?” 这是你回答以获得那笔$$$的方法: