你正在Meta進行機器學習面試,面試官問: 「我們如何能夠同時為1,000名用戶提供Llama-3服務? 即使模型可以適應GPU,為什麼我們還是會耗盡內存?」 這是你回答以獲得那筆$$$的方法: