一個1千兆參數的語言模型並非完全不可能(除了從哪裡獲取所有數據的問題) 不過你可能需要比這多25%的GPU來處理上下文和KV快取 100,000個H100可能可以做到這一點