>あなたは人間です > LLM推論を理解したい人 >新聞を読むの? >「標準的な技法を使っている」 >どの学校ですか?コードはどこにある? > open vllm > 10万行のC++とPythonを > Custom Cuda kernel for printing(印刷用) >タブを閉じる >今、あなたはこのツイートをしています >とミニスグラング > ~5,000本のPythonのライン >実際の制作機能 >4つのプロセス > APIサーバー >トークナイザー >スケジューラー > デトークンナイザー > zeroMQで話す >簡単です スケジューラー>ボスです >リクエストを受け付けます >決定:プリフィルかデコードか >それらをバッチ化します >GPUに作業を送信します プリフィル>...