なぜGPUにこだわるのかと聞かれます Mac StudiosやMac minisではありません その理由は以下の通りです: - Llama 3.1 70B BF16(8台RTX 3090搭載) - 50+ 同時リクエスト - バッチ推論 - 持続的処理量 それだけでなく: > リクエストあたり ~2k コンテキスト(プロンプト) > ~1.8k トークンの出力 > 2分29秒で50件の回答を送りました これはGPUの領域です。 Macではこれができません。 少なくとも今のところは。