Ihmiset kysyvät, miksi vaadin GPU:ita eikä Mac Studios/Mac miniatyyrejä Tässä siksi: - Llama 3.1 70B BF16 8x RTX 3090 -malleilla - 50+ samanaikaista pyyntöä - Eräpäättely - Jatkuva läpimenokapasiteetti Eikä siinä kaikki: > ~2k kontekstia per pyyntö (kehote) > ~1,8 000 tokenia tulosteessa > 2 minuuttia 29 sekuntia 50 vastausta varten Tämä on GPU-aluetta. Et voi tehdä tätä Macilla. Ei ainakaan vielä.