Taalas uruchamia Llama 3 8B z prędkością 16k tokenów na sekundę na użytkownika. To prawie rząd wielkości wzrostu w porównaniu do systemów opartych na SRAM, takich jak Cerebras. Kluczowa idea: każdy chip jest wyspecjalizowany do danego modelu. Chip jest modelem. Demo czatu jest dość szalone: