Historie hlubokého učení, pokud si pamatuji:
Rok 1: možné pouze ve frontier lab
Rok 1.5: možné ve většině dobře vybavených skupin umělé inteligence včetně akademické sféry
Rok 2: možné pro většinu hackerů a fanouška lokálně
Rok n: funguje dobře na hraničních zařízeních
Jediná věc, která se liší, je časová osa. A neočekávám, že se tento trend změní.
Jen tak pro zábavu, zde je to, jak vypadá 32 simultánních generací s dlouhým kontextem s Qwen3 Next 80B na M3 Ultra.
Použití nové generace dávek v mlx-lm.
Velikost kontextu pro každý z nich je asi 5 tisíc tokenů: