In sole 48 ore, presso @RunAnywhereAI, abbiamo costruito MetalRT: battendo @Apple nel loro stesso gioco e offrendo il MOTORE DI INFERENZA LLM PIÙ VELOCE sul mercato per Apple Silicon in questo momento. - 570 tok/s decodifica @liquidai LFM 2.5-1.2B 4-bit - 658 tok/s decodifica @Alibaba_Qwen Qwen3-0.6B, 4-bit - 6.6 ms tempo fino al primo token - 1.19× più veloce rispetto al MLX di Apple (file modello identici) - 1.67× più veloce in media rispetto a llama.cpp Abbiamo schiacciato Apple MLX, llama.cpp, uzu (di TryMirai) e Ollama su quattro diversi modelli 4-bit, incluso l'ottimizzato per il dispositivo LFM2.5-1.2B su un singolo M4 Max. Entusiasta per questo!