Udostępniliśmy kod źródłowy HY-1.8B-2Bit, wysokoefektywnego modelu LLM 2-bitowego, stworzonego do wdrożeń na urządzeniach. Ten model skaluje bazę 1.8B do efektywnego śladu parametrów 0.3B, wymagając jedynie 600MB pamięci, co czyni go mniejszym niż wiele aplikacji mobilnych. 🔹 Strategia Ultra-Low-Bit: Wykorzystuje QAT (Trening z uwzględnieniem kwantyzacji), aby osiągnąć reprezentację 2-bitową (0.3B równoważna wielkość bitowa). 🔹 Rozumowanie Dual-CoT: Zachowuje zaawansowane możliwości Dual Chain-of-Thought pomimo radykalnego zmniejszenia precyzji. 🔹 Wydajność: 3-8x szybsze wypełnianie na Apple M4 i MediaTek Dimensity 9500; 2-3x szybsza generacja tokenów na urządzeniu. 🔹 Zyski w benchmarkach: Osiąga średnią przewagę dokładności o 17% w porównaniu do modeli o równoważnej wielkości. 🔹 Synergia sprzętowa: Optymalizowany dla Arm SME2 i nowoczesnych układów konsumenckich. HY-1.8B-2Bit jest już dostępny w formacie GGUF do bezproblemowej integracji z silnikami wnioskowania opartymi na krawędzi. Strona projektu: Wagi: Wersja GGUF: Raport techniczny: