Nous avons open-sourcé HY-1.8B-2Bit, un LLM 2 bits à haute efficacité conçu pour le déploiement sur appareil. Ce modèle réduit la base de 1,8 milliard à une empreinte de paramètres efficace de 0,3 milliard, nécessitant seulement 600 Mo de stockage, ce qui le rend plus petit que de nombreuses applications mobiles. 🔹 Stratégie Ultra-Basse-Bit : Utilise le QAT (Quantization-Aware Training) pour atteindre une représentation de 2 bits (taille équivalente à 0,3 milliard de bits). 🔹 Raisonnement Dual-CoT : Conserve des capacités sophistiquées de Dual Chain-of-Thought malgré une réduction radicale de la précision. 🔹 Performance : 3 à 8 fois plus rapide en pré-remplissage sur Apple M4 et MediaTek Dimensity 9500 ; 2 à 3 fois plus rapide pour la génération de tokens sur appareil. 🔹 Gains de Benchmark : Atteint un avantage moyen de 17 % en précision par rapport aux modèles de taille équivalente. 🔹 Synergie Matérielle : Optimisé pour Arm SME2 et les silicons modernes pour consommateurs. HY-1.8B-2Bit est maintenant disponible au format GGUF pour une intégration transparente dans les moteurs d'inférence basés sur le edge. Page du projet : Poids : Version GGUF : Rapport technique :