私たちはオープンソースのHY-1.8B-2Bitという、オンデバイス展開用に設計された高効率の2ビットLLMを導入しています。このモデルは18億ベースのパラメータフットプリントを実効0.3億に縮小し、必要なストレージはわずか600MBで済み、多くのモバイルアプリよりも小さいサイズです。 🔹 超低ビット戦略:QAT(量子化対応トレーニング)を用いて2ビット表現(0.3億ビット相当サイズ)を実現します。 🔹 デュアルコット推論:極端な精度低下にもかかわらず、高度なデュアル・チェーン・オブ・シンク能力を保持。 🔹 パフォーマンス:Apple M4およびMediaTek Dimensity 9500でプリフィル速度が3〜8倍向上;デバイス上でトークン生成が2〜3倍速くなります。 🔹 ベンチマークゲインズ:同等サイズのモデルに対して平均17%の精度リードを達成します。 🔹 ハードウェアシナジー:Arm SME2および最新のコンシューマーシリコンに最適化されています。 HY-1.8B-2Bitは現在、エッジベースの推論エンジンへのシームレスな統合のためにGGUF形式で利用可能です。 プロジェクトページ: 重量: GGUF版: 技術報告書: