アリババは397Bモデルから借用した技術「ゲーテッド・デルタネット・ハイブリッド・アテンション」を用いて、Qwen 3.5小型モデルを4台出荷しました。 完全な注意の層が1層ごとに3層の直線的な注意がある。 線形層は、メモリ使用が一定でルーチン計算を処理します。フルアテンションレイヤーは、精度が重要な場合にのみ発動します。 この3:1の比率はメモリを平坦に保ちつつ品質も高く保つため、0.8億モデルでも262,000トークンのコンテキストウィンドウをサポートしています。 すべてのモデルはテキスト、画像、動画をネイティブに処理しています。 その後アダプターは取り付けられませんでした。ビジョンエンコーダーは3D畳み込みを使って動画内の動きを捉え、最終層だけでなく複数のレイヤーの特徴を統合します。 9Bはマルチモーダル理解でGPT-5-Nanoに13ポイント、視覚的数学で17ポイント、ドキュメント解析で30ポイント差で上回っています。0.8Bは電話で動作し、映像を処理します。4Bは8GBのVRAMを搭載し、マルチモーダルエージェントとして機能します。これら4つすべてApache 2.0です。 このアーキテクチャが成り立つなら、小型モデル空間はサイズ競争ではなく能力競争になってしまったことになります。 1年前、ローカルでマルチモーダルモデルを動かすと、13B+モデルと本格的なGPUが必要でした。 現在、262Kコンテキストを持つ4Bモデルが、消費者向けハードウェアからのテキスト、画像、動画を処理しています。 エッジモデルとフラッグシップモデルのギャップは、フラッグシップと人間モデルのギャップよりも速く縮まっています。