DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Alibaba hat vier Qwen 3.5 kleine Modelle mit einem Trick aus ihrem 397B-Modell verschickt: Gated DeltaNet Hybrid-Attention. Drei Schichten linearer Aufmerksamkeit für jede Schicht voller Aufmerksamkeit. Die linearen Schichten übernehmen routinemäßige Berechnungen mit konstantem Speicherverbrauch. Die Schichten voller Aufmerksamkeit werden nur aktiviert, wenn Präzision wichtig ist. Dieses Verhältnis von 3:1 hält den Speicher flach, während die Qualität hoch bleibt, weshalb selbst das 0.8B-Modell ein Kontextfenster von 262.000 Token unterstützt. Jedes Modell verarbeitet Texte, Bilder und Videos nativ. Kein Adapter, der nachträglich angebaut wurde. Der Vision-Encoder verwendet 3D-Convolutions, um Bewegung im Video zu erfassen, und kombiniert dann Merkmale aus mehreren Schichten anstelle nur der letzten. Das 9B-Modell übertrifft GPT-5-Nano um 13 Punkte im multimodalen Verständnis, um 17 Punkte in visueller Mathematik und um 30 Punkte beim Dokumentenparsing. Das 0.8B-Modell läuft auf einem Telefon und verarbeitet Videos. Das 4B-Modell passt in 8GB VRAM und fungiert als multimodaler Agent. Alle vier sind Apache 2.0. Wenn diese Architektur Bestand hat, ist der Bereich der kleinen Modelle gerade zu einem Wettlauf um Fähigkeiten anstelle von Größe geworden. Vor einem Jahr bedeutete das lokale Ausführen eines multimodalen Modells ein 13B+-Modell und eine ernsthafte GPU. Jetzt verarbeitet ein 4B-Modell mit 262K Kontext Texte, Bilder und Videos von Consumer-Hardware. Die Kluft zwischen Edge-Modellen und Flaggschiff-Modellen schließt sich schneller als die Kluft zwischen Flaggschiffen und Menschen.

Top

Ranking

Favoriten