Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

karminski-牙医
Programmierer, Rennradfahrer, Server-Wahrsager, Elektroschrottsammler, Mitbegründer von KCORES, ehemaliger Direktor bei IllaSoft, KingsoftOffice, Juejin.
Gute Nachrichten! Die Spielgrafikkarten können jetzt SAM-Audio verwenden!
Vorgestern habe ich das neue große Modell zur Audio-Trennung von Meta, SAM-Audio, getestet. Das größte Problem dieses Modells ist jedoch, dass es zu groß ist; bei meinen Tests benötigte die große Version 90 GB VRAM. Jetzt gibt es gute Nachrichten: Ein Blogger hat die unwichtigen Teile des Modells entfernt (Encoder und Sortierer; tatsächlich unterstützt dieses Modell auch die Extraktion von Instrumenten aus Videos, aber es ist auch möglich, die Instrumente direkt mit Text zu beschreiben. Daher wurde diese Funktion entfernt).
Die kleine Version benötigt jetzt nur 4-6 GB VRAM, und die große Version benötigt nur 10 GB VRAM, sodass fast jede bessere Spielgrafikkarte damit umgehen kann. Außerdem hat der Autor ein Ein-Klick-Installationspaket erstellt, das man einfach anklicken kann, um es zu installieren und zu verwenden, ohne sich um irgendetwas kümmern zu müssen. Freunde, die BGM von Songs extrahieren oder Instrumente und Gesang trennen möchten, können es ausprobieren.
Projektadresse:

25
Ist das Open-Source-Modell zur Schichtung von Bildern so schnell gekommen?
Ich präsentiere euch die neuesten Testergebnisse des gerade veröffentlichten Qwen-Image-Layered-Modells von Alibaba. Dies ist ein großes Modell, das Bilder in verschiedene Schichten unterteilen kann und auf Qwen-Image feinjustiert wurde.
Mein Test deckt die Stärken dieses Modells ab (Plakate), die Befolgung von Anweisungen (spezifische Zielentnahme), die Kantenbearbeitung (Haare) und Extremtests (alles sind Aufkleber; wenn jeder Aufkleber eine Schicht ist, können über 50 Schichten extrahiert werden).
Um es direkt zu sagen: Zunächst ist das Modell einfach zu groß. Da dieses Modell auf Qwen-Image basiert, handelt es sich um ein 20B-Modell. Ich habe es mit HuggingFace Zero GPU getestet, und jede Ausführung dauert etwa 2 Minuten. Das Modell kann tatsächlich Schichten trennen, und die Kantenbearbeitung ist ziemlich gut, aber die Stabilität muss optimiert werden. In meinem Test konnten 4 Schichten ausgegeben werden, aber bei 8 oder 10 Schichten ist es abgestürzt. Ich vermute, dass es möglicherweise die Zero GPU-Zeitüberschreitung oder einen Bug gibt (die GPU ist H200, es ist also unwahrscheinlich, dass der Grafikspeicher überlastet ist). Die Ausgabedimension beträgt nur 544*736, und die offizielle Empfehlung liegt bei 640 Auflösung. Auch das muss verbessert werden, und das Modell ist immer noch zu groß, 20B. Ich hoffe, die Größe kann optimiert werden.
22
Weinte, SOTA ist nur Fassade, für echte Arbeit braucht man "Niu Ma Modell".
Der Gründer von OpenRouter, Alex Atallah, hat gerade einen Tweet veröffentlicht, in dem er sagt, dass er am meisten mit Kimi-K2-0711 (dem Kimi-K2-Instruct aus dem Juli) arbeitet.
Dann sind da noch openai-o4-mini-high, Claude-3.7-Sonnet, gpt-oss-120b, openai-o3.
Als ich das zuerst sah, dachte ich, ob diese Person offline war, weil sie schon lange kein neues großes Modell mehr verwendet hat?
Aber wenn ich genauer darüber nachdenke, stimmt das nicht, es ist sehr merkwürdig. Das ist die wahre Nutzung eines Power Users, viel zu realistisch.
Wenn man zu diesem Zeitpunkt nach einem Modell sucht, das einen ausreichend großen Kontext (128K), eine brauchbare Leistung (SWE-Bench Verified > 65), starke Agentenfähigkeiten (Tau2-bench > 65), ein riesiges Wissensspektrum (vergleichsweise große Parameteranzahl) und schnelle Antworten (kein Thinking-Modell) bietet, scheint es nur Kimi-K2-Instruct zu geben.
Rückblickend sollte Alex Atallah den Großteil seiner Arbeit mit der Bearbeitung von Dokumenten (langer Kontext, insbesondere bei 13,4M Token) verbringen, Werkzeuge zur Analyse und Erstellung von Berichten verwenden (Agentenfähigkeiten), all das kann Kimi-K2-Instruct erledigen, und dann Skripte schreiben (o4 und Claude-3.7-Sonnet als Backup, sogar verpackt als Agent, um Kimi-K2 diese Modelle zum Schreiben von Skripten nutzen zu lassen).
Schließlich kann Kimi-K2 auch den wichtigsten Punkt erfüllen, den Datenschutz, da das Modell offene Gewichte hat und auf eigenen Servern bereitgestellt werden kann, sodass keine sensiblen Informationen an OpenAI oder Anthropic weitergegeben werden. Sogar das GPT-OSS-120B hat wahrscheinlich auch diesen Zweck.
Ich kann ungefähr verstehen, warum die neuen großen Modelle jetzt die Agentenfähigkeiten aufpeppen, denn Menschen, die AI direkt nutzen, sind nur eine Zwischenstufe; fortgeschrittene Benutzer verwenden AI bereits, um AI zu steuern. Ein spezialisiertes Modell, das alle AI-Kontexte empfängt und sendet, wird zwangsläufig das meistgenutzte sein.
Ursprünglicher Beitrag:


30
Top
Ranking
Favoriten
