Ich habe darüber geschrieben, wie schockierend effektiv das Denken von GPT-5 mit seinem Bing-unterstützten Suchwerkzeug ist, illustriert mit 8 Beispielen aus den letzten 48 Stunden.
Ich habe angefangen, es meinen Forschungs-Goblin zu nennen.
Ich bin erneut schockiert, wie viel besser die Leistung bei der Bildabrufung ist, wenn man stark meinungsbasierte Zusammenfassungen eines Bildes einbettet, eine Zusammenfassung, die aus einem visuellen Sprachmodell stammt, als wenn man die CLIP-Einbettungen selbst verwendet. Wenn man dem LLM sagt, dass die Zusammenfassung eingebettet wird und zur späteren Suche verwendet wird. Ich hatte ein System, das von 28 % Recall bei 5 mit CLIP auf 75 % Recall bei 5 mit einer LLM-Zusammenfassung ging. Und es hat mich nur etwa 40 Minuten gekostet, um den Zusammenfassungs-Prompt zu verbessern.
Meine Notizen zu Kimi-K2-Instruct-0905, auch bekannt als Kimi K-2.1 - eine inkrementelle Verbesserung des vorherigen Billionen-Parameter-Modells von Moonshot, jetzt mit doppelt so langer Kontextlänge (256k statt 128k)