J'ai écrit sur l'efficacité choquante de la pensée de GPT-5 en utilisant son outil de recherche soutenu par Bing, illustrée par 8 exemples des dernières 48 heures.
J'ai commencé à l'appeler mon Gobelin de Recherche.
Je suis une fois de plus choqué de voir à quel point la performance de récupération d'images peut être améliorée si vous intégrez des résumés très opinionnés d'une image, un résumé qui provient d'un modèle de langage visuel, plutôt qu'en utilisant les embeddings CLIP eux-mêmes. Si vous dites au LLM que le résumé va être intégré et utilisé pour effectuer une recherche en aval. J'ai eu un système qui est passé de 28 % de rappel à 5 en utilisant CLIP à 75 % de rappel à 5 en utilisant un résumé LLM. Et il ne m'a fallu qu'environ 40 minutes pour améliorer le prompt de résumé.
Mes notes sur Kimi-K2-Instruct-0905, alias Kimi K-2.1 - une amélioration incrémentale du modèle à poids ouverts de trillion de paramètres précédent de Moonshot, maintenant avec deux fois la longueur de contexte (256k contre 128k)