Ik heb geschreven over hoe schokkend effectief GPT-5 Thinking is in het gebruik van zijn Bing-ondersteunde zoektool, geïllustreerd met 8 voorbeelden van de afgelopen 48 uur.
Ik ben begonnen het mijn Onderzoeks Goblin te noemen.
Ik ben opnieuw geschokt over hoeveel beter de prestaties van afbeeldingsherkenning kunnen zijn als je sterk meningsgebonden samenvattingen van een afbeelding embed, een samenvatting die voortkomt uit een visueel taalmodel, dan het gebruik van CLIP-embeddings zelf. Als je de LLM vertelt dat de samenvatting zal worden ingebed en gebruikt voor downstream-zoekopdrachten. Ik had één systeem dat van 28% recall bij 5 met CLIP naar 75% recall bij 5 ging met een LLM-samenvatting. En het kostte me slechts ongeveer 40 minuten om de samenvattingsprompt te verbeteren.
Mijn aantekeningen over Kimi-K2-Instruct-0905, ook wel Kimi K-2.1 - een incrementele verbetering van het vorige trillion parameter open weights model van Moonshot, nu met de dubbele contextlengte (256k in plaats van 128k)