Napisałem o tym, jak szokująco skuteczne jest myślenie GPT-5 przy użyciu narzędzia wyszukiwania opartego na Bing, ilustrowane 8 przykładami z ostatnich 48 godzin.
Zacząłem nazywać to moim Goblinem Badawczym.
Wyszukiwanie obrazów semantycznych za pomocą osadzeń tekstowych w porównaniu do podsumowań obrazów w modelach wizji-LLM wydaje się działać naprawdę dobrze.
Ponownie jestem zszokowany, jak dużo lepszą wydajność w wyszukiwaniu obrazów można uzyskać, jeśli osadzisz bardzo subiektywne podsumowania obrazu, podsumowanie, które pochodzi z modelu językowego wizualnego, niż używając samych osadzeń CLIP. Jeśli powiesz LLM, że podsumowanie ma być osadzone i użyte do wyszukiwania w dalszej części. Miałem jeden system, który przeszedł z 28% przypomnienia przy 5 używając CLIP do 75% przypomnienia przy 5 używając podsumowania LLM. I zajęło mi to tylko około 40 minut, aby poprawić podpowiedź do podsumowania.
Moje notatki na temat Kimi-K2-Instruct-0905, znanego również jako Kimi K-2.1 - stopniowa poprawa poprzedniego modelu Moonshot z otwartymi wagami o trylionie parametrów, teraz z podwójną długością kontekstu (256k w porównaniu do 128k)