Dostal jsem Codex CLI, který mi pomohl upravit ukázku chatu Transformers.js Llama 3.2 tak, aby umožňovala načítání tohoto 1,2GB modelu z místní složky namísto jeho načítání z adresy URL
Psal jsem o tom, jak překvapivě efektivní je GPT-5 Thinking při používání svého vyhledávacího nástroje podporovaného Bingem, ilustrovaném 8 příklady z posledních 48 hodin
Začal jsem tomu říkat můj výzkumný skřet
Znovu mě šokuje, o kolik lepšího výkonu při načítání obrázků můžete dosáhnout, pokud vložíte velmi zaujatá shrnutí obrázku, shrnutí, které pochází z vizuálního jazykového modelu, než pomocí samotného vkládání CLIP. Pokud sdělíte LLM, že souhrn bude vložen a použit k vyhledávání v downstreamu. Jeden systém se změnil z 28% vybavování v 5 pomocí CLIP na 75% vybavování v 5 pomocí souhrnu LLM. A trvalo mi jen asi 40 minut, než jsem vylepšil výzvu k shrnutí.