Ho ottenuto Codex CLI per aiutarmi a modificare la demo chat di Transformers.js Llama 3.2 per abilitare il caricamento di quel modello da 1,2 GB da una cartella locale invece di scaricarlo da un URL.
Ho scritto di quanto sia sorprendentemente efficace il pensiero di GPT-5 nell'utilizzare il suo strumento di ricerca supportato da Bing, illustrato con 8 esempi delle ultime 48 ore.
Ho iniziato a chiamarlo il mio Goblin della Ricerca.
Sono ancora una volta scioccato da quanto possa migliorare le prestazioni di recupero delle immagini se incorpori riassunti altamente opinabili di un'immagine, un riassunto che proviene da un modello di linguaggio visivo, piuttosto che utilizzare gli embedding di CLIP stessi. Se dici al LLM che il riassunto verrà incorporato e utilizzato per effettuare ricerche a valle. Ho avuto un sistema che è passato dal 28% di richiamo a 5 utilizzando CLIP al 75% di richiamo a 5 utilizzando un riassunto LLM. E ci sono voluti solo circa 40 minuti per migliorare il prompt di riassunto.