Tôi đã viết về việc GPT-5 Thinking hiệu quả đến mức nào khi sử dụng công cụ tìm kiếm được hỗ trợ bởi Bing, được minh họa bằng 8 ví dụ trong 48 giờ qua.
Tôi đã bắt đầu gọi nó là Goblin Nghiên cứu của tôi.
Tôi một lần nữa cảm thấy sốc về việc hiệu suất truy xuất hình ảnh có thể tốt hơn bao nhiêu nếu bạn nhúng những tóm tắt có quan điểm mạnh mẽ về một hình ảnh, một tóm tắt được tạo ra từ một mô hình ngôn ngữ hình ảnh, hơn là sử dụng chính các nhúng CLIP. Nếu bạn nói với LLM rằng tóm tắt sẽ được nhúng và sử dụng để tìm kiếm ở phía dưới. Tôi đã có một hệ thống từ 28% độ hồi tưởng ở mức 5 khi sử dụng CLIP lên 75% độ hồi tưởng ở mức 5 khi sử dụng tóm tắt LLM. Và tôi chỉ mất khoảng 40 phút để cải thiện lời nhắc tóm tắt.
Ghi chú của tôi về Kimi-K2-Instruct-0905, hay còn gọi là Kimi K-2.1 - một cải tiến dần dần trên mô hình trọng số mở trước đó của Moonshot với một triệu tham số, giờ đây có độ dài ngữ cảnh gấp đôi (256k so với 128k)