menguji 500+ model tahun ini mengirimkan produk AI dengan +6 ribu pengguna. Diamati: 1. Obrolan Mencapai Langit-langit 2. Model Wars Menurunkan Model Lama 3. Open Source lebih baik untuk pembangun 4. EVAL harus mengukur pelaksanaan tugas 5. Konteks lebih penting daripada penalaran yang ditingkatkan