Banyak orang bingung dengan kembalinya Minimax baru-baru ini ke perhatian penuh - terutama karena itu adalah poros skala besar pertama menuju perhatian linier hibrida - dan oleh adopsi varian linier hibrida oleh Kimi (serta upaya sebelumnya oleh Qwen3-Next, atau Qwen3.5). Saya benar-benar menghargai keterbukaan Minimax di sini: mereka mengakui tantangan dan penyesalan dari perhatian linier atau jendela geser hibrida pada tugas penalaran multi-hop, yang tidak banyak laboratorium akan mengatakan dengan lantang. Konon, "penyesalan" mungkin tidak seburuk kedengarannya. Minimax menggunakan varian perhatian linier yang sangat sederhana (sebagian besar karena evaluasi yang tidak memadai pada saat itu), sehingga kesenjangan kinerja mungkin dibesar-besarkan. Strategi prapelatihan berkelanjutan (yaitu, beralih dari perhatian global ke perhatian jendela geser hibrida) juga tampak cukup tidak optimal. Dan afaik, perhatian linier hibrida masih dapat berkinerja sangat kuat pada hampir semua tolok ukur kecuali penalaran multi-hop. Jika penurunan kinerja pada penalaran multi-hop dapat dijaga cukup kecil untuk diperdagangkan dengan efisiensi inferensi dan efisiensi data yang lebih baik, perhatian linier hibrida masih memiliki banyak ruang untuk tumbuh. Lapisan kompleksitas linier yang lebih baik masih layak untuk dijelajahi, terutama dengan peningkatan infrastruktur dari kerangka kerja seperti vLLM dan SGLang. Lagi pula, kita tidak ingin model agen kita selamanya dibatasi oleh panjang konteks - itu adalah batasan yang harus kita atasi cepat atau lambat