RL sering membuang sinyal yang berguna pada langkah perantara, atau seperti yang @karpathy katakan, itu seperti "mengisap pengawasan melalui sedotan." MiniMax M2.5 memecahkan ini dengan hadiah proses per token. Hasilnya adalah kinerja pengkodean perbatasan setidaknya 1/10 dari biaya sumber tertutup. @thealexker menguraikan cara kerja mekanisme ini dan bagaimana M2.5 unggul dalam pekerjaan pengetahuan umum. Baca tentang itu di sini: