RL často vyhazuje užitečný signál v mezikrocích, nebo jak @karpathy řekl, je to jako "vysávání supervize brčkem". MiniMax M2.5 to řeší odměnami za každý token. Výsledkem je výkon programování ve Frontier alespoň desetině nákladů uzavřeného softwaru. @thealexker rozebírá, jak tento mechanismus funguje a jak M2.5 vyniká v práci s obecnými znalostmi. Přečtěte si o tom zde: