MiniMax M2.7 показывает худшие результаты, чем M2.5 на BridgeBench. M2.5 занял 12-е место. В целом 92.3. M2.7 занял 19-е место. В целом 88.1. UI упал с 76.6 до 61.9. Refactor упал с 97.3 до 90.7. Gen упал с 94.3 до 89.2. #1 на Multi-SWE Bench. #19 на BridgeBench. Это разница в 18 мест между синтетическими бенчмарками и реальными оценками кодирования. Вот почему существует BridgeBench.