MiniMax M2.7はBridgeBenchのM2.5よりもスコアが悪いです。 M2.5は#12にランクされました。全体で92.3。 M2.7は#19にランクされています。全体で88.1。 UIは76.6から61.9に落ちました。 97.3から90.7へとリファクタリング。一般教員は94.3から89.2に。 マルチSWEベンチの#1。 BridgeBenchの#19。 合成ベンチマークと実際のバイブコーディング評価との間には18ランクの差があります。 これがBridgeBenchが存在する理由です。