Czekałem, aż to trafi na Arxiv, ale cokolwiek mówi Dario, zgadza się z naszymi benchmarkami na ROSClaw, gdy testujemy agentów wcielających różne roboty. Różne modele mają różne cechy behawioralne i obawy dotyczące interakcji z rzeczywistym światem. Bardzo dziwne i interesujące do obserwacji.