J'attendais que cela soit publié sur Arxiv, mais peu importe, ce que dit Dario correspond à nos benchmarks sur ROSClaw lorsque nous testons des agents incarnant différents robots. Différents modèles ont des caractéristiques comportementales différentes et des préoccupations concernant l'interaction avec le monde réel. C'est très étrange et intéressant à observer.