DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Choquant 🤯, le modèle Composer2 de Cursor a apparemment une capacité de codage supérieure à celle d'opus4.6 ? 🧶👇 📊 Tests de référence principaux (refus de l'auto-satisfaction) • Terminal-Bench 2.0 : 61,7 % (a défié et dépassé Claude Opus 4.6 avec 58,0 %) • SWE-bench Multilingual : 73,7 % • CursorBench : 61,3 % (comparé à la génération précédente de 44,2 %) Je vois beaucoup de gens critiquer CursorBench comme étant un indicateur "Faites-moi confiance, mon pote" Mais l'officiel est très solide : Terminal-Bench utilise les références de l'institut Laude tiers, le cadre officiel Harbor a effectué 5 tours pour prendre la moyenne, les données sont très solides. Je vais encore être obligé de payer ? 😂😂🫰🫰

Meilleurs

Classement

Favoris