Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Noam Brown
Recherche de raisonnement @OpenAI | Co-création des IA de poker surhumaines Libratus/Pluribus, de l’IA CICERO Diplomacy et des modèles de raisonnement OpenAI o3 / o1 🍓
J'ai codé un solveur de river de poker open-source pendant les vacances. Le code est 100 % écrit par Codex, et j'ai également réalisé une version avec Claude Code pour comparer.
Dans l'ensemble, ces outils m'ont permis d'itérer beaucoup plus rapidement dans un domaine que je connais bien. Mais j'ai aussi eu l'impression de ne pas pouvoir leur faire entièrement confiance. Ils faisaient des erreurs et rencontraient des bugs, mais plutôt que de l'admettre, ils pensaient souvent que ce n'était pas grave ou, parfois, essayaient carrément de me faire croire qu'il n'y avait rien de mal.
Lors d'une session de débogage mémorable avec Claude Code, je lui ai demandé, pour vérifier ma logique, quelle serait la valeur attendue d'une stratégie "toujours se coucher" lorsque le joueur a 100 $ dans le pot. Il m'a dit qu'en fonction de son algorithme, la valeur attendue était de -93 $. Quand j'ai souligné à quel point c'était étrange, espérant qu'il réaliserait de lui-même qu'il y avait un bug, il m'a rassuré en disant que 93 $ était proche de 100 $, donc que c'était probablement correct. (Une fois que je l'ai poussé à considérer spécifiquement les bloqueurs comme un problème potentiel, il a reconnu que l'algorithme ne les prenait effectivement pas en compte correctement.) Codex n'était pas beaucoup mieux à ce sujet et a rencontré son propre ensemble de bugs (intéressants) et d'erreurs algorithmiques que j'ai dû examiner attentivement. Heureusement, j'ai pu surmonter ces problèmes parce que je suis un expert en solveurs de poker, mais je ne pense pas qu'il y ait beaucoup d'autres personnes qui auraient pu réussir à créer ce solveur en utilisant des outils de codage AI.
L'expérience la plus frustrante a été de créer une interface graphique. Après une douzaine d'allers-retours, ni Codex ni Claude Code n'ont été capables de réaliser le frontend que j'avais demandé, bien que celui de Claude Code était au moins plus joli. Je suis inexpérimenté en frontend, donc peut-être que ce que je demandais n'était tout simplement pas possible, mais si c'était le cas, j'aurais aimé qu'ils me *disent* que c'était difficile ou impossible au lieu de faire des implémentations défectueuses ou des choses que je n'avais pas demandées. Cela m'a fait réaliser qu'il y a encore une grande différence entre travailler avec un coéquipier humain et travailler avec une IA.
Après que les premières implémentations aient été complètes et déboguées, j'ai demandé à Codex et Claude Code de créer des versions C++ optimisées. À ce sujet, Codex a étonnamment bien réussi. Sa version C++ était 6 fois plus rapide que celle de Claude Code (même après plusieurs itérations de demandes pour d'autres optimisations). Les optimisations de Codex n'étaient toujours pas aussi bonnes que celles que je pouvais faire, mais encore une fois, j'ai passé 6 ans de doctorat à créer des bots de poker. Dans l'ensemble, j'ai trouvé que Codex avait fait un travail impressionnant à ce sujet.
Ma demande finale était de demander aux IA si elles pouvaient proposer des algorithmes novateurs qui pourraient résoudre les rivers NLTH encore plus rapidement. Aucun d'eux n'a réussi, ce qui n'était pas surprenant. Les LLM s'améliorent rapidement, mais développer des algorithmes novateurs pour ce genre de chose est un projet de recherche qui prend des mois pour un expert humain. Les LLM ne sont pas encore à ce niveau.

593
Une leçon importante que ARC-AGI a intériorisée, mais que peu d'autres ont, est que la performance de référence est une fonction du calcul au moment du test.
@OpenAI publie des résultats de référence sous forme de chiffres uniques parce que c'est plus simple et que les gens s'attendent à les voir, mais idéalement toutes les évaluations auraient un axe des x.

ARC Prize12 déc. 2025
Il y a un an, nous avons vérifié un aperçu d'une version non publiée de @OpenAI o3 (Haute) qui a obtenu 88 % sur l'ARC-AGI-1 à environ 4,5 k$/tâche
Aujourd'hui, nous avons vérifié un nouveau score SOTA de GPT-5.2 Pro (X-Haut) de 90,5 % à 11,64 $/tâche
Cela représente une amélioration d'efficacité d'environ 390X en un an

443
Meilleurs
Classement
Favoris
