え、何だって!?tau2-benchを強固化したところ、@OpenAIで新たにリリースされたモデル(GPT-5.1)はGPT-5やGPT-5-miniよりもはるかに性能が悪いことがわかりました。 しかもGPT-5-miniの5倍の価格です! でもどうして。私たちには仮説があります...