エンジニアとして最も希少な資源は自分の時間です。モデルごとにタスクごとに急増し、すべてのLLMが時々不安定になることもあるので、コーディングの時間を節約する自然な方法は、同じタスクを複数のモデルで同時に実行し、結果を比較してどのモデルを使いたいか決めることです。 この面白い副産物の一つは、おそらく最も自然な現実世界のコーディング評価が得られることです!誰もが、固定されたタスクのセットでベンチマックスをするのがどれほど簡単か知っています。この評価は、開発者の日常業務に最適なモデルを真に試すものです。