Potansiyel bir ortak bizim kıyaslama rakamlarımızı istedi. O zamanlar benchmarklar bizi diğer ajanların gerisinde tutuyordu. Bir hafta sonu bunu düzeltmek için harcadık: Cline'ı Terminal Bench'in 89 gerçek dünya göreviyle karşılaştırdık, her arızayı teşhis ettik ve çözümleri gönderdik. %47 → %57.
Tam süreci yazdık: Değerlendirme boru hattını nasıl kurduğumuzu, bulduğumuz arıza kalıplarını ve iğneyi hareket ettiren çözümleri. Bu yöntem (yokuş tırmanışı) sadece Cline için değil, herhangi bir ajanla işe yarar. Tam rehber:
86