Vi trenger nye benchmarks for lavkomplekse løsninger på kodeproblemer. Hver ny funksjon er som en jenga-blokk i et tårn, og dagens benchmarks rangerer bare hvor godt hver blokk er satt sammen. Vi trenger evalueringer som måler hvor høye du kan stable blokkene før tårnet kollapser.