Czy możemy wykorzystać transkrypty agentów, aby zrozumieć możliwości agentów🤔? Okazuje się, że być może kodowanie transkryptów agentów może określić górną granicę naszych zysków wydajnościowych z AI. Więcej na temat moich najnowszych badań @METR_Evals w 🧵
Współczynnik oszczędności czasu = (czas bez AI) / (czas z AI) na zadaniach zawartych w transkryptach Szacuję czas bez AI z sędzią LLM i obliczam czas z AI, sprawdzając, czy w każdym 10-minutowym oknie znajduje się wiadomość napisana przez człowieka, a następnie sumuję wszystkie aktywne okna.
Jednakże, w wielu aspektach to przeszacowuje prawdziwy wzrost wydajności‼️ 1. Ludzie używają AI do zadań o niskiej wartości, których w przeciwnym razie by nie wykonali. Nazywamy je zadaniami Cadillac 2. Wykonujemy wiele zadań bez AI i używamy AI tylko w zadaniach, w których spodziewamy się, że będzie pomocne.
tom cunningham
tom cunningham22 sty 2026
Cadillac tasks: I believe many estimates of LLM productivity boosts are over-estimates because people are using them for cadillac tasks: things that would take you a long time unaided, but have only marginal additional value.
3. Sędzia LLM ma tendencję do przeszacowywania, ile czasu zajęłoby wykonanie tej samej pracy bez AI z powodu a) specjalizacji pracowników, b) ograniczonej zdolności do wykrywania nieudanych zadań, c) nadmiaru spowodowanego przez agenta oraz d) postępu, który został cofnięty między transkryptami, itd.
Interesująco, zauważam również, że czynnik oszczędności czasu jest skorelowany z liczbą agentów, z którymi ludzie pracują równolegle. Sugeruje to, że przyszłe badania dotyczące podnoszenia i transkrypcji powinny właściwie uwzględniać współbieżność agentów.
468