Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Czy możemy wykorzystać transkrypty agentów, aby zrozumieć możliwości agentów🤔? Okazuje się, że być może kodowanie transkryptów agentów może określić górną granicę naszych zysków wydajnościowych z AI. Więcej na temat moich najnowszych badań @METR_Evals w 🧵

Współczynnik oszczędności czasu = (czas bez AI) / (czas z AI) na zadaniach zawartych w transkryptach Szacuję czas bez AI z sędzią LLM i obliczam czas z AI, sprawdzając, czy w każdym 10-minutowym oknie znajduje się wiadomość napisana przez człowieka, a następnie sumuję wszystkie aktywne okna.

Jednakże, w wielu aspektach to przeszacowuje prawdziwy wzrost wydajności‼️ 1. Ludzie używają AI do zadań o niskiej wartości, których w przeciwnym razie by nie wykonali. Nazywamy je zadaniami Cadillac 2. Wykonujemy wiele zadań bez AI i używamy AI tylko w zadaniach, w których spodziewamy się, że będzie pomocne.

3. Sędzia LLM ma tendencję do przeszacowywania, ile czasu zajęłoby wykonanie tej samej pracy bez AI z powodu a) specjalizacji pracowników, b) ograniczonej zdolności do wykrywania nieudanych zadań, c) nadmiaru spowodowanego przez agenta oraz d) postępu, który został cofnięty między transkryptami, itd.

Interesująco, zauważam również, że czynnik oszczędności czasu jest skorelowany z liczbą agentów, z którymi ludzie pracują równolegle. Sugeruje to, że przyszłe badania dotyczące podnoszenia i transkrypcji powinny właściwie uwzględniać współbieżność agentów.

468

Najlepsze

Ranking

Ulubione