Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Czy możemy wykorzystać transkrypty agentów, aby zrozumieć możliwości agentów🤔? Okazuje się, że być może kodowanie transkryptów agentów może określić górną granicę naszych zysków wydajnościowych z AI.
Więcej na temat moich najnowszych badań @METR_Evals w 🧵

Współczynnik oszczędności czasu = (czas bez AI) / (czas z AI) na zadaniach zawartych w transkryptach
Szacuję czas bez AI z sędzią LLM i obliczam czas z AI, sprawdzając, czy w każdym 10-minutowym oknie znajduje się wiadomość napisana przez człowieka, a następnie sumuję wszystkie aktywne okna.
Jednakże, w wielu aspektach to przeszacowuje prawdziwy wzrost wydajności‼️
1. Ludzie używają AI do zadań o niskiej wartości, których w przeciwnym razie by nie wykonali. Nazywamy je zadaniami Cadillac
2. Wykonujemy wiele zadań bez AI i używamy AI tylko w zadaniach, w których spodziewamy się, że będzie pomocne.

22 sty 2026
Cadillac tasks: I believe many estimates of LLM productivity boosts are over-estimates because people are using them for cadillac tasks: things that would take you a long time unaided, but have only marginal additional value.
3. Sędzia LLM ma tendencję do przeszacowywania, ile czasu zajęłoby wykonanie tej samej pracy bez AI z powodu a) specjalizacji pracowników, b) ograniczonej zdolności do wykrywania nieudanych zadań, c) nadmiaru spowodowanego przez agenta oraz d) postępu, który został cofnięty między transkryptami, itd.
Interesująco, zauważam również, że czynnik oszczędności czasu jest skorelowany z liczbą agentów, z którymi ludzie pracują równolegle. Sugeruje to, że przyszłe badania dotyczące podnoszenia i transkrypcji powinny właściwie uwzględniać współbieżność agentów.

468
Najlepsze
Ranking
Ulubione
