Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dziś przeczytałem długi artykuł na temat inżynierii harness — dziesiątki tysięcy słów, prawdopodobnie napisany przez AI. Moja pierwsza reakcja nie była "wow, jaki potężny koncept." To było "czy ci ludzie mają jakiekolwiek pomysły poza wymyślaniem nowych terminów dla starych?"
Zawsze irytował mnie ten wzór w świecie AI — ciągłe wynajdywanie na nowo istniejących koncepcji. Od inżynierii promptów po inżynierię kontekstu, teraz do inżynierii harness. Co kilka miesięcy ktoś wymyśla nowy termin, pisze esej na 10 000 słów, dodaje kilka studiów przypadków dużych firm, a cała społeczność zaczyna się ekscytować. Ale jeśli naprawdę spojrzysz na treść, to za każdym razem to samo:
Zaprojektuj środowisko, w którym działa twój model — jakie informacje otrzymuje, jakie narzędzia może używać, jak przechwytywane są błędy, jak zarządzana jest pamięć w sesjach. To istnieje od dnia, w którym uruchomiono ChatGPT. Nie staje się nową dyscypliną tylko dlatego, że ktoś — z jakiegokolwiek powodu — postanowił nadać temu nową nazwę.
To powiedziawszy, pomijając skargi, badania i studia przypadków cytowane w artykule mają wartość — zwłaszcza, że mocno pokrywają się z tym, co budowałem z how-to-sglang. Więc pozwól, że wykorzystam to jako okazję, aby porozmawiać o błędach, które faktycznie popełniłem.
Najpierw trochę tła. Najczęstsze pytania w społeczności SGLang to pytania typu How-to — jak wdrożyć DeepSeek-V3 na 8 GPU, co zrobić, gdy brama nie może dotrzeć do adresu roboczego, czy różnica między GLM-5 INT4 a oficjalnym FP8 jest znacząca. Te pytania obejmują niezwykle szeroki zakres techniczny, a w miarę jak społeczność rośnie coraz szybciej, coraz trudniej nam nadążyć z odpowiedziami. Więc zacząłem budować system wieloagentowy, aby automatycznie na nie odpowiadać.
Pierwszy pomysł był, oczywiście, najbardziej naiwne — zbudować jednego wszechwiedzącego Agenta, włożyć wszystkie dokumenty, kod i przepisy SGLang do niego i pozwolić mu odpowiadać na wszystko.
To nie zadziałało.
Nie potrzebujesz teorii inżynierii harness, aby wyjaśnić dlaczego — okno kontekstowe to nie RAM. Im więcej wrzucisz do niego, tym bardziej uwaga modelu się rozprasza i tym gorsze stają się odpowiedzi. Agent próbujący jednocześnie zrozumieć kwantyzację, rozdzielanie PD, serwowanie dyfuzji i kompatybilność sprzętową kończy zrozumieniem żadnego z nich w głębi.
Projekt, na którym ostatecznie się osiedliliśmy, to architektura ekspertów subdomen w wielu warstwach. Dokumentacja SGLang ma już naturalne granice funkcjonalne — zaawansowane funkcje, platformy, wspierane modele — z przepisami zorganizowanymi według modelu. Przekształciliśmy każdą subdomenę w niezależnego agenta eksperta, z Menedżerem Debat Ekspertów odpowiedzialnym za przyjmowanie pytań, rozkładanie ich na pod-pytania, konsultowanie się z Ekspertową Tabelą Routingową, aby aktywować odpowiednich agentów, rozwiązywanie równolegle, a następnie syntezę odpowiedzi.
Patrząc wstecz, ten projekt prawie idealnie pasuje do wzorców, które promuje społeczność inżynierii harness. Ale kiedy to budowałem, nie miałem pojęcia, że te wzorce mają nazwy. I nie musiałem.
1. Postępujące ujawnianie — nie wrzuciliśmy całej dokumentacji do żadnego pojedynczego agenta. Każdy ekspert dziedziny ładuje tylko swoją wiedzę z danej dziedziny, a Menedżer decyduje, kogo aktywować w zależności od typu pytania. Moje przeczucie jest takie, że ten projekt przyniósł znacznie więcej poprawy niż wymiana na silniejszy model kiedykolwiek przyniosła. Nie musisz wiedzieć, że to się nazywa "postępujące ujawnianie", aby podjąć tę decyzję. Musisz tylko raz spróbować podejścia "wrzuć wszystko" i zobaczyć, jak to zawodzi.
2. Repozytorium jako źródło prawdy — cały proces roboczy żyje w repozytorium how-to-sglang. Wszystkie agenty ekspertów czerpią swoją wiedzę z plików markdown wewnątrz repozytorium, bez zależności od zewnętrznych dokumentów czy ustnych umów. Na początku mieliśmy chęć napisania jednego ogromnego sglang-maintain.md obejmującego wszystko. Szybko nauczyliśmy się, że to nie działa. Zespół Codex OpenAI popełnił ten sam błąd — próbowali jednego przerośniętego AGENTS.md i obserwowali, jak to gnije w przewidywalny sposób. Nie musisz czytać ich bloga, aby samemu wpaść na tę minę. To klasyczny problem inżynierii oprogramowania "monolityczne dokumenty zawsze się starzeją", z tym że w kontekście agenta konsekwencje są gorsze — przestarzała dokumentacja nie tylko nie jest czytana, ale aktywnie wprowadza agenta w błąd.
3. Strukturalne routowanie — Ekspertowa Tabela Routingowa wyraźnie mapuje typy pytań do agentów. Pytanie o GLM-5 INT4 aktywuje jednocześnie zarówno Eksperta Dziedziny Książek Kucharskich, jak i Eksperta Dziedziny Kwantyzacji. Menedżer nie zgaduje; podąża za strukturalnym indeksem. Społeczność inżynierii harness nazywa to "mechanizowanymi ograniczeniami." Ja nazywam to normalną inżynierią.
Nie mówię, że pomysły stojące za inżynierią harness są złe. Cytowane badania są solidne, koncepcja ACI z SWE-agent jest naprawdę warta poznania, a architektura podwójnego agenta Anthropic (agent inicjalizujący + agent kodujący) jest cennym materiałem referencyjnym dla każdego, kto zajmuje się zadaniami długoterminowymi. To, co mnie męczy, to ciągłe wymyślanie nowych terminów — pakowanie ustalonej inżynieryjnej zdrowego rozsądku jako nowej dyscypliny, a następnie wytwarzanie niepokoju wokół "jesteś w tyle, jeśli nie znasz tego słowa."
Inżynieria promptów, inżynieria kontekstu, inżynieria harness — to różne aspekty tej samej rzeczy. W przyszłym miesiącu ktoś prawdopodobnie wymyśli inżynierię rusztowań lub inżynierię orkiestracji, napisze kolejny długi esej cytujący ten sam artykuł SWE-agent, a społeczność rozpocznie kolejny cykl amplifikacji.
To, czego faktycznie nauczyłem się z how-to-sglang, można wyrazić bez żadnego nowego słownictwa:...

Najlepsze
Ranking
Ulubione
