Heute habe ich einen langen Artikel über Harness Engineering gelesen – zehntausende von Wörtern, fast sicher von KI geschrieben. Meine erste Reaktion war nicht "Wow, was für ein kraftvolles Konzept." Es war "Haben diese Leute irgendwelche Ideen, die über das Prägung neuer Begriffe für alte Konzepte hinausgehen?" Ich war schon immer von diesem Muster in der KI-Welt genervt – die ständige Neuerfindung bestehender Konzepte. Von Prompt Engineering über Context Engineering bis hin zu Harness Engineering. Alle paar Monate prägt jemand einen neuen Begriff, schreibt einen 10.000-Wörter-Essay, streut ein paar Fallstudien großer Unternehmen ein, und die ganze Community beginnt zu summen. Aber wenn man sich den Inhalt tatsächlich ansieht, ist es jedes Mal dasselbe: Gestalte die Umgebung, in der dein Modell läuft – welche Informationen es erhält, welche Werkzeuge es verwenden kann, wie Fehler abgefangen werden, wie der Speicher über Sitzungen verwaltet wird. Das gibt es seit dem Tag, an dem ChatGPT gestartet wurde. Es wird nicht zu einer neuen Disziplin, nur weil jemand – aus welchem Grund auch immer – beschlossen hat, ihm einen neuen Namen zu geben. Das gesagt, abgesehen von den Beschwerden, haben die in dem Artikel zitierten Forschungen und Fallstudien Wert – insbesondere, da sie stark mit dem überlappen, was ich mit how-to-sglang aufgebaut habe. Lassen Sie mich dies als Gelegenheit nutzen, um über die Fehler zu sprechen, die ich tatsächlich gemacht habe. Zuerst etwas Hintergrund. Die häufigsten Anfragen in der SGLang-Community sind How-to-Fragen – wie man DeepSeek-V3 auf 8 GPUs bereitstellt, was zu tun ist, wenn das Gateway die Arbeitsadresse nicht erreichen kann, ob die Lücke zwischen GLM-5 INT4 und offiziellem FP8 signifikant ist. Diese Fragen decken eine extrem breite technische Fläche ab, und da die Community immer schneller wächst, können wir zunehmend nicht mit den Antworten Schritt halten. Also begann ich, ein Multi-Agenten-System zu entwickeln, um sie automatisch zu beantworten. Die erste Idee war natürlich die naivste – baue einen einzigen omniscienten Agenten, stopfe alle SGLang-Dokumente, Codes und Kochbücher hinein und lasse ihn alles beantworten. Das hat nicht funktioniert. Man braucht keine Theorie des Harness Engineering, um zu erklären, warum – das Kontextfenster ist kein RAM. Je mehr man hineinsteckt, desto mehr zerstreut sich die Aufmerksamkeit des Modells und desto schlechter werden die Antworten. Ein Agent, der versucht, gleichzeitig Quantisierung, PD-Disaggregation, Diffusionsdienste und Hardwarekompatibilität zu verstehen, versteht am Ende keines von ihnen tief. Das Design, auf das wir schließlich gekommen sind, ist eine mehrschichtige Sub-Domain-Expertenarchitektur. Die Dokumentation von SGLang hat bereits natürliche funktionale Grenzen – erweiterte Funktionen, Plattformen, unterstützte Modelle – mit Kochbüchern, die nach Modell organisiert sind. Wir haben jede Sub-Domain in einen unabhängigen Expertenagenten verwandelt, mit einem Expert Debating Manager, der dafür verantwortlich ist, Fragen zu empfangen, sie in Unterfragen zu zerlegen, die Expert Routing Table zu konsultieren, um die richtigen Agenten zu aktivieren, parallel zu lösen und dann Antworten zu synthetisieren. Rückblickend passt dieses Design fast perfekt zu den Mustern, die die Harness Engineering-Community befürwortet. Aber als ich es baute, hatte ich keine Ahnung, dass diese Muster Namen hatten. Und ich musste es nicht wissen. 1. Progressive Offenlegung – wir haben nicht alle Dokumentationen in einen einzigen Agenten gekippt. Jeder Fachexperte lädt nur sein eigenes Fachwissen hoch, und der Manager entscheidet, wen er basierend auf dem Fragetyp aktivieren soll. Mein Bauchgefühl ist, dass dieses Design weit mehr Verbesserung gebracht hat, als es der Austausch gegen ein stärkeres Modell je tat. Man muss nicht wissen, dass dies "progressive Offenlegung" genannt wird, um diese Entscheidung zu treffen. Man muss nur einmal den Ansatz "alles reinstecken" ausprobiert und gesehen haben, wie es scheitert. 2. Repository als Quelle der Wahrheit – der gesamte Workflow lebt im how-to-sglang-Repo. Alle Expertenagenten beziehen ihr Wissen aus Markdown-Dateien im Repo, ohne Abhängigkeit von externen Dokumenten oder mündlichen Vereinbarungen. Zu Beginn hatten wir den Drang, ein riesiges sglang-maintain.md zu schreiben, das alles abdeckt. Wir haben schnell gelernt, dass das nicht funktioniert. Das Codex-Team von OpenAI machte denselben Fehler – sie versuchten ein übergroßes AGENTS.md und sahen, wie es auf vorhersehbare Weise verfiel. Man muss nicht ihren Blog gelesen haben, um selbst auf diese Landmine zu treten. Es ist das klassische Problem der Softwaretechnik, dass "monolithische Dokumente immer veralten", nur dass in einem Agenten-Kontext die Konsequenzen schlimmer sind – veraltete Dokumentation wird nicht nur ungelesen, sie führt den Agenten aktiv in die Irre. 3. Strukturierte Weiterleitung – die Expert Routing Table ordnet Fragetypen explizit Agenten zu. Eine Frage zu GLM-5 INT4 aktiviert sowohl den Cookbook Domain Expert als auch den Quantization Domain Expert gleichzeitig. Der Manager rät nicht; er folgt einem strukturierten Index. Die Harness Engineering-Community nennt dies "mechanisierte Einschränkungen." Ich nenne es normale Ingenieurkunst. Ich sage nicht, dass die Ideen hinter Harness Engineering schlecht sind. Die zitierten Forschungen sind solide, das ACI-Konzept von SWE-agent ist wirklich wertvoll zu wissen, und die duale Agentenarchitektur von Anthropic (Initializer-Agent + Coding-Agent) ist wertvolles Referenzmaterial für jeden, der langfristige Aufgaben erledigt. Was ich ermüdend finde, ist das ständige Prägung neuer Begriffe – das Verpacken von etabliertem ingenieurtechnischen gesunden Menschenverstand als neue Disziplin und dann das Herstellen von Angst um "du bist hinten, wenn du dieses Wort nicht kennst." Prompt Engineering, Context Engineering, Harness Engineering – sie sind verschiedene Facetten desselben. Nächsten Monat wird wahrscheinlich jemand Scaffold Engineering oder Orchestration Engineering prägen, einen weiteren langen Essay schreiben, der dasselbe SWE-agent-Papier zitiert, und die Community wird einen weiteren Zyklus der Verstärkung beginnen. Was ich tatsächlich von how-to-sglang gelernt habe, kann ohne neues Vokabular ausgedrückt werden:...