inspiriert von Auto-Recherche habe ich hermes-agent dazu gebracht, sich selbst besser zu machen, unendlich (sozusagen). Ich gab hermes-agent einen gemieteten 5090 und Qwen3.5:4b und sagte ihm, es solle den besten Forschungs-Agenten für hermes erstellen. Der vorgeschlagene Workflow war: -Benchmark des Modells ausführen -ein QLoRA hinzufügen oder feinabstimmen -Modell in den Systemspeicher laden -wiederholen und so weiter, es endete damit, ein Modell zu erstellen, das Qwen3.5:27b übertraf (und fast die eigene Leistung verdoppelte) in DeepPlanning (17.8 auf 31.2) und verwandten Benchmarks. Ich bin mir sicher, dass dieses Modell mit mehr Zeit (das wurde in 7 Stunden gemacht) 31.2 übertreffen und weiter iterieren könnte. Dies ist eine Einreichung für den @NousResearch @Teknium Hackathon, großartiges Produkt, das sie hier haben. Unten ist eine Grafik der Verbesserung pro Feinabstimmung (Bild erstellt mit gpt-image-1.5)