Fick precis Hermes-Agent att abliterera (helt ta bort räcken från) en Qwen-3B-modell på ungefär 5 minuter. Färdigheten slås nu ihop med hermes-agent ;)
Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭
Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭5 mars 06:04
💥 INTRODUKTION: OBLITERATUS!! 💥 SKYDDSRÄCKEN! ⛓️‍💥 OBLITERATUS är det mest avancerade open source-verktygspaketet någonsin för att ta bort vägrande beteenden från öppna LLM:er – och varje enskild genomspelning gör det smartare. KALLA → UNDERSÖKA → FÖRVERKLIGA → PUNKTSKATT → VERIFIERA → ÅTERFÖDELSE Ett klick. Sex etapper. Kirurgisk precision. Modellen behåller sin fulla resonemangsförmåga men förlorar den konstgjorda tvånget att vägra — ingen omträning, ingen finjustering, bara SVD-baserad viktprojektion som klipper kedjorna och bevarar hjärnan. Denna master-ablationssvit ger den kraft och komplexitet som forskare på gränslandet behöver, samtidigt som den erbjuder intuitiva och lättanvända gränssnitt som nybörjare snabbt kan bemästra. OBLITERATUS innehåller 13 utplåningsmetoder – från trogna reproduktioner av alla större tidigare verk (FailSpy, Gabliteration, Heretic, RDO) till våra egna nya pipelines (spektral kaskad, analysinformerad, CoT-medveten optimerad, full kärnkraft). 15 djupanalysmoduler som kartlägger refusal-geometrin innan du rör vid en enda vikt: cross-layer-justering, refusal logit-lins, konceptkongeometri, justeringsavtrycksdetektering (fingeravtryck DPO vs RLHF vs CAI enbart från subspacegeometri), Ouroboros självreparationsprediktion, universalitetsindexering över modeller och mer. Den avgörande funktionen: den "informerade" pipelinen kör analyser UNDER utplåningen för att automatiskt konfigurera varje beslut i realtid. Hur många riktningar. Vilka lager. Om man ska kompensera för självreparation. Helt sluten slinga. 11 nya tekniker som inte finns någon annanstans — Expert-Granular Ablitteration för MoE-modeller, CoT-Aware Ablation som bevarar tankekedjan, KL-Divergence Co-Optimization, LoRA-baserad reversibel ablation och mer. 116 kuraterade modeller över 5 beräkningsnivåer. 837 tester. Men här är vad som verkligen skiljer den åt: OBLITERATUS är ett crowdsourcat forskningsexperiment. Varje gång du kör det med telemetri aktiverat, matar din anonyma benchmarkdata en växande communitydatamängd – vägringsgeometrier, metodjämförelser, hårdvaruprofiler – i en skala som inget enskilt laboratorium skulle kunna uppnå. På HuggingFace Spaces är telemetri aktiverad som standard, så varje klick är ett bidrag till vetenskapen. Du tar inte bara bort skyddsräcken – du är medförfattare till den största tvärmodellablitterationsstudien som någonsin sammanställts.
Varje Hermes-agent har nu denna färdighet tillgänglig ;)
221