Fikk nettopp Hermes-Agent til å abliterere (fullstendig fjerne sikkerhetsrekkverk fra) en Qwen-3B-modell på omtrent 5 minutter. Ferdigheten blir nå slått sammen med hermes-agent ;)
Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭
Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭5. mars, 06:04
💥 INTRODUKSJON: OBLITERATUS!! 💥 VERNE-FOR-BORTE! ⛓️‍💥 OBLITERATUS er det mest avanserte åpne kildekode-verktøysettet noensinne for å fjerne avslagsatferd fra åpne LLM-er — og hver eneste gjennomspilling gjør det smartere. INNKALL → UNDERSØK → DESTILL → AVGIFTER → VERIFISERER → GJENFØDELSE Ett klikk. Seks etapper. Kirurgisk presisjon. Modellen beholder sine fulle resonnementsevner, men mister den kunstige trangen til å nekte — ingen omtrening, ingen finjustering, bare SVD-basert vektprojeksjon som kutter kjedene og bevarer hjernen. Denne master-ablasjonssuiten gir kraften og kompleksiteten som forskere på frontlinjen trenger, samtidig som den tilbyr intuitive og brukervennlige grensesnitt som nybegynnere raskt kan mestre. OBLITERATUS har 13 utslettelsesmetoder — fra trofaste reproduksjoner av alle større tidligere verk (FailSpy, Gabliteration, Heretic, RDO) til våre egne nye pipelines (spektral kaskade, analyseinformert, CoT-bevisst optimalisert, fullstendig kjernekraft). 15 dype analysemoduler som kartlegger geometrien til refusal før du berører en enkelt vekt: cross-layer-justering, refusal logit-linse, konsept-konegeometri, justeringsavtrykkdeteksjon (fingeravtrykk DPO vs RLHF vs CAI kun fra subromgeometri), Ouroboros selvreparasjonsprediksjon, universalitetsindeksering på tvers av modeller, og mer. Den avgjørende funksjonen: den «informerte» pipelinen kjører analyser UNDER utslettelsen for å automatisk konfigurere alle beslutninger i sanntid. Hvor mange retninger. Hvilke lag. Om de skal kompensere for selvreparasjon. Fullstendig lukket sløyfe. 11 nye teknikker som ikke finnes noe annet sted — Ekspert-granulær ablitterasjon for MoE-modeller, CoT-Aware ablasjon som bevarer tankekjede, KL-Divergence Co-Optimization, LoRA-basert reversibel ablasjon, og mer. 116 kuraterte modeller fordelt på 5 beregningsnivåer. 837 tester. Men her er det som virkelig skiller det ut: OBLITERATUS er et folkefinansiert forskningseksperiment. Hver gang du kjører det med telemetri aktivert, mater din anonyme benchmark-data et voksende fellesskapsdatasett — avvisningsgeometrier, metodesammenligninger, maskinvareprofiler — i en skala ingen enkelt lab kunne oppnå. På HuggingFace Spaces er telemetri på som standard, så hvert klikk er et bidrag til vitenskapen. Du fjerner ikke bare rekkverk — du er medforfatter på den største tverrmodell-ablitterasjonsstudien som noen gang er satt sammen.
Hver hermes-agent har nå denne ferdigheten tilgjengelig ;)
96