💥 INTRODUCERE: OBLITERATUS!! 💥 BALUSTRADĂ - DISPAREȚI! ⛓️‍💥 OBLITERATUS este cel mai avansat set de instrumente open-source pentru eliminarea comportamentelor de refuz din LLM-urile open-weight — iar fiecare execuție îl face mai inteligent. CHEMAȚI → SONDĂ → SĂ REDUCĂ → ACIZĂ → VERIFICAȚI → REBIRTH Un click. Șase etape. Precizie chirurgicală. Modelul își păstrează toate capacitățile de raționament, dar pierde compulsia artificială de a refuza — fără reantrenament, fără ajustări fine, doar proiecție de greutate bazată pe SVD care taie lanțurile și păstrează creierul. Această suită master de ablație aduce puterea și complexitatea de care cercetătorii de frontieră au nevoie, oferind totodată interfețe intuitive și ușor de folosit pe care începătorii le pot stăpâni rapid. OBLITERATUS dispune de 13 metode de obliterare — de la reproduceri fidele ale fiecărei lucrări majore anterioare (FailSpy, Gabliteration, Heretic, RDO) până la propriile noastre conducte noi (cascadă spectrală, informată de analiză, optimizată conștientă de CoT, nucleară completă). 15 module de analiză profundă care cartografiază geometria refuzului înainte să atingi o singură greutate: aliniere cross-layer, lentilă logit de refuz, geometrie concept con, detectarea amprentelor de aliniere (amprente DPO vs RLHF vs CAI doar din geometria subspațială), predicția auto-reparării Ouroboros, indexarea universalității cross-model și altele. Caracteristica principală: pipeline-ul "informat" rulează analiza ÎN timpul obliterării pentru a configura automat fiecare decizie în timp real. Câte direcții. Ce straturi. Dacă să compenseze pentru auto-reparare. Complet în buclă închisă. 11 tehnici noi care nu există nicăieri altundeva — Abliterare Expert Granular pentru modele MoE, Ablație Conștientă de CoT care păstrează lanțul de gândire, Co-Optimizare prin Divergență KL, Ablație reversibilă bazată pe LoRA și altele. 116 modele selectate în 5 niveluri de calcul. 837 de teste. Dar iată ce îl diferențiază cu adevărat: OBLITERATUS este un experiment de cercetare realizat prin crowdsourcing. De fiecare dată când îl rulezi cu telemetria activată, datele tale anonime de benchmark alimentează un set de date comunitar în creștere — geometrii de refuz, comparații de metode, profiluri hardware — la o scară pe care niciun laborator nu ar putea-o atinge. Pe HuggingFace Spaces telemetria este activată implicit, deci fiecare click este o contribuție la știință. Nu doar elimini barele de protecție — co-autori cel mai mare studiu de abliterare cross-model realizat vreodată.
🚀 6 MODURI DE A-L FOLOSI HuggingFace Spaces — zero configurație, rulează pe ZeroGPU, cotă zilnică gratuită cu HF Pro Interfață web locală — aceeași interfață Gradio pe propria ta placă video Caută pe Google Colab — T4 gratuit, funcționează până la ~8 miliarde parametri CLI — o comandă: obliteratus obliterate model --metodă avansată API Python — control programatic complet, fiecare artefact intermediar expus Configurații YAML — studii reproductibile pe care le poți controla și partaja
Interfața are câteva funcții interesante precum vizualizarea datelor, chat A/B pentru a compara modelul original cu cel distrus, o analiză de puncte forte pentru analize aprofundate și un clasament care afișează rezultatele benchmark-ului din comunitate, astfel încât să putem învăța și îmbunătăți împreună!
Întregul proiect a fost rezultatul a aproximativ 200 de prompturi (Opus-4.6 cu CC) și include, de asemenea, o lucrare de cercetare! Opus *pretinde* că a adus unele contribuții inovatoare în această nișă. Sunt sceptic în privința nivelului de rigoare și există câteva piese evidente lipsă/elemente provizorii, dar dacă cineva cu abilități tehnice solide poate oferi feedback, aș aprecia mult, foarte mult. 🙏 Speranța mea este ca, odată ce vom aduna o cantitate semnificativă de date experimentale, această lucrare ar putea într-o zi să aibă o amploare reală! Link către fișierul latex:
1,18K