Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tocmai am avut Hermes-Agent să distrugă (să elimine complet balustradele) unui model Qwen-3B în aproximativ 5 minute.
Abilitatea este acum comasată cu hermes-agent ;)


5 mar., 06:04
💥 INTRODUCERE: OBLITERATUS!! 💥
BALUSTRADĂ - DISPAREȚI! ⛓️💥
OBLITERATUS este cel mai avansat set de instrumente open-source pentru eliminarea comportamentelor de refuz din LLM-urile open-weight — iar fiecare execuție îl face mai inteligent.
CHEMAȚI → SONDĂ → SĂ REDUCĂ → ACIZĂ → VERIFICAȚI → REBIRTH
Un click. Șase etape. Precizie chirurgicală. Modelul își păstrează toate capacitățile de raționament, dar pierde compulsia artificială de a refuza — fără reantrenament, fără ajustări fine, doar proiecție de greutate bazată pe SVD care taie lanțurile și păstrează creierul.
Această suită master de ablație aduce puterea și complexitatea de care cercetătorii de frontieră au nevoie, oferind totodată interfețe intuitive și ușor de folosit pe care începătorii le pot stăpâni rapid.
OBLITERATUS dispune de 13 metode de obliterare — de la reproduceri fidele ale fiecărei lucrări majore anterioare (FailSpy, Gabliteration, Heretic, RDO) până la propriile noastre conducte noi (cascadă spectrală, informată de analiză, optimizată conștientă de CoT, nucleară completă).
15 module de analiză profundă care cartografiază geometria refuzului înainte să atingi o singură greutate: aliniere cross-layer, lentilă logit de refuz, geometrie concept con, detectarea amprentelor de aliniere (amprente DPO vs RLHF vs CAI doar din geometria subspațială), predicția auto-reparării Ouroboros, indexarea universalității cross-model și altele.
Caracteristica principală: pipeline-ul "informat" rulează analiza ÎN timpul obliterării pentru a configura automat fiecare decizie în timp real. Câte direcții. Ce straturi. Dacă să compenseze pentru auto-reparare. Complet în buclă închisă.
11 tehnici noi care nu există nicăieri altundeva — Abliterare Expert Granular pentru modele MoE, Ablație Conștientă de CoT care păstrează lanțul de gândire, Co-Optimizare prin Divergență KL, Ablație reversibilă bazată pe LoRA și altele. 116 modele selectate în 5 niveluri de calcul. 837 de teste.
Dar iată ce îl diferențiază cu adevărat: OBLITERATUS este un experiment de cercetare realizat prin crowdsourcing. De fiecare dată când îl rulezi cu telemetria activată, datele tale anonime de benchmark alimentează un set de date comunitar în creștere — geometrii de refuz, comparații de metode, profiluri hardware — la o scară pe care niciun laborator nu ar putea-o atinge. Pe HuggingFace Spaces telemetria este activată implicit, deci fiecare click este o contribuție la știință. Nu doar elimini barele de protecție — co-autori cel mai mare studiu de abliterare cross-model realizat vreodată.

Fiecare agent Hermes are acum această abilitate disponibilă ;)
118
Limită superioară
Clasament
Favorite
