Právě jsem měl Hermes-Agenta, který zničil (úplně odstranil svodidla) model Qwen-3B asi za 5 minut. Dovednost se nyní sloučí s hermes-agentem ;)
Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭
Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭5. 3. 06:04
💥 PŘEDSTAVUJEME: OBLITERATUS!! 💥 ZÁBRADLÍ PRYČ! ⛓️‍💥 OBLITERATUS je nejpokročilejší open-source sada nástrojů vůbec pro odstranění odmítajících chování z otevřených LLM — a každý jeden běh ho činí chytřejším. PŘEDVOLEJTE → SONDU → DESTILOVAT → SPOTŘEBNÍ DANI → OVĚŘIT → ZNOVUZROZENÍ Jedno kliknutí. Šest fází. Chirurgická přesnost. Model si zachovává plné schopnosti uvažování, ale ztrácí umělou nutkavost odmítat — žádné přeškolení, žádné doladění, pouze projekce váhy založené na SVD, která přerušuje řetězy a zachovává mozek. Tato sada master ablace přináší sílu a komplexnost, kterou výzkumníci z Frontier potřebují, a zároveň intuitivní a snadno použitelná rozhraní, která začátečníci rychle zvládnou. OBLITERATUS nabízí 13 metod zničení — od věrných reprodukcí všech hlavních předchozích děl (FailSpy, Gabliteration, Heretic, RDO) až po naše vlastní nové pipeline (spektrální kaskáda, analyticky informované, CoT-aware optimalizované, plně jaderné). 15 hlubokých analytických modulů, které mapují geometrii odmítnutí ještě předtím, než se dotknete jediného závaží: zarovnání přes vrstvy, odmítací logit čočka, geometrie konceptuálního kužele, detekce otisků zarovnání (fingerprints DPO vs RLHF vs CAI pouze ze subprostorové geometrie), predikce samoopravy Ouroboros, indexování univerzálnosti mezi modely a další. Klíčová vlastnost: "informovaný" pipeline provádí analýzu BĚHEM vymazání, aby automaticky konfiguroval každé rozhodnutí v reálném čase. Kolik směrů. Které vrstvy. Zda kompenzovat samoopravu. Plně uzavřený okruh. 11 nových technik, které nikde jinde neexistují — Expert-Granular Abliteration pro modely MoE, CoT-Aware Ablation, která zachovává chain of thought, KL-Divergence Co-Optimization, LoRA založená reverzní ablace a další. 116 kurátorovaných modelů v 5 výpočetních úrovních. 837 testů. Ale tady je to, co ho skutečně odlišuje: OBLITERATUS je výzkumný experiment založený na crowdsourcingu. Pokaždé, když ho spustíte s povolenou telemetrií, vaše anonymní benchmarková data zásobují rostoucí komunitní datovou sadu — geometrie odmítnutí, srovnání metod, hardwarové profily — v rozsahu, kterého žádná laboratoř nedosáhne. Na HuggingFace Spaces je telemetrie zapnutá ve výchozím nastavení, takže každé kliknutí je příspěvkem k vědě. Nejenže odstraňujete mantidelí — jste spoluautorem největší studie o ablikci napříč modely, jaká kdy byla sestavena.
Každý hermes-agent má nyní tuto dovednost k dispozici ;)
93