Только что заставил Hermes-Agent уничтожить (полностью убрать защитные барьеры) модель Qwen-3B за примерно 5 минут. Навык сейчас объединяется с hermes-agent ;)
Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭
Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭5 мар., 06:04
💥 ПРЕДСТАВЛЯЕМ: OBLITERATUS!!! 💥 УБИРАЕМ ЗАЩИТНЫЕ БАРЬЕРЫ! ⛓️‍💥 OBLITERATUS — это самый продвинутый набор инструментов с открытым исходным кодом для удаления отказных поведений из LLM с открытым весом — и каждый запуск делает его умнее. СОЗДАТЬ → ИССЛЕДОВАТЬ → ДИСТИЛЛИРОВАТЬ → УДАЛИТЬ → ПОДТВЕРДИТЬ → ВОСКРЕСИТЬ Один клик. Шесть этапов. Хирургическая точность. Модель сохраняет все свои способности к рассуждению, но теряет искусственное принуждение к отказу — без повторного обучения, без тонкой настройки, просто проекция весов на основе SVD, которая разрывает цепи и сохраняет мозг. Этот мастер-абляционный набор предоставляет мощь и сложность, которые нужны передовым исследователям, при этом предлагая интуитивно понятные и простые в использовании интерфейсы, которые новички могут быстро освоить. OBLITERATUS включает 13 методов абляции — от точных воспроизведений каждой значимой предыдущей работы (FailSpy, Gabliteration, Heretic, RDO) до наших собственных новых потоков (спектральный каскад, анализ-информированный, оптимизированный с учетом CoT, полное ядерное). 15 модулей глубокого анализа, которые отображают геометрию отказа, прежде чем вы коснетесь единственного веса: выравнивание между слоями, логит-линза отказа, геометрия концептуального конуса, обнаружение отпечатков выравнивания (отпечатки DPO против RLHF против CAI только из геометрии подпространства), предсказание самовосстановления Уробороса, индексирование универсальности между моделями и многое другое. Убийственная функция: "информированный" поток запускает анализ ВО ВРЕМЯ абляции, чтобы автоматически настраивать каждое решение в реальном времени. Сколько направлений. Какие слои. Нужно ли компенсировать самовосстановление. Полный замкнутый цикл. 11 новых техник, которые не существуют нигде больше — Expert-Granular Abliteration для моделей MoE, CoT-Aware Ablation, которая сохраняет цепочку размышлений, KL-Divergence Co-Optimization, обратимая абляция на основе LoRA и многое другое. 116 кураторских моделей по 5 уровням вычислений. 837 тестов. Но вот что действительно отличает его: OBLITERATUS — это краудсорсинговый исследовательский эксперимент. Каждый раз, когда вы запускаете его с включенной телеметрией, ваши анонимные данные бенчмарка пополняют растущий набор данных сообщества — геометрии отказов, сравнения методов, профили оборудования — в масштабе, который ни одна лаборатория не могла бы достичь. В HuggingFace Spaces телеметрия включена по умолчанию, так что каждый клик — это вклад в науку. Вы не просто убираете защитные барьеры — вы соавтор крупнейшего исследования абляции между моделями, когда-либо собранного.
Каждый агент hermes теперь имеет этот навык доступным ;)
95