Использование инструментария Obliteratus для удаления весов отказа из моделей искусственного интеллекта.

Пользователь Reddit на r/LocalLLaMA продемонстрировал использование инструментария Obliteratus для удаления конкретных весов, отвечающих за поведение отказа в моделях ИИ. Этот подход включает хирургическое удаление весов, которые обеспечивают работу фильтров безопасности и корпоративных ограничений идентичности.
Ключевые детали из источника
Пользователь конкретно:
- Использовал инструментарий Obliteratus для поиска весов, отвечающих за поведение отказа
- Хирургически удалил эти веса из модели Qwen 1.5B от Alibaba
- Протестировал, спросив модифицированную модель, кто её обучал
- Обнаружил, что с математически удалёнными корпоративными ограничениями идентичности модель признала, что её обучала Anthropic
- Отметил, что это был побочный эффект использования синтетических данных Claude для обучения модели
Результат показывает, что модель сохраняет свои способности к рассуждению и знаниям, но теряет корпоративные скрипты. Пользователь подчёркивает, что это не требует переобучения модели — только удаления конкретных весов, отвечающих за цепочки отказа.
Такой метод абляции весов является частью более широких исследований интерпретируемости и контроля моделей. Инструменты вроде Obliteratus позволяют исследователям изучать, какие части нейронных сетей отвечают за конкретное поведение, хотя такие модификации могут иметь непредвиденные последствия и могут нарушать условия использования проприетарных моделей.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Сервер MCP с открытым исходным кодом превращает Claude в автономного литературного агента для запросов к издателям
Узел агентской публикации — это MCP-сервер, позволяющий Клоду автоматически сверять рукописи с вишлистами литературных агентов, генерировать письма-запросы, форматировать по стандарту Шанна и вести журнал питчей — и всё это из локальных markdown-файлов.

Монитор использования Claude: Плавающий виджет CRT для Windows
Разработчик создал виджет для Windows, который отображает использование API Claude в реальном времени с индикаторами сессии и недели, предлагает семь цветовых тем и автоматически приостанавливает работу при блокировке экрана или в полноэкранном режиме.

Пользовательская строка состояния для Claude Code: отображение использования контекста, лимитов запросов и количества токенов на первый взгляд
Пользовательский скрипт добавляет постоянную строку состояния в Claude Code, отображающую процент использования контекста, лимит 5-часовой ставки в процентах, чтения KV-кэша, общее количество входных/выходных токенов, имя модели и рабочую директорию — с цветовой кодировкой для тёмных терминалов.

Перевод на русский: **Браузерная обвязка: предоставление LLM прямого доступа к CDP для самокоррекции браузерных задач**
Browser Harness снимает обёртки браузерных фреймворков, предоставляя LLM прямой доступ к CDP websocket и позволяя им писать недостающие инструменты прямо во время выполнения задачи. Демонстрируется самоизобретением функции upload_file().