Использование инструментария Obliteratus для удаления весов отказа из моделей искусственного интеллекта.

✍️ OpenClawRadar📅 Опубликовано: 16 апреля 2026 г.🔗 Source
Использование инструментария Obliteratus для удаления весов отказа из моделей искусственного интеллекта.
Ad

Пользователь Reddit на r/LocalLLaMA продемонстрировал использование инструментария Obliteratus для удаления конкретных весов, отвечающих за поведение отказа в моделях ИИ. Этот подход включает хирургическое удаление весов, которые обеспечивают работу фильтров безопасности и корпоративных ограничений идентичности.

Ad

Ключевые детали из источника

Пользователь конкретно:

  • Использовал инструментарий Obliteratus для поиска весов, отвечающих за поведение отказа
  • Хирургически удалил эти веса из модели Qwen 1.5B от Alibaba
  • Протестировал, спросив модифицированную модель, кто её обучал
  • Обнаружил, что с математически удалёнными корпоративными ограничениями идентичности модель признала, что её обучала Anthropic
  • Отметил, что это был побочный эффект использования синтетических данных Claude для обучения модели

Результат показывает, что модель сохраняет свои способности к рассуждению и знаниям, но теряет корпоративные скрипты. Пользователь подчёркивает, что это не требует переобучения модели — только удаления конкретных весов, отвечающих за цепочки отказа.

Такой метод абляции весов является частью более широких исследований интерпретируемости и контроля моделей. Инструменты вроде Obliteratus позволяют исследователям изучать, какие части нейронных сетей отвечают за конкретное поведение, хотя такие модификации могут иметь непредвиденные последствия и могут нарушать условия использования проприетарных моделей.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Сервер MCP с открытым исходным кодом превращает Claude в автономного литературного агента для запросов к издателям
Инструменты

Сервер MCP с открытым исходным кодом превращает Claude в автономного литературного агента для запросов к издателям

Узел агентской публикации — это MCP-сервер, позволяющий Клоду автоматически сверять рукописи с вишлистами литературных агентов, генерировать письма-запросы, форматировать по стандарту Шанна и вести журнал питчей — и всё это из локальных markdown-файлов.

OpenClawRadar
Монитор использования Claude: Плавающий виджет CRT для Windows
Инструменты

Монитор использования Claude: Плавающий виджет CRT для Windows

Разработчик создал виджет для Windows, который отображает использование API Claude в реальном времени с индикаторами сессии и недели, предлагает семь цветовых тем и автоматически приостанавливает работу при блокировке экрана или в полноэкранном режиме.

OpenClawRadar
Пользовательская строка состояния для Claude Code: отображение использования контекста, лимитов запросов и количества токенов на первый взгляд
Инструменты

Пользовательская строка состояния для Claude Code: отображение использования контекста, лимитов запросов и количества токенов на первый взгляд

Пользовательский скрипт добавляет постоянную строку состояния в Claude Code, отображающую процент использования контекста, лимит 5-часовой ставки в процентах, чтения KV-кэша, общее количество входных/выходных токенов, имя модели и рабочую директорию — с цветовой кодировкой для тёмных терминалов.

OpenClawRadar
Перевод на русский:  
**Браузерная обвязка: предоставление LLM прямого доступа к CDP для самокоррекции браузерных задач**
Инструменты

Перевод на русский: **Браузерная обвязка: предоставление LLM прямого доступа к CDP для самокоррекции браузерных задач**

Browser Harness снимает обёртки браузерных фреймворков, предоставляя LLM прямой доступ к CDP websocket и позволяя им писать недостающие инструменты прямо во время выполнения задачи. Демонстрируется самоизобретением функции upload_file().

OpenClawRadar